Descriptif
This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).Objectifs pédagogiques
Acquis d'apprentissage À l'issue de l'UE, l'élève sera capable de: \- modéliser un problème complexe sous forme d'un processus de décision Markovien \- appliquer des méthodes d'apprentissage par renforcement pour résoudre un problème d'optimisation continue Compétences de rattachement (et justification) \- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : L'UE montre comment modéliser de nombreux problèmes pratiques par des processus de décision markoviens. \- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : L'UE expose de nombreuses méthodes de résolution de processus de décision markoviens.
24 heures en présentiel
20 heures de travail personnel estimé pour l’étudiant.
Diplôme(s) concerné(s)
- AUDITEURS_IP Paris
- Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées (Institut polytechnique de Paris)
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme AUDITEURS_IP Paris
Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées (Institut polytechnique de Paris)
Le rattrapage est autorisé (Max entre les deux notes écrêté à une note seuil)- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 2 ECTS