Descriptif
This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).
Objectifs pédagogiques
Acquis d'apprentissage
À l'issue de l'UE, l'élève sera capable de:
- modéliser un problème complexe sous forme d'un processus de décision Markovien
- appliquer des méthodes d'apprentissage par renforcement pour résoudre un problème d'optimisation continue
Compétences de rattachement (et justification)
- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : L'UE montre comment modéliser de nombreux problèmes pratiques par des processus de décision markoviens.
- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : L'UE expose de nombreuses méthodes de résolution de processus de décision markoviens.
Diplôme(s) concerné(s)
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme AUDITEURS_IP Paris
Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées
Le rattrapage est autorisé (Max entre les deux notes écrêté à une note seuil)- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 2 ECTS
Programme détaillé
- Markov Decision Process
- Dynamic programming
- Online evaluation
- Online control
- Value approximation
- Bandit algorithms
- Contextual bandit
Mots clés
Learning, Markov Decision Process, Bandit algorithmMéthodes pédagogiques
Cours + TPDes quiz permettent aux élèves de s'auto-évaluer.
Ressources : transparents + notes de cours + notebooks