UE APM_5AI18_TP | Catalogue 2026-2027

Descriptif

This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).

Objectifs pédagogiques

Acquis d'apprentissage À l'issue de l'UE, l'élève sera capable de: \- modéliser un problème complexe sous forme d'un processus de décision Markovien \- appliquer des méthodes d'apprentissage par renforcement pour résoudre un problème d'optimisation continue Compétences de rattachement (et justification) \- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : L'UE montre comment modéliser de nombreux problèmes pratiques par des processus de décision markoviens. \- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : L'UE expose de nombreuses méthodes de résolution de processus de décision markoviens.

24 heures en présentiel

20 heures de travail personnel estimé pour l’étudiant.

Diplôme(s) concerné(s)

Parcours de rattachement

AUDITEURS_IP Paris - 3ème année

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme AUDITEURS_IP Paris

Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées (Institut polytechnique de Paris)

Le rattrapage est autorisé (Max entre les deux notes écrêté à une note seuil)

le rattrapage est obligatoire si :
Note initiale < 6
le rattrapage peut être demandé par l'étudiant si :
6 ≤ note initiale < 10

L'UE est acquise si Note finale >= 10

Crédits ECTS acquis : 2 ECTS

Programme détaillé

1. Markov Decision Process 2. Dynamic programming 3. Online evaluation 4. Online control 5. Value approximation 6. Bandit algorithms 7. Contextual bandit

Mots clés

Learning, Markov Decision Process, Bandit algorithm

Méthodes pédagogiques

Cours + TP Des quiz permettent aux élèves de s'auto-évaluer. Ressources : transparents + notes de cours + notebooks

Enseignement spécifique des masters - APM_5AI18_TP : Reinforcement learning