Descriptif
This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).
24 heures en présentiel
Diplôme(s) concerné(s)
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées
Programme détaillé
- Markov Decision Process
- Dynamic programming
- Online evaluation
- Online control
- Value approximation
- Bandit algorithms
- Contextual bandit