Descriptif
L'apprentissage statistique développe un ensemble de méthodes et algorithmes pour extraire des informations pertinentes à partir de données de plus en plus volumineuses. En apprentissage supervisé, la variable réponse est à expliquer ou prédire en fonction des variables explicatives ou prédicteurs. En apprentissage non supervisé, aucune variable n'est particularisée, et il s’agit de construire à partir de leur ensemble un modèle permettant de représenter au mieux les observations.
La première partie du cours (apprentissage non supervisé) abordera les méthodes factorielles (Analyse en composantes principales, Analyse factorielle de correspondances, ACM) et les méthodes de classification non supervisée (clustering)
La deuxième partie développera les problématiques et méthodes d'apprentissage supervisé: régression (linéaire, nonlinéaire, régression logistique, modèles linéaires généralisés), arbres de décision, régularisation en régression multiple, choix de modèle.
Les concepts théoriques seront mis en application dans des TDs informatiques avec un logiciel statistique.
Espace pédagogique: https://www.math.u-psud.fr/~keribin/EnseignementMA-STA203.htm
Objectifs pédagogiques
A l'issue du cours, l'étudiant doit être capable de :
- Faire la différence entre situation supervisée et non supervisée
- Décrire le principe des méthodes factorielles et savoir les appliquer
- Choisir une modélisation adaptée à un problème posé
- Valider la performance d'une méthode
- Mettre en oeuvre la sélection de variables
- Utiliser un logiciel statistique pour mettre en oeuvre la méthode choisie
- Interpréter et discuter les résultats
- Appréhender un nouveau type de modèle ou de logiciel en autonomie
- Rédiger un rapport sous forme informatique pour rendre compte d'une étude statistique
Diplôme(s) concerné(s)
- Master 1 Applied Mathematics ans statistics - Orsay
- Master 1 Parisien de Recherche Opérationnelle
- Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées
- Master 1 Mathématiques Appliquées
Parcours de rattachement
Pour les étudiants du diplôme Master 1 Applied Mathematics ans statistics - Orsay
STA201
Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées
STA201
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme Master 1 Parisien de Recherche Opérationnelle
Pour les étudiants du diplôme Master 1 Applied Mathematics ans statistics - Orsay
Vos modalités d'acquisition :
Un examen partiel à l'issue de la partie non supervisée (EP)
Un examen final (EX)
Un mini projet (PR)
Note = (2*EP + EX + 2* PR)/5
Session 1 : Note = (2*EP + EX + 2* PR)/5 - Session 2 : Note = 1E
Le rattrapage est autorisé (Note de rattrapage conservée)- le rattrapage est obligatoire si :
- Note initiale < 7
- le rattrapage peut être demandé par l'étudiant si :
- 7 ≤ note initiale < 10
- Crédits ECTS acquis : 2.5 ECTS
- Scientifique acquis : 2.5
Le coefficient de l'UE est : 2
La note obtenue rentre dans le calcul de votre GPA.
L'UE est évaluée par les étudiants.
Pour les étudiants du diplôme Master 1 Mathématiques Appliquées
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 7
- Crédits ECTS acquis : 4 ECTS
Le coefficient de l'UE est : 1
Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées
Vos modalités d'acquisition :
Un examen partiel à l'issue de la partie non supervisée (EP)
Un examen final (EX)
Un mini projet (PR)
Note = (2*EP + EX + 2* PR)/5
- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 2.5 ECTS
- Scientifique acquis : 2.5
Le coefficient de l'UE est : 2
La note obtenue rentre dans le calcul de votre GPA.
L'UE est évaluée par les étudiants.
Programme détaillé
Programme des séances :
- Principes de l'ACP
- Dualité en ACP - Interprétations
- AFC
- Classification non supervisée
- Cas d'étude et partiel
- Régression paramétrique non linéaire. Principes et estimation
- Asymptotique de la régression non linéaire. Tests
- Régression logistique
- Classification supervisée
- Choix de modèle et sélection de variables
- Régularisation
- Examen