Analyse de donnee
Universit´ Paris 1 e Panth´on-Sorbonne e
Examen d’Analyse des Donn´es e
Dur´e : 2 heures – Pas de document, calculatrices autoris´es. e e
Exercice 1 : g´n´ralit´s (4 points) e e e 1. Expliquez comment d´tecter et traiter les valeurs abb´rantes et les valeurs extrˆmes. e e e 2. Expliquez comment ´valuer les r´sultats de m´thodes pr´dictives. Quelles sont les e e e e difficult´s de cette ´valuation ? e e 3. Expliquez le ph´nom`ne du sur-apprentissage. Citez une solution fr´quemment utilie e e s´e pour pallier ce probl`me et d´crivez bri`vement son fonctionnement. e e e e Exercice 2 : analyse exploratoire et pr´dictive (6 points) e 1. Donnez les crit`res de qualit´ d’un algorithme de clustering et expliquez les liens avec e e les diff´rentes inerties. e 2. On dispose des donn´es suivantes dans R2 : e Indiv. x1 x2 x3 x4 x5 x6 x7 Coord. (1, 1) (1, 3) (4, 1) (4, 6) (5, 7) (8, 4) (11, 5) (a) Dessinez dans le plan les 7 observations dont les coordon´es sont ci-dessus. e (b) Construisez le dendogramme associ´ ` la m´thode CAH avec la strat´gie d’agr´ea e e e gation du lien maximum. 3. Expliquez les principales diff´rences entre la m´thode des k-means et l’algorithme e e EM.
1
Exercice 3: Analyse en composantes principales (6 points) On consid`re les donn´es suivantes : e e Var. 1 Var. 2 Classe 25 30 30 35 10 15 15 20 -25 -20 -22 -17 -8 -11 -13 -16 1 1 1 1 2 2 2 2
1. Placez dans le plan les 8 individus ci-dessus ainsi que les moyennes empiriques des classes et la moyenne empirique de l’ensemble des donn´es. e 2. Calculez la matrice de covariance de l’ensemble des donn´es et d´terminer les axes e e principaux. 3. Choisissez le nombre d’axes principaux n´cessaires ` une bonne repr´sentation des e a e donn´es (vous direz sur quel crit`re votre choix aura ´t´ ´tabli). e e eee 4. Projetez les observations ci-dessus sur l’espace principal choisi et commentez (on pourra notamment discuter la repr´sentation des classes). e Exercice 4 : ACP et axes