Analyse en coposantes principales
5
10
L’analyse en composantes principales (ACP), développée en France dans les années 1960 par JP. Benzécri, est une méthode de statistique exploratoire permettant de décrire un grand tableau de données de type individus / variables. Lorsque les individus sont décrits par un nombre important de variables, aucune représentation graphique simple ne permet de visualiser le nuage de points formé par les données. L’ACP propose une représentation dans un espace de dimension réduite, permettant ainsi de mettre en évidence d’éventuelles structures au sein des données. Pour cela, nous recherchons les sous-espaces dans lesquels la projection du nuage déforme le moins possible le nuage intial. Dans la suite, nous identifions un vecteur x ∈ Rp avec la matrice colonne de ses coordonnées dans la base canonique, que nous notons x = (x1 , . . . , xp )t , où pour une matrice A, At désigne sa transposée.
1 Les données
Les données sont sous la forme d’un tableau à n lignes et p colonnes, que l’on stocke sous la forme d’une matrice X de taille n × p : – chaque ligne (x1 , . . . , xp ) de X représente les valeurs prises par l’individu i sur les p variables, i i – de même chaque colonne (xj , . . . , xj )t de X représente les valeurs de la variable j pour les n 1 n individus. p Par simplicité de langage, l’individu i sera indentifié au vecteur xi = (x1 , . . . , xi )t de Rp tandis que la i j variable j sera identifiée au vecteur xj = (x1 , . . . , xj )t de Rn . n L’exemple que nous traiterons tout au long de ce document est le suivant : lors d’un concours agricole, un jury a donné des notes à 10 marques de cidres relativement à 10 critères de dégustation. Le Tableau 1 reprend ces notes. Dans notre formalisme d’ACP, les marques de cidres sont les individus et les critères gustatifs sont les variables.
25
15
20
1.1 Point moyen du nuage des individus
Le vecteur g des moyennes arithmétiques de chacune des p variables définit le point