MASTER PODEPRO Analyse des Donnes
Analyse des Données
Université de Thessalie
Département d’Aménagement,
D’Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne
II. Les Méthodes de Classification
Ces méthodes ont pour objectif de parvenir à définir une partition des individus en un nombre restreint de classes homogènes, permettant une typologie des individus considérés. Les classes sont obtenues à l’aide d’algorithmes formalisés et elles doivent décrire des types de comportements.
Il s’agit en d’autres termes de faire apparaître des profils – types.
Les données se présentent sous la forme d’un tableau de n individus et k variables. Nous travaillerons ici sur les méthodes de classification automatique et plus particulièrement sur les méthodes hiérarchiques et non hiérarchiques.
Dans tous les cas, il nous faut définir (a) un critère de distance qui reflète la dissemblance entre les individus, c'est-à-dire leur dissimilarité grâce auquel on pourra regrouper les individus et (b) une stratégie de classification.
2.1.
La Classification Hiérarchique
Cette méthode repose sur le principe de la formation de partitions emboitées.
Elle a pour but de former un ensemble de partitions de l’ensemble des n individus en classes de moins en moins fines. Ces classes sont obtenues par regroupements successifs des individus, en commençant par les individus les plus proches. A chaque étape de regroupement, le principe sera le même, réunir dans une classe, les individus les plus proches (objectif d’homogénéité des classes). Certes plus on avance dans le regroupement des individus et plus les individus présenteront des différences. Il faut donc tenir compte de cet aspect pour délimiter le nombre de classes finalement retenu.
Il ne s’agit pas d’une méthode manuelle mais d’une classification basée sur l’algorithme qui utilise un critère d’agrégation (regroupement des individus dans diverses classes), basé sur un