gilles.hunault@univ-angers.fr

(petit) Manuel de

Classification Automatique

           -- (little) manual of automatic clustering --


Chapitre 1 :
 
       Classification et Classement


En Analyse des Données, on distingue la détermination de classes à partir de données (classification) et le rangement d'individus dans des classes déjà constituées (classement). Le vocabulaire employé dans d'autres disciplines est parfois le même avec un autre sens. Ainsi, classification peut avoir le sens de rangement dans des classes, ce que d'aucuns appellent aussi identification. Parfois le vocabulaire est différent, mais le sens est le même. Ainsi ce que nous nommons classification s'appelle taxonomie en biologie, typologie en sciences humaines, segmentation en marketing...

La classification est donc, en quelque sorte, le travail préliminaire au classement, à savoir la recherche de classes "naturelles" dans le domaine étudié. (Maurice Roux, Algorithmes de Classification, Masson).

Une classification ascendante considère les éléments à classifier (lignes ou colonnes d'un tableau de données) comme autant de classes isolées et regroupe les classes deux à deux. On s'arrête lorqu'on a tout regroupé en une seule classe. Au contraire, une classification descendante considère l'ensemble des données comme une seule classe et vient séparer en deux une classe à chaque étape. On s'arrête lorqu'il ne reste plus que des classes à un seul élément.

Dans les deux cas, de groupement en groupement, ou de séparation en séparation, on obtient une partition des données où, en coupant à un seuil "intéressant", on obtient des classes que l'on veut homogènes.

Les classifications traditionnelles de l'Analyse des Données sont les CAH (Classifications Hiérarchiques Ascendantes) c'est à dire des méthodes qui partent de classes réduites aux individus isolés pour construire des classes contentant de plus en plus d'individus. Les CAH peuvent s'effectuent souvent sur les éléments issus des AFC, ACP, AFM... pour plus de cohérence et pour un regroupement des informations sur les différents axes.

Elles effectuent chaque étape un choix des éléments à regrouper et recalculent des distances entre classes ou entre éléments et classes. Le regroupement d'individus ou de classes pour former une nouvelle classe est binaire et se fait suivant un critère d'agrégation. Les distances entre les anciennes et la nouvelle classes sont alors mises à jour selon une formule de recalcul.

Il est important de noter que le point de départ de la classification n'est pas ici le tableau des données brutes mais une matrice de distances construite à partir de ce tableau, souvent par exemple celle des distances induites par une Analyse Factorielle (Composantes Principales, Correspondances) du tableau de données.

D'autres méthodes d'agrégation (nuées dynamiques, centres mobiles, boules optimisées) s'affranchissent de la notion de classes disjointes, offrent d'autres regroupements tout aussi valides mais dont le validité est plus délicate à justifier.

Ces méthodes peuvent en général s'appliquer à des données brutes (et non pas à des matrices d'écarts ou de distances construites sur les données). Elles demandent souvent des choix arbitraires, comme celui d'un centre probable de classe, un seuil de distance intra-classe et viennent comparer chaque élément aux classes existantes pour l'affecter en cas de distance inférieure au seuil.

Retour au petit manuel de Classification

                                          gilles.hunault@univ-angers.fr