Découvrez les méthodes factorielles et la classification non supervisée

Rentrons progressivement dans le sujet, en découvrant l'enjeu des traitements statistiques que nous allons aborder.

Nous allons évoquer 2 familles de méthodes :

les méthodes factorielles ;
les méthodes de classification non supervisée, aussi appelées de partitionnement de données (plus connues sous le terme anglais de clustering).

Chacune de ces 2 familles possède une méthode emblématique :

l'analyse en composantes principales (ACP) ou Principal Component Analysis (PCA) en anglais, qui est la plus connue des méthodes factorielles ;
l'algorithme k-means (en français "k-moyennes"), qui est le plus connu des algorithmes de clustering.

En quoi sont-elles intéressantes ?

Dans les 2 cas, ces familles de méthodes ont un intérêt commun : celui de simplifier les données pour faciliter ensuite leur analyse. Comment ? En trouvant des stratagèmes pour réduire les dimensions d'un tableau de données.

Alors arrivent l'ACP et le clustering : la première permet de réduire le nombre de variables en trouvant de nouvelles variables qui en synthétisent plusieurs. Trouver une variable synthétique permet de remplacer plusieurs colonnes du tableau par une seule. Malheureusement, cette transformation nous fera perdre un peu d'information.

Le clustering, quant à lui, se chargera de regrouper des individus similaires, c'est-à-dire qu'il va partitionner l'ensemble des individus. Regrouper des individus est ici synonyme de regrouper des lignes. Parfois, il est possible de regrouper 100 000 lignes en 3 groupes assez homogènes pour n'étudier finalement que le profil général de chacun de ces 3 groupes, c'est-à-dire 3 lignes !

Mais ce n'est pas tout ! Au-delà de la réduction des dimensions du tableau de données, ces méthodes ont d'autres intérêts.

L'ACP, tout d'abord, permet d'étudier :

la variabilité entre les individus, c'est-à-dire les différences et les ressemblances entre les individus ;
les liaisons entre les variables : y a-t-il des groupes de variables très corrélées entre elles, qui peuvent être regroupées en de nouvelles variables synthétiques ?

Le clustering a de multiples applications

Il est par exemple très utilisé en marketing pour segmenter une base de données de clients. Le fait de former des « groupes » de clients et d'étudier leurs caractéristiques (en termes d'âge, de centres d'intérêt, etc.) permet aux marketeurs de cibler leurs campagnes de marketing.

Mais la classification non supervisée a bien d'autres applications, par exemple en analyse d'image : lorsque 2 pixels d'une photo sont très similaires en termes de couleur, il est possible de les regrouper en une seule couleur. Ainsi, on réduit de manière optimale le nombre de couleurs d'une image, et on réduit donc son poids.

On peut citer également la classification des espèces animales (introduite pour la première fois au XVIIIe siècle par Linné, naturaliste suédois), qui est l'une des classifications les plus célèbres.

Supervisé ou non supervisé ?

En statistiques, on distingue les traitements supervisés des traitements non supervisés.

L'approche non supervisée consiste à explorer des données sans guide, alors que l'approche supervisée apprend pour prévoir (une variable quantitative, dans le cas d'une régression ; ou une variable qualitative, dans le cas d'une classification).

Alors, dans ce cours, on fait du supervisé ou pas ?

Non ! Toutes les méthodes que nous verrons dans ce cours sont non supervisées.

On avait déjà un indice, car j'avais dit que nous faisions ici des statistiques exploratoires (descriptives).

Comme nous l'avons vu, la classification non supervisée est appelée en anglais clustering. Jusque-là, vous me suivez ; mais attention, quand un anglophone vous parlera de classification, il vous parlera en fait de... classification supervisée ! Vous êtes un peu perdu ? Ne vous inquiétez pas. ;)

	En anglais	En français
supervisé	classification	classification supervisée
non supervisé	clustering	classification non supervisée

En résumé

L'objectif qui est le nôtre est de réduire le nombre de lignes ou le nombre de colonnes d'un tableau.
Cela va permettre de faciliter l'analyse de nos données et/ou de gagner un temps de calcul considérable.
L'ACP permet d'analyser la variabilité entre les individus, et le lien entre les différentes variables.
Le clustering est une méthode d'apprentissage dite non supervisée, pour regrouper des individus.
Le clustering a des applications très vastes en marketing, en science, en traitement de l'image, etc.

Dans le prochain chapitre, vous trouverez un jeu de données pour mieux illustrer ces concepts. C'est parti !

Any feedback to share with us?

Ever considered an OpenClassrooms diploma?

Up to 100% of your training program funded
Flexible start date
Career-focused projects
Individual mentoring

Find the training program and funding option that suits you best

Guide me Compare training types

Table of contents

Découvrez l'analyse exploratoire multidimensionnelle

Découvrez l'analyse en composantes principales (ACP)

Partitionnez vos données