• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 12/11/2019

Découvrez les méthodes factorielles et la classification non supervisée

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Rentrons progressivement dans le sujet, en découvrant l'enjeu des traitements statistiques que nous allons aborder.

Nous allons évoquer 2 familles de méthodes :

  • les méthodes factorielles ;

  • les méthodes de classification non supervisée, aussi appelées de partitionnement de données (plus connues sous le terme anglophone de clustering).

Chacune de ces 2 familles possède une méthode emblématique :

  • l'analyse en composantes principales (ACP) ou Principal component analysis (PCA) en anglais, qui est la plus connue des méthodes factorielles ;

  • l'algorithme k-means (en français "K-moyennes"), qui est le plus connu des algorithmes de clustering.

En quoi sont-elles intéressantes ?

Dans les 2 cas, ces 2 familles de méthodes ont un intérêt commun : celui de simplifier les données pour faciliter ensuite leur analyse. Comment ? En trouvant des stratagèmes pour réduire les dimensions d'un tableau de données.

Alors arrivent l'ACP et le clustering : la première permet de réduire le nombre de variables en trouvant de nouvelles variables qui en synthétisent plusieurs. Trouver une variable synthétique permet de remplacer plusieurs colonnes du tableau par une seule. Malheureusement, cette transformation nous fera perdre un peu d'information.

Le clustering quant à lui se chargera de regrouper des individus similaires, c'est-à-dire qu'il va partitionner l'ensemble des individus. Regrouper des individus est ici synonyme de regrouper des lignes. Parfois, il est possible de regrouper 100 000 lignes en 3 groupes assez homogènes pour n'étudier finalement que le profil général de chacun de ces 3 groupes, c'est-à-dire 3 lignes !

Mais ce n'est pas tout ! Au-delà de la réduction des dimensions du tableau de données, ces méthodes ont d'autres intérêts.

L'ACP, tout d'abord, permet d'étudier :

  • la variabilité entre les individus, c'est-à-dire quelles sont les différences et les ressemblances entre les individus ;

  • les liaisons entre les variables : y a-t-il des groupes de variables très corrélées entre elles qui peuvent être regroupées en de nouvelles variables synthétiques ?

Le clustering a de multiples applications

Il est par exemple très utilisé en marketing pour segmenter une base de données de clients. Le fait de former des "groupes" de clients et d'étudier leurs caractéristiques (en termes d'âge, de centres d'intérêt, etc.) permet aux marketeurs de cibler leurs campagnes de marketing.

Mais la classification non supervisée a bien d'autres applications, par exemple en analyse d'image : lorsque 2 pixels d'une photo sont très similaires en termes de couleur, il est possible de les regrouper en une seule couleur. Ainsi, on réduit de manière optimale le nombre de couleurs d'une image, et on réduit donc son poids (voir cet exemple réalisé avec sklearn).

On peut citer également la classification des espèces animales (introduite pour la première fois au XVIIIe siècle par Linné, naturaliste suédois), qui est l'une des classifications les plus célèbres.

Supervisé ou non supervisé ? Telle est la question.

En statistiques, on distingue les traitements supervisés des traitements non supervisés.

L'approche non supervisée consiste à explorer des données sans guide, alors que l'approche supervisée apprend pour prévoir (une variable quantitative, dans le cas d'une régression ; ou une variable qualitative, dans le cas d'une classification).

"Prédisez une variable en fonction de la valeur des autres." (Vous souvenez-vous de la régression linéaire, par exemple ?)

Alors, dans ce cours, on fait du supervisé ou pas ?

Non ! Toutes les méthodes que nous verrons dans ce cours sont non supervisées.

On avait déjà un indice, car j'avais dit que nous faisions ici des statistiques exploratoires (descriptives).

Exemple de certificat de réussite
Exemple de certificat de réussite