• 15 hours
  • Medium

Free online content available in this course.

course.header.alt.is_video

course.header.alt.is_certifying

Got it!

Last updated on 12/11/23

Découvrez les méthodes factorielles et la classification non supervisée

Rentrons progressivement dans le sujet, en découvrant l'enjeu des traitements statistiques que nous allons aborder.

Nous allons évoquer 2 familles de méthodes :

  • les méthodes factorielles ;

  • les méthodes de classification non supervisée, aussi appelées de partitionnement de données (plus connues sous le terme anglais de clustering).

Chacune de ces 2 familles possède une méthode emblématique :

  • l'analyse en composantes principales (ACP) ou Principal Component Analysis (PCA) en anglais, qui est la plus connue des méthodes factorielles ;

  • l'algorithme k-means (en français "k-moyennes"), qui est le plus connu des algorithmes de clustering.

En quoi sont-elles intéressantes ?

Dans les 2 cas, ces familles de méthodes ont un intérêt commun : celui de simplifier les données pour faciliter ensuite leur analyse. Comment ? En trouvant des stratagèmes pour réduire les dimensions d'un tableau de données.

Alors arrivent l'ACP et le clustering : la première permet de réduire le nombre de variables en trouvant de nouvelles variables qui en synthétisent plusieurs. Trouver une variable synthétique permet de remplacer plusieurs colonnes du tableau par une seule. Malheureusement, cette transformation nous fera perdre un peu d'information.

Le clustering, quant à lui, se chargera de regrouper des individus similaires, c'est-à-dire qu'il va partitionner l'ensemble des individus. Regrouper des individus est ici synonyme de regrouper des lignes. Parfois, il est possible de regrouper 100 000 lignes en 3 groupes assez homogènes pour n'étudier finalement que le profil général de chacun de ces 3 groupes, c'est-à-dire 3 lignes !

Mais ce n'est pas tout ! Au-delà de la réduction des dimensions du tableau de données, ces méthodes ont d'autres intérêts.

L'ACP, tout d'abord, permet d'étudier :

  • la variabilité entre les individus, c'est-à-dire les différences et les ressemblances entre les individus ;

  • les liaisons entre les variables : y a-t-il des groupes de variables très corrélées entre elles, qui peuvent être regroupées en de nouvelles variables synthétiques ?

Le clustering a de multiples applications

Il est par exemple très utilisé en marketing pour segmenter une base de données de clients. Le fait de former des « groupes » de clients et d'étudier leurs caractéristiques (en termes d'âge, de centres d'intérêt, etc.) permet aux marketeurs de cibler leurs campagnes de marketing.

Mais la classification non supervisée a bien d'autres applications, par exemple en analyse d'image : lorsque 2 pixels d'une photo sont très similaires en termes de couleur, il est possible de les regrouper en une seule couleur. Ainsi, on réduit de manière optimale le nombre de couleurs d'une image, et on réduit donc son poids.

On peut citer également la classification des espèces animales (introduite pour la première fois au XVIIIe siècle par Linné, naturaliste suédois), qui est l'une des classifications les plus célèbres.

Supervisé ou non supervisé ?

En statistiques, on distingue les traitements supervisés des traitements non supervisés.

L'approche non supervisée consiste à explorer des données sans guide, alors que l'approche supervisée apprend pour prévoir (une variable quantitative, dans le cas d'une régression ; ou une variable qualitative, dans le cas d'une classification).

Alors, dans ce cours, on fait du supervisé ou pas ?

Non ! Toutes les méthodes que nous verrons dans ce cours sont non supervisées.

On avait déjà un indice, car j'avais dit que nous faisions ici des statistiques exploratoires (descriptives).

En résumé

  • L'objectif qui est le nôtre est de réduire le nombre de lignes ou le nombre de colonnes d'un tableau.

  • Cela va permettre de faciliter l'analyse de nos données et/ou de gagner un temps de calcul considérable.

  • L'ACP permet d'analyser la variabilité entre les individus, et le lien entre les différentes variables.

  • Le clustering est une méthode d'apprentissage dite non supervisée, pour regrouper des individus.

  • Le clustering a des applications très vastes en marketing, en science, en traitement de l'image, etc.

Dans le prochain chapitre, vous trouverez un jeu de données pour mieux illustrer ces concepts. C'est parti ! 

Example of certificate of achievement
Example of certificate of achievement