• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 01/02/2019

Recherchez une bonne partition

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Dans la partie précédente, nous avons travaillé à synthétiser les variables, c'est-à-dire à réduire le nombre de colonnes de notre tableau de données.

Dans cette 3e partie, nous allons regrouper les lignes, c'est-à-dire que nous allons créer des groupes d'individus : nous allons partitionner les données !

Voici un petit exemple. Nous souhaitons regrouper les individus en 3 groupes.

À l’œil, on voit ces 3 groupes : l'un est très distinct, et les 2 autres se superposent un peu :

Déterminer des groupes peut être l'objectif premier, mais on peut aussi vouloir réduire la taille de notre jeu de données en regroupant certaines lignes.

Dans l'échantillon ci-dessus, on a 150 individus répartis en 3 groupes différents. Chaque individu est caractérisé par $\(p\)$ variables. Au sein d'un même groupe, les individus sont à peu près similaires, car ils sont proches dans l'espace.

Comme les individus d'un même groupe sont similaires, on peut parfois se contenter d'étudier les caractéristiques du groupe plutôt que d'étudier chacun des individus qui le composent.

Autrement dit, cela revient à étudier les caractéristiques de "l'individu moyen" de chaque groupe.

Ainsi, on peut se ramener à un tableau à $\(p\)$ colonnes (les $\(p\)$ variables) et à 3 lignes. Chaque ligne correspond à l'individu moyen des 3 groupes.

Le challenge sera donc de trouver des méthodes qui font perdre le moins d'information possible ! Il nous faut donc un critère pour évaluer la qualité d'une partition.

Évaluer la qualité d'une partition

Reprenons nos données, et déterminons 2 partitions différentes, chacune en 2 classes (une classe bleue et une classe rouge) :

2 partitions (en 2 classes chacune)
2 partitions (en 2 classes chacune)

Qu'en pensez-vous ? La partition de gauche paraît meilleure que celle de droite, n'est-ce pas ? Pourquoi ? Parce que, sur l'image de droite, les points des groupes bleus et rouges sont chacun très étalés. De plus, les groupes bleus et rouges sont très proches l'un de l'autre.

Au contraire, sur l'image de gauche, le groupe rouge et le groupe bleu sont chacun peu étalés, et ils sont loin l'un de l'autre.

Je pense que, maintenant, vous avez le réflexe : dès je parle de points "étalés", vous pensez inertie !

Bingo ! En fait, on ne va pas mesurer l'inertie du nuage de points tout entier, mais celle des différents nuages correspondant à chaque groupe.

Rappelons-nous la formule de l'inertie d'un nuage de points que nous avons vue précédemment :

$\[\frac{1}{n}\sum_{i=1}^nd(M_i,G)^2\]$

$\(n\)$ est le nombre d'individus, et $\(d^2(i,G)\)$ la distance entre le point $\(i\)$ et le centre de gravité $\(G\)$ du nuage.

On peut calculer cette quantité pour chaque groupe, puis les additionner (en leur donnant un poids proportionnel au nombre d'individus qu'ils contiennent). On obtient ainsi l'inertie intraclasse :

$\[\frac{1}{n}\sum_{l=1}^k\sum_{i=1}^{n_l}d(M_i,G_l)^2\]$

$\(k\)$ est le nombre de clusters, $\(n_l\)$ le nombre d'individus dans le cluster $\(l\)$ , et $\(G_l\)$ le centre de gravité du cluster $\(l\)$  .

Ensuite, pour voir si les groupes sont éloignés les uns des autres, on s'imagine un nouveau nuage de points qui est composé uniquement des centres de gravité des différents groupes. Si ces groupes sont éloignés, alors leurs centres de gravité respectifs le seront aussi. L’inertie de ce nouveau nuage imaginaire sera donc grande. On l'appelle inertie interclasse, et elle est donnée par :

$\[\frac{1}{n}\sum_{l=1}^kn_l d(G_l,G_I)^2\]$

$\( n_l\)$ est l'effectif de la classe $\(l\)$ , $\(G_l\)$ le centre de gravité du cluster $\(l\)$ , et $\(G\)$ le centre de gravité du nuage tout entier.

Rappelons-nous les critères d'une bonne partition ; on veut que les groupes (aussi appelés clusters) soient :

  1. Resserrés sur eux-mêmes : deux points qui sont proches devraient appartenir au même groupe.

  2. Loin les uns des autres, c'est-à-dire qu'ils soient fortement différenciés.

Le premier critère correspond à une inertie inertie intraclasse faible, et le second critère correspond à une inertie interclasse forte.

Voilà ! Maintenant que nous savons qu'il faut minimiser l'inertie intraclasse, voyons 2 méthodes de partitionnement qui peuvent poursuivre cet objectif !

Exemple de certificat de réussite
Exemple de certificat de réussite