• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 12/11/2019

Représentez les individus sur les plans factoriels

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Nous avons répondu à l'objectif n°2, alors passons maintenant à l'objectif n°1 : celui d'étudier la variabilité entre individus.

Nous nous intéressons maintenant à l’espace $\( \mathbb{R}^p\)$ , dans lequel se situe le nuage des individus $\(N_I\)$ . Comme vous vous en doutez, nous allons projeter ce nuage sur le premier plan factoriel, c’est-à-dire sur un plan composé des 2 premières composantes principales F1 et F2.

Voici ce que cela donne avec le jeu de données des cours OpenClassrooms que j'ai suivis :

Bon, OK, mais on fait quoi avec cela ?

En fait, il faut interpréter ce graphique en parallèle du cercle des corrélations. En effet, le cercle des corrélations nous indique quelles variables sont très corrélées (ou anticorrélées) à F1 et F2.

La question que nous nous posons ici est la suivante : qu’est-ce qui différencie les individus qui ont une abscisse grande de ceux qui en ont une petite ?

Par exemple, qu’est-ce qui différencie cet individu :

de cet individu ?

La réponse nous est donnée par le cercle des corrélations. En effet, nous avons dit que nous pouvions voir les axes principaux d’inertie comme des « nouvelles variables » qui synthétisent des variables déjà existantes. Ainsi, F1 peut être vue comme une nouvelle variable que l’on ajoute sous forme de nouvelle colonne à notre échantillon.
Quand on se déplace le long de l’axe des abscisses de gauche à droite, c’est-à-dire dans le sens des abscisses croissantes, alors on se déplace vers les points pour lesquels la valeur de F1 est grande.

Comme F1 est très corrélée aux variables durée, nombre de chapitres et nombre d’évaluations, alors il y a de grandes chances pour que ces individus aient aussi de grandes valeurs pour ces variables.

Ainsi, se déplacer le long des abscisses dans le sens croissant, c’est un peu se déplacer vers les cours qui sont longs.

De même, la variable progression est anticorrélée à F1, car la flèche de cette variable pointe vers les abscisses décroissantes sur le cercle des corrélations. Ainsi, se déplacer dans le sens des abscisses croissantes signifie se déplacer vers les individus ayant de faibles valeurs pour la variable progression.

Si l'on revient à nos 2 objectifs, on se rend compte que l’on a répondu au premier : celui d’étudier la variabilité des individus, ce qui les différencie, et ce qui fait qu’ils sont semblables.

Ici, on a vu que ces 2 cours différaient par leur longueur : le cours sur Symfony est très long, alors que celui sur les librairies Python pour la data science est court.

Ensuite, on peut passer à F2. Là, c’est le même principe. On se pose cette question :

« Qu’est-ce qui différencie deux individus qui ont à peu près la même abscisse, mais des ordonnées très différentes ?»

ou bien

« Mis à part la longueur du cours, qu’est-ce qui différencie 2 individus qui ont des ordonnées très différentes ?»

On y répond en regardant les variables les plus corrélées à F2 sur le cercle des corrélations. Ici, difficulté et moyenne de classe.

Deux des cours ont une ordonnée basse :

Ils correspondent donc à des cours plus difficiles que les autres. Le second s'intitule Apprenez à programmer en Python.

Oh ! Mais Python est un langage très simple, enfin !

Oui, certes, mais l'auteur du cours l'a noté comme « Difficile ». De plus, la moyenne de classe est certes bonne (84 %), mais elle reste la plus basse de l'échantillon ! On remarque par ailleurs que ce cours a une abscisse élevée : c'est donc un cours à la fois long et difficile. L'auriez-vous remarqué à la simple lecture de votre échantillon initial, dont le tableau contient 10 colonnes ? Pas sûr ! ;) Alors merci l'ACP !

… et ainsi de suite avec F4, F5… F100000 ! Enfin… sachez vous arrêter quand même ! Nous verrons ceci au chapitre suivant.

Qualité de la représentation et contributions

De même qu’au chapitre précédent nous avions des variables (des flèches) bien ou mal représentées, nous avons ici aussi des individus bien et mal représentés.

C’est en fait une histoire de proximité du point avec le plan factoriel.

Un point peut être proche ou loin du plan factoriel sur lequel on le projette. Chaque point $\(M_i \)$  (c’est-à-dire chaque individu) peut être projeté sur le plan factoriel ; cette projection nous donne le point $\(H_i\)$ . Quand on ne regarde que le plan factoriel, on ne voit que la position $\(H_i\)$ ; on ne connaît pas les vraies positions des $\(M_i\)$ . Les $\(H_i\)$ sont les images des $\(M_i\)$ .

  • Si $\(M_i \)$ est proche du plan factoriel, alors la distance entre $\(M_i\)$ et $\(H_i\)$ est faible. On peut alors dire : « Où est $\(M_i\)$ ? Je ne sais pas, mais en tout cas, il n’est vraiment pas loin de $\(H_i\)$ . Comme on connaît $\(H_i\)$ , on sait à peu près où est $\(M_i\)$ . $\( M_i\)$ est donc bien représenté. »

  • Mais si $\(M_i\)$ est loin du plan, la distance $\(M_iH_i\)$ est grande. On se dit alors :
    « Où est $\(M_i\)$ ? Je ne sais pas. Certes, je connais sa projection $\(H_i\)$ , mais comme $\(M_i\)$ est loin de $\(H_i\)$ , cela ne m’avance pas beaucoup :(. $\(M_i \)$ est mal représenté par $\(H_i\)$ . »

A gauche, cas où M est loin du plan. A droite, cas où M est proche du plan
À gauche, cas où M est loin du plan. À droite, cas où M est proche du plan.

Sur le cercle des corrélations, on s’intéressait aux angles entre les flèches, car ces angles étaient liés à la corrélation entre les variables. Ici, on s’intéresse aux distances entre les individus. En effet, deux individus qui sont proches dans $\(\mathbb{R}^p\)$ sont similaires, et s’ils sont éloignés, ils sont différents.

Mais n’oublions pas qu’en représentant les individus sur un plan factoriel, nous visualisons une projection ! Analyser les distances entre 2 points sur un plan factoriel n’est pertinent que si ces individus sont bien représentés tous les 2.

Prenons un exemple. Par une belle nuit d’été, vous regardez les étoiles. Vous avez l’impression qu’elles sont toutes à la même distance, n’est-ce pas ? Vous avez l’impression qu’elles sont toutes situées sur une sphère, que l’on appelle voûte céleste. Mais en réalité, les étoiles ne sont pas toutes à la même distance de vous : vous n’êtes pas le centre de l’univers, quand même !

Si nous les percevons toutes à la même distance, c’est qu’elles sont tellement loin que notre cerveau n’arrive pas à évaluer la distance qui nous sépare d’elles. Pour les objets qui sont proches, le cerveau analyse la différence entre les 2 images perçues par chacun de nos 2 yeux pour estimer les distances. Mais les étoiles sont tellement loin que la triangulation ne fonctionne plus. Votre cerveau se dit : « Je n’y arrive pas ! Mettons tout à la même distance, et n’en parlons plus ! »

Ainsi, si vous regardez une toute petite surface de la voûte céleste, vous pouvez considérer que celle-ci est (presque) plane. Votre cerveau effectue donc une projection de l’espace (qui a 3 dimensions) vers un plan à 2 dimensions. Sur cette petite surface de la voûte céleste, vous remarquez deux étoiles très proches l’une de l’autre : vous pensez donc qu’elles sont voisines. Mais en réalité, l’une d’elles peut très bien être 100 fois plus lointaine que la seconde ! Voilà ce qui se passe quand on interprète une distance sur des points projetés : on peut faire des erreurs !

Aller plus loin : Contribution d’un individu à l’inertie d’un axe

Lors du calcul des composantes principales, chaque individu est pris en compte. Cependant, certains influent plus que d’autres sur le calcul de certaines composantes.

Il arrive parfois qu’un axe ne soit dû principalement qu’à un tout petit groupe d’individus, voire qu’à un seul. Cela signifie que quelques individus « attirent » fortement un axe dans leur direction, quasiment sans laisser les autres individus contribuer à la formation de cet axe. Sa formulation n’est pas très compliquée :
 

$\[\text{Contribution}(i,s) = \frac{ \text{inertie projetée du point } i \text{ sur } s }{ \text{inertie projetée de } N_I \text{ sur } s } = \frac{p_i(OH_i^s)^2}{\lambda_s}\]$

 $\(\lambda_s\)$ est fixe quel que soit l’individu. Si, en plus, tous les individus ont le même poids $\(p_i\)$ , alors les différences de contributions entre les individus ne sont contenues que dans le $\( (OH_i^s)^2\)$ . Comme $\(OH_i^1\)$ et $\(OH_i^2\)$ sont visibles sur le premier plan factoriel (ce sont respectivement l’abscisse et l’ordonnée du point i), alors on voit directement les individus qui contribuent le plus à l’axe. Ceux qui sont le plus loin de l’origine à droite ou à gauche du graphique sont ceux qui contribuent le plus à F1. De même, ceux qui sont les plus éloignés de l’origine en haut ou en bas du graphique sont ceux qui contribuent le plus à F2. Comme on voit donc tout sur le graphique, il n’est en fait intéressant de calculer ces contributions que quand les poids $\( p_i \)$  des individus sont différents. En effet, là, le graphique ne peut plus nous fournir cette information.

La notion de contribution est aussi valable pour les variables. Les variables qui contribuent fortement à une composante principale sont celles qui sont très corrélées à celle-ci. On le voit donc directement sur le cercle des corrélations.

Aller plus loin : Qualité de représentation d’un individu par un axe

Calculer la qualité de représentation d’un individu sur un plan factoriel (le premier, par exemple), c’est calculer la qualité de représentation du point par l’axe F1, puis par l’axe F2.
Cette qualité s’exprime par le pourcentage d’inertie du point qui est expliqué par l’axe.

Reprenons les notations de ce chapitre, où $\(M_i\)$ est un point, et où $\(H_i^s\)$ est la projection de $\(M_i\)$ sur l’axe de rang $\(s\)$ . Par exemple, $\(M_i \)$ projeté sur l’axe $\(F_1\)$ donne un point que l’on note $\(H_i^1\)$ .

Comme nous l’avons déjà vu, l’inertie du point $\(M_i\)$ , c’est $\((OM_i)^2\)$.
Ensuite, l’inertie de $\(M_i\)$ expliquée par l’axe $\(F_1\)$ , c’est l’inertie de la projection de $\(M_i \)$ sur $\(F_1\)$ . C’est donc l’inertie du point $\(H_i^1\)$ , soit $\((OH_i^1)^2\)$ . Le pourcentage d’inertie de l’individu $\(i\)$ expliqué par l’axe $\(u_s\)$ est donc :

$\[Qlt(i,s) = \frac{(OH_i^s)^2}{(OM_i)^2} = cos^2(\overrightarrow{OM_i},u_s)\]$

Cette quantité s’additionne sur plusieurs axes ! Ainsi, le pourcentage d’inertie de l’individu $\( i\)$ expliqué par le premier plan factoriel est de $\(Qlt(i,1) + Qlt(i,2)\)$ . Et si l'on additionne sur tous les axes principaux d’inertie, on obtient 100 %.

Exemple de certificat de réussite
Exemple de certificat de réussite