• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 01/02/2019

Découvrez les espaces que nous utiliserons

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Maintenant que nous avons compris le principe de l’ACP, passons au concret !

Nous avons 2 objectifs. Pour chacun d’eux, nous allons utiliser un espace différent, ainsi qu’un type de graphique différent.

Répondre au premier objectif par le nuage des individus $\(N_I\)$ :

Nous avons déjà parlé du nuage $\(N_I\)$ des individus précédemment : vous le connaissez donc déjà.

Pour rappel, si notre échantillon a $\(p\)$ variables quantitatives, alors on se place dans un espace à $\(p\)$ dimensions, et nous plaçons les individus dans cet espace. Chaque individu est représenté par un point.

On a donc un espace à $\(p\)$ dimensions qui contient $\(n\)$ individus.

Pour placer les points, il s’agit de considérer que chaque colonne de notre échantillon correspond à une dimension, et de placer les individus en fonction de leurs coordonnées dans $\(\mathbb{R}^p\)$

Pour répondre à l’objectif numéro 1 (étudier la variabilité des individus), on recherche les axes d’inertie maximum, comme expliqué au chapitre précédent.

Répondre au second objectif par le nuage des variables $\(N_K\)$ :

Pour l’objectif 1, chaque colonne de l’échantillon correspondait à une dimension de l’espace, et chaque ligne (chaque individu) correspondait à un point dans cet espace. Mais ici, c’est l’inverse :waw: !!!
Chaque ligne correspondra à une dimension, et chaque colonne à un point ! On est donc dans un espace totalement différent ! Celui-ci aura donc autant de dimensions que d’individus, $\(n\)$ ; et autant de points que de variables, $\(p\)$ .

L'espace $\(\mathbb{R}^n\)$

Nous avons donc :

  •  $\(N_K\)$ , le nuage des variables ;

  • et  $\(\mathbb{R}^n\)$ , l'espace à $\(n\)$ dimensions dans lequel il est placé.

Voici un petit exemple avec un échantillon de 3 individus et 4 variables. Les individus sont des cours OpenClassrooms :

 

Dernière mise à jour

Moyenne de classe

Nombre de chapitres

Difficulté

Cours SQL

20 jours

85%

28

2

Cours Python

40 jours

83%

10

3

Cours HTML

60 jours

80%

19

1

Comme nous l’avons évoqué au chapitre précédent, nous centrons puis réduisons les données, ce qui nous donne ce nouveau tableau (qui n’a plus d’unités à la suite de la réduction) :

 

Dernière mise à jour

Moyenne de classe

Nombre de chapitres

Difficulté

Cours SQL

-1.225

1.136

1.225

0

Cours Python

0

0.162

-1.225

1.225

Cours HTML

1.225

-1.300

0

-1.225

Avec ce tableau, nous aurons 4 points en 3 dimensions :

Représenter le nuage de variables dans cet espace apporte certains avantages très intéressants.

Tout d’abord, si l'on prend deux points (correspondant donc à 2 variables $\(u\)$ et $\(v\)$), et que l’on calcule l’angle $\(\widehat{uOv}\)$ (où O est l'origine du repère), alors cet angle est lié au coefficient de corrélation des variables $\(u\)$ et $\(v\)$ !
C’est pour cette raison que l’on préfère représenter les points par des flèches : il est plus simple visuellement de regarder un angle entre deux flèches.

C’est une aubaine ! On souhaitait justement étudier les liaisons entre les variables : ici, elles sont tout simplement représentées par les angles entre les flèches !

Ensuite, si les données sont centrées et réduites, les longueurs de toutes les flèches sont égales ! On peut même connaître cette longueur : c’est$\(\sqrt{n}\)$ , la racine carrée du nombre d’individus dans notre échantillon.

Comme toutes nos flèches sont de longueurs égales, et qu'elles partent toutes de l'origine, alors leurs extrémités sont toutes situées sur une même hypersphère de rayon $\(\sqrt{n}\)$ . C'est pour cela que, dans l'illustration ci-dessus, j'ai représenté les 3 flèches dans une sphère.

Les axes principaux d'inertie du nuage des variables

Rappelons-nous l’objectif numéro 2 : étudier les liaisons entre les variables dans le but d’en regrouper en créant de nouvelles variables synthétiques.

Imaginons un échantillon dans lequel chaque individu est décrit par 15 variables. Ces 15 variables sont regroupables en 2 groupes : un groupe de 10 variables et un autre de 5 variables. Les 10 premières sont très corrélées entre elles, et les 5 restantes sont également corrélées entre elles, mais ne sont pas corrélées aux 10 premières.

Quand on représente le nuage de ces 15 variables, nous aurons 15 flèches.

L’angle entre 2 flèches est lié à la corrélation entre les 2 variables qu’elles représentent. Si cet angle est petit, la corrélation est forte. On aura donc 10 flèches séparées d’un angle très petit. Autrement dit, ces 10 flèches pointent à peu près dans la même direction. Quant aux 5 autres variables, leurs 5 flèches pointeront aussi à peu près dans la même direction, mais cette direction sera différente du groupe des 10 flèches précédentes.

Imaginons que nous construisons une maquette en 3D. Cette maquette représentera le nuage des variables d'un échantillon composé de 3 individus décrits par 15 variables.

Sur celle-ci, vous représentez ces 15 variables par 15 flèches de bois. Si vous étudiez l’équilibre de cette maquette, vous vous rendez compte que les 10 bouts de bois qui pointent dans la même direction déséquilibrent la maquette dans une certaine direction. Autrement dit, ils créent une inertie dans une certaine direction. La direction d’inertie maximale est donnée par ces 10 bâtons ; il y aura également une autre direction d’inertie secondaire induite par les 5 autres bâtons.

On en revient ici aussi au concept de direction d’inertie maximale, comme quand nous parlions du nuage des individus !
Ainsi, pour le second objectif, nous chercherons aussi les axes principaux d’inertie, non pas pour le nuage des individus, mais pour le nuage des variables.

Un résultat remarquable

Attention, vous allez être bluffé !
À ce stade, nous avons 2 espaces totalement différents : $\(\mathbb{R}^p\)$ et $\(\mathbb{R}^n\)$ . Le premier est à $\(p\)$ dimensions et contient le nuage d’individus $\(N_I\)$ , et l’autre est à $\(n\)$ dimensions et contient le nuage des variables $\(N_K\)$ .

Dans chacun des 2 espaces, on a cherché les axes principaux d’inertie.
Dans $\(\mathbb{R}^p\)$ , nous avons vu que l’on pouvait considérer les axes principaux comme de nouvelles variables calculables à partir des variables initiales.
Et bien, figurez-vous que, si l'on place ces nouvelles variables dans $\(\mathbb{R}^n\)$ , alors celles-ci coïncident exactement avec les axes principaux d’inertie du nuage des variables $\(N_K\)$ !

Autrement dit, étudier les axes d’inertie des individus est équivalent à étudier les axes principaux d’inertie des variables !

En résumé :

 

espace

nuage

représentation du nuage

particularité

Objectif 1

$\(\mathbb{R}^p\)$

$\(N_I\)$ : nuage des individus

par des points

 

Objectif 2

$\(\mathbb{R}^n\)$

 $\(N_K\)$ : nuage des variables

par des vecteurs (flèches) partant de l'origine

Toutes les flèches ont la même longueur si les données sont centrées-réduites.

Aller plus loin : Calcul des composantes principales du nuage $\(N_I\)$ , valeurs propres et vecteurs propres

Si vous souhaitez vous plonger dans les calculs, c'est par ici. ;)

Notons $\(u_s\)$ , un vecteur unitaire de l'axe de rang $\(s\)$ . Pour le moment, nous ne connaissons pas encore les composantes de $\(u_s \)$ : c'est ce que nous allons chercher ici.

On peut ranger les projections $\(H_i^s\)$ dans le vecteur $\(F_s\)$ , et comme  $\(||H_i^s||\)$ s'obtient par produit scalaire entre $\(u_s \)$ et la i-ième ligne de nos données , on peut alors écrire sous forme matricielle :

$\[F_s = Xu_s\]$

La quantité à maximiser (donnée dans l'encadré ci-dessus) peut donc être écrite sous cette forme matricielle :

$\[\frac{1}{n}F'_sF_s = \frac{1}{n}u_s'X'Xu_s\]$

Maximiser la quantité  $\(\frac{1}{n}F'_sF_s = \frac{1}{n}u_s'X'Xu_s\)$ signifie trouver quel $\(u_s\)$ rend cette quantité maximale. En replongeant dans vos souvenirs d'algèbre linéaire, vous verrez que l'on résout ce type de problème par une diagonalisation de matrice.

On peut montrer mathématiquement (nous ne le ferons pas ici, mais vous pouvez consulter la démonstration ici) que le vecteur u_s vérifie :

$\[\frac{1}{n}X'Xu_s = \lambda_su_s \ \text{ avec }\ \lambda_s=\frac{1}{n}F_s'F_s=\frac{1}{n}u'_sX'Xu_s\]$

À partir de ce résultat, on voit que $\(u_s\)$ est le vecteur propre unitaire associé à la valeur propre $\( \lambda_s\)$ de la matrice $\(X'X\)$ , les valeurs propres étant rangées dans l'ordre décroissant sur la diagonale.

De plus, on voit que $\( \lambda_s\)$ est égal à l'inertie portée par l'axe $\(s\)$ (c'est l'inertie de la projection du nuage des individus sur $\(u_s\)$ ).

(Source : Analyse factorielle multiple avec R, Jérôme Pagès, éditions EDP Sciences)

Exemple de certificat de réussite
Exemple de certificat de réussite