• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 12/11/2019

Représentez vos données dans un espace

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

La notion d'espace euclidien

Reprenons le graphique de dispersion d'un précédent chapitre :

Graphique de dispersion
Graphique de dispersion

Observons-le un peu. Sur celui-ci, on représente les individus par des points ayant chacun 2 coordonnées : une abscisse et une ordonnée. On dit donc ici que les données sont représentées dans un espace à 2 dimensions, car pour placer les points, on a sélectionné 2 des variables qui décrivent les individus. En quelque sorte, on a associé la notion de variable à celle de dimension.

Sur mon graphique de dispersion, il n’y a pas de vecteurs, il n’y a que des points !

Oui, c’est vrai. Mais on peut en fait considérer que chaque point est équivalent à un vecteur. Pour un point A, par exemple, on dira qu’il est équivalent au vecteur $\(\vec{OA}\)$, où $\(O\)$ est l’origine du repère (c'est-à-dire le point de coordonnées (0,0) dans un espace à 2 dimensions). Cette petite astuce nous permet d’utiliser toute la puissance de l’algèbre linéaire en statistiques : vous vous en rendrez rapidement compte dès les prochains chapitres ! Ainsi, dans la suite, on ne fera pas de distinction entre la notion de point et de vecteur, et on pourra noter $\(A\)$ indifféremment, comme ceci : $\(A\)$ , $\(\vec{OA}\)$  ou même $\( \vec{A}\)$.

 Comment représenter un vecteur ?

Le plus souvent, on représente un vecteur en colonne. Pour le cas du point $\(A\)$ , qui a deux coordonnées (abscisse x et ordonnée y), on le note comme ceci :

$\(A=\begin{pmatrix}x \\ y \end{pmatrix}\)$

Bon, mais si vecteur et point sont ici équivalents, et que l’on représente un individu par un point, cela veut dire que l’on peut aussi représenter un individu par un vecteur, n’est-ce pas ?

Tout à fait ! Si un individu est décrit par 4 variables, alors on peut le représenter par un vecteur à 4 dimensions.

Vous voyez poindre à l’horizon des espaces à plus de 2 dimensions ; il arrive régulièrement d’avoir des échantillons décrits par beaucoup de variables (parfois 100, 1 000 ou plus !). On préfère donc noter le vecteur X comme ceci :

$\[X =\begin{pmatrix}x_1\\ x_2\\ x_3\\ ...\\x_n\end{pmatrix}\]$

Voilà, nous avons posé un peu le cadre : nous travaillons dans un espace vectoriel avec un nombre fini de dimensions (2, 4, 100, 1 000 ou beaucoup plus), où chaque individu est représenté par un vecteur, ce vecteur ayant autant de dimensions que l’espace vectoriel en question.

Si maintenant on rajoute la contrainte que chaque composante d’un vecteur doit être un nombre réel, et que l’on associe à cet espace vectoriel un produit scalaire, alors on dit que l’on travaille dans un espace euclidien.

 « On associe à cet espace un produit scalaire », cela veut dire quoi ?

Un produit scalaire est une opération algébrique entre 2 vecteurs. Dans notre cas, cette opération associe à 2 vecteurs un nombre réel.

Dire que l’on « associe » un produit scalaire à un espace vectoriel signifie que l’on va souvent utiliser celui-ci dans les calculs que nous effectuerons : c'est ce produit scalaire qui permettra de calculer des distances, des longueurs, des projections et des angles.

La notion de distance

Si je vous demande la distance entre 2 points A et B sur un graphique à 2 dimensions comme celui ci-dessous, qu’allez-vous faire ?

Graphique à 2 dimensions
Graphique à 2 dimensions

Certains seront allés chercher une règle graduée pour mesurer, d’autres auront été plus aventuriers et auront calculé la distance à partir des coordonnées des 2 points. Mais, dans les 2 cas, vous obtiendrez tous le même résultat (ici, $\(\sqrt{2}\)$ , soit environ 1.41).

Ce que vous avez mesuré instinctivement s’appelle la distance euclidienne, que vous connaissez tous.

Tu sous-entends qu’il y a plusieurs types de distances ?

Tout à fait. Mais vous le savez déjà, sans vous en rendre compte. Quand dans une ville, vous demandez à quelle distance se trouve un bâtiment donné, on vous répondra soit avec une distance « à vol d’oiseau », soit avec une distance en suivant les rues (car vous ne pouvez pas voler, je pense). En mathématiques, c’est un peu le même principe : il y a plusieurs types de distances. Pour reprendre l’exemple de la ville, sachez qu’il existe par exemple la distance de Manhattan.

La distance de Manhattan (appelée aussi taxi-distance) est la distance entre deux points parcourue par un taxi lorsqu'il se déplace dans une ville où les rues sont agencées selon un réseau ou quadrillage. Un taxi-chemin est le trajet fait par un taxi lorsqu'il se déplace d'un nœud du réseau à un autre en utilisant les déplacements horizontaux et verticaux du réseau. (Source

Sur le graphique précédent, on calcule la distance de Manhattan en se déplaçant d’abord parallèlement à l’axe des abscisses (on trouve donc 1), puis en se déplaçant parallèlement à l’axe des ordonnées (on trouve encore 1), ce qui nous donne une distance de 2.

Il existe aussi une distance qui calcule des proximités entre des mots (plus généralement des chaînes de caractères) : c’est la distance de Levenshtein, selon laquelle la distance entre « Bonjour » et « Bonsoir » est de 2.

La notion de nuage de points

Lorsque l’on représente les individus d’un échantillon par des points dans un espace euclidien, l’ensemble de ces points est appelé nuage de points. Poétique, non ? Comme durant les après-midi d’été, allongés sur l’herbe, où nous regardons les nuages dans le ciel. Vous avez d’ailleurs sûrement déjà joué à ce jeu : essayer de comparer la forme des nuages à des animaux ou à d’autres objets connus.

En statistiques, on fait la même chose, on décrit des nuages de points : quelle forme ont-ils ? sont-ils étalés, resserrés, denses, gros, petits ? quelle est leur position ?

Un nuage étalé dans l’espace traduira par exemple des individus très différents les uns des autres. Peut-être y a-t-il des amas dans un nuage, c’est-à-dire des zones plus denses que d’autres. Dans ce cas, cela signifie qu’il y a des groupes d’individus similaires entre eux, et plutôt différents des autres groupes.

La notion d’inertie

Comme nous étudions la dispersion d’un nuage (étalé ou resserré), nous avons besoin d’une notion qui définit ce concept : c’est la notion d’inertie.

La notion d’inertie est similaire à celle que rencontrent nos amis physiciens lorsqu’ils étudient le mouvement des objets (cette discipline s’appelle la mécanique) : un objet avec une forte inertie est un objet difficile à mettre en mouvement, ou à faire entrer en rotation.

Si vous avez deux objets de même masse, mais pas de même taille, l’objet qui sera plus grand (donc plus étalé dans l’espace) sera plus difficile à faire tourner autour de son centre de gravité.

Nous avons déjà vu ce parallèle en statistique descriptive monodimensionnelle quand nous avons parlé des moments empiriques et des moments d’inertie. L’un des moments que nous avons étudié était la variance.

Pour une variable donnée, la variance empirique est calculée à partir de la somme des carrés des distances entre les observations et leur moyenne. Cela, c’est pour une variable, c’est-à-dire pour un nuage de points à 1 dimension. La généralisation de ce concept à un nuage de points à $\(p\)$ dimensions nous donne l’inertie du nuage de points $\(N_I\)$ . Ainsi, l’inertie de $\(N_I\)$ est la moyenne des carrés des distances entre les points $\(M_i\)$ et leur centre de gravité $\(G\)$ . On note la distance entre le point $\(i\)$ et $\(G\)$ comme ceci : $\(d(M_i,G)\)$ .

L'inertie totale de $\(N_I\)$ par rapport à $\(G\)$ est donc égale à : 

$\[\frac{1}{n}\sum_{i=1}^nd(M_i,G)^2\]$

Plus le nuage sera dispersé (étalé), plus son inertie sera grande. Nous avons déjà vu cette notion de dispersion avec la variance empirique, que nous avons qualifiée d’indicateur de dispersion. D’ailleurs, l’inertie du nuage de points $\(N_i\)$ est aussi la somme des variances sur toutes les $\(p\)$ dimensions :

$\[\frac{1}{n}\sum_{i=1}^{n}d^2(M_i,G) = \frac{1}{n}\sum_{j=1}^{p}\sum_{i=1}^{n}(x_{ij}-\bar{x_j})^2=\sum_{j=1}^pVar[j]\]$

Exemple de certificat de réussite
Exemple de certificat de réussite