• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/02/2020

Appréhendez les mesures de forme

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Bon, votre ami vous a donné la moyenne des temps de trajets, ainsi que l’écart-type. Vous êtes déjà plus serein. Mais... il y a quelque chose que vous n'avez pas prévu. Regardez ces 2 distributions :

Elles ont la même moyenne empirique (60 minutes), et le même écart-type. Cependant, le cas 1 est plus "risqué" que le cas 2. En effet, dans le cas 2, il est très peu probable que votre trajet dure plus de 75 minutes : pas de risque d'être en retard ! Par contre, dans le cas 1, il est tout à fait possible que votre trajet dure 80 minutes, ou même beaucoup plus.

Il y a des mesures statistiques pour cela ! On les appelle les mesures de forme.

Réfléchissons

Construisons notre propre indicateur de forme ! Nous souhaitons savoir si la distribution s'étale plutôt à gauche ou à droite de la moyenne.

Je vous propose de reprendre celui que nous avons construit au chapitre précédent. Au départ, nous avions eu cette idée :

Prenons toutes nos valeurs, et calculons pour chacune d'entre elles l'écart qu'elles ont avec la moyenne. Puis additionnons tous ces écarts !

L'écart entre une valeur et la moyenne, nous l'avons écrit $\((x_i - \overline{x})\)$ . Si cet écart est positif, cela signifie que $\(x_i \)$ est supérieur à la moyenne, s'il est négatif,  $\(x_i\)$ est inférieur à la moyenne.

En additionnant tous ces écarts, nous nous sommes aperçus que la somme valait toujours 0. Nous avons donc mis cette quantité au carré : $\((x_i - \overline{x})^2\)$ . Avec le carré, cette grandeur est toujours positive. Si elle est toujours positive, on perd l'information qui nous dit si $\(x_i\)$ est supérieur ou inférieur à la moyenne. Or ici, nous voulons garder cette information !

Bon, si le carré ne convient pas, mettons-la au cube pour voir !

Bien vu ! Quand on met l'écart au cube, on obtient $\((x_i-\overline{x})^3\)$ . Contrairement au carré, le cube conserve le signe de $\((x_i - \overline{x})\)$ . Ensuite, prenons la moyenne de tous ces écarts au cube, on obtient :

  $\(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^3\)$

Nous avons atteint notre objectif : cette grandeur sera négative si la majorité des valeurs est plus petite que la moyenne, et positive sinon !

Mais nous pouvons faire encore mieux. Regardez ces deux distributions :

Elles ont la même forme, mais pas le même écart-type (la distribution A est plus étendue que B, A a un écart-type 2 fois supérieur à B). Comme elles ont la même forme, on voudrait que notre indicateur donne la même valeur pour ces deux distributions.

Mais actuellement, ce n'est pas le cas. Dans le cas A, les écarts à la moyenne sont 2 fois plus importants que dans le cas B. Comme on met ces écarts au cube, notre indicateur sera donc $\(2^3\)$ fois plus grand pour A que pour B. Or nous les souhaitons égaux. Pour corriger cela, il faut annuler l'effet de l'écart-type. On va donc diviser notre indicateur par l'écart-type mis au cube :

$\[\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^3}{s^3}\]$

Les mesures de forme

Le Skewness empirique

Devinez quoi ! L'indicateur que nous venons de créer est utilisé par les statisticiens, et s'appelle le skewness empirique. En général, on a l'habitude de nommer le skewness $\(\gamma_1\)$ , et son numérateur $\(\mu_3\)$ :

$\[\gamma_1 = \frac{\mu_3}{s^3}\]$

avec $\(\mu_3 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^3\)$

Le skewness est une mesure d'asymétrie. L’asymétrie d’une distribution traduit la régularité (ou non) avec laquelle les observations se répartissent autour de la valeur centrale. On interprète cette mesure de cette manière :

  • Si $\(\gamma_1= 0\)$ alors la distribution est symétrique.

  • Si $\(\gamma_1 > 0\)$ alors la distribution est étalée à droite.

  • Si $\(\gamma_1 < 0\)$ alors la distribution est étalée à gauche.

Relation entre la forme de la distribution et le skewness
Relation entre la forme de la distribution et le skewness

Le Kurtosis empirique

Le kurtosis empirique n'est pas une mesure d'asymétrie, mais c'est une mesure d'aplatissement. L’aplatissement peut s’interpréter à la condition que la distribution soit symétrique. En fait, on compare l'aplatissement par rapport à la distribution la plus célèbre, appelée distribution normale (parfois "courbe de Gauss" ou "Gaussienne"). Vous l'avez probablement déjà vue, elle ressemble à cela :

Distribution normale
Distribution normale

Le kurtosis est souvent noté $\(\gamma_2\)$ , et se calcule par :

$\[\gamma_2 = \frac{\mu_4}{s^4}-3\]$

avec $\(\mu_4 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^4\)$

Mais que sont vraiment ces mystérieux $\(\mu_3\)$ et $\(\mu_4\)$ dans les formules du skewness et du kurtosis ? On les appelle des moments. Pour plus de précisions, reportez-vous à la section Aller plus loin, au bas du chapitre ;).

Il s’interprète comme ceci :

  • Si $\(\gamma_2 = 0\)$ , alors la distribution a le même aplatissement que la distribution normale.

  • Si $\(\gamma_2 > 0\)$ , alors elle est moins aplatie que la distribution normale : les observations sont plus concentrées.

  • Si $\(\gamma_2 < 0\)$ , alors les observations sont moins concentrées : la distribution est plus aplatie.

Relation entre la forme de la distribution et le kurtosis
Relation entre la forme de la distribution et le kurtosis

Du côté du code

Vous connaissez maintenant le principe ! Au code du chapitre précédent, on ajoute les lignes 10 et 11, qui calculent le skewness empirique et le kurtosis empirique :

for cat in data["categ"].unique():
    subset = data[data.categ == cat]
    print("-"*20)
    print(cat)
    print("moy:\n",subset['montant'].mean())
    print("med:\n",subset['montant'].median())
    print("mod:\n",subset['montant'].mode())
    print("var:\n",subset['montant'].var(ddof=0))
    print("ect:\n",subset['montant'].std(ddof=0))
    print("skw:\n",subset['montant'].skew())
    print("kur:\n",subset['montant'].kurtosis())
    subset["montant"].hist()
    plt.show()
    subset.boxplot(column="montant", vert=False)
    plt.show()

Aller plus loin : Quelques mots sur l'asymétrie

Vous vous souvenez de cette phrase, plus haut dans le chapitre ?

Nous souhaitons savoir si la majorité des valeurs est plus petite ou plus grande que la moyenne.

Quand on dit la majorité, on entend plus de 50 % des valeurs. Vous vous souvenez que la médiane est construite de telle manière à ce que 50 % des valeurs lui soient supérieures. Ainsi, la phrase ci-dessus est équivalente à dire : Nous souhaitons savoir si la médiane est plus petite ou plus grande que la moyenne.

Une distribution est dite symétrique si elle présente la même forme de part et d’autre du centre de la distribution. Dans ce cas : $\(Mode = Med = \overline{x}\)$ .
Une distribution est étalée à droite (ou oblique à gauche, ou présentant une asymétrie positive) si : $\(Mode < Med < \overline{x}\)$ . De même, elle est étalée à gauche (ou oblique à droite) si $\(Mode > Med > \overline{x}\)$ .

Aller plus loin : Les moments

La moyenne empirique, la variance empirique, $\(\mu_3\)$ et $\(\mu_4\)$ sont tous des moments.

La notion de moment est ici très similaire à celle des moments d'inertie, dont la définition selon M. Wikipedia est la suivante :

Le moment d'inertie est une grandeur physique qui caractérise la géométrie des masses d'un solide, c'est-à-dire la répartition de la matière en son sein. Il quantifie également la résistance à une mise en rotation de ce solide.

La moyenne, la variance et les mesures de forme que nous avons vu caractérisent la géométrie de la distribution, d'où la similitude avec la définition du moment d’inertie.

Ceux qui étudient la mécanique sont habitués à calculer des moments. Par exemple, si on prend une règle graduée, que l'on attache un poids à chacun des endroits correspondant à des observations $\((x_1,...,x_n)\)$ , puis que l'on fait tourner cette règle autour de la valeur moyenne, alors le moment d'inertie se calculera de la même manière que la variance des $\((x_1,...,x_n)\)$ !

En statistiques, le moment général empirique d'ordre $\(p\)$ par rapport à $\(t\)$ est donné par la relation

$\[M_p^t=\frac{1}{n}\sum_{i=1}^{n}(x_i-t)^p\]$

Le moment simple empirique est le moment général par rapport à $\(t=0\)$ :

$\[M_p=\frac{1}{n}\sum_{i=1}^{n}x_i^p\]$

Le moment centré empirique est le moment général par rapport à la moyenne, soit $\( t=\overline{x}\)$ :

$\[\mu_p=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^p\]$

Exemple de certificat de réussite
Exemple de certificat de réussite