• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/02/2020

Comprenez les mesures de dispersion

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Au chapitre précédent, votre ami vous a donné une estimation de la durée du trajet. Mais il vous a donné des mesures de tendance centrale, comme par exemple la moyenne, qui est de 60 minutes par trajet.

Ce qui vous manque maintenant, c'est de savoir si les durées que votre ami a effectué sont très "resserrées" autour de 60 min (exemple :  [58, 60, 62, 59, 57, ...] ), ou bien si elles s'en écartent beaucoup (exemple :  [40, 70, 78, 43, ...] ).

Quel intérêt ?

Si les valeurs sont très resserrées autour de 60 minutes, alors prévoyez de partir 75 minutes à l'avance. Ainsi, il est probable que vous arriverez 5 ou 10 minutes avant votre entretien. Mais si les valeurs sont très écartées, alors prévoyez plutôt de partir 100 minutes à l'avance, car il est tout à fait possible que le trajet dure 80 minutes !

J'ai compris ! Mesurer l'espacement des valeurs... j'imagine qu'il y a une mesure statistique pour cela non ?

Tout à fait ! :D Il y en a même plusieurs. On les appelle les mesures de dispersion.

Réfléchissons

Essayons de construire notre propre indicateur de dispersion, pas-à-pas. Pour illustrer, prenons les valeurs suivantes (70, 60, 50, 55, 55, 65, 65), et donnons-leur chacun un nom : $\(x_i\)$ , avec $\(i\)$ allant de 1 à 7. Ainsi, nos valeurs portent les noms de $\(x_1\)$ à $\(x_7\)$ .

Formellement, on écrit  $\((x_1,...,x_n) = (70, 60, 50, 55, 55, 65, 65)\)$ avec $\(n=7\)$ .

Remarquons que la moyenne de ces valeurs vaut 60, on la note $\(\overline{x}=60\)$, et on prononce "x barre".

Facile de faire une mesure de dispersion ! Prenons toutes nos valeurs, et calculons pour chacune d'entre elles l'écart qu'elles ont avec la moyenne. Puis additionnons tous ces écarts !

C'est un bon début. Comme notre moyenne est de 60, les écarts des $\(x_i\)$ à la moyenne sont : $\((x_1-\overline{x},...,x_7-\overline{x}) = (10,0,-10,-5,-5,5,5)\)$. Sauf que... si nous faisons la somme de ceux-ci, on obtient 0 ! On peut même le démontrer mathématiquement : quelle que soit la dispersion de vos valeurs, la somme des écarts à la moyenne vaudra toujours 0. Pas très efficace donc...

Si ça vaut 0, c'est parce qu’il y a des nombres positifs et des nombres négatifs. Évitons cela, et mettons-les tous au carré. Un nombre mis au carré, c'est toujours positif n'est-ce pas ?

Exact ! Voici ce que ça donne : $\(((x_1-\overline{x})^2,...,(x_7-\overline{x})^2) = (100,0,100,25,25,25,25)\)$. Maintenant, si on fait la somme de toutes ces valeurs, on obtient 300.

Bon. Il y a encore un problème. Ici, on a 7 valeurs, tout simplement parce que nous sommes un peu paresseux, et nous n'en avons relevé que 7. Mais en statistiques, plus on fait de relevés, plus on a une idée précise de ce que l'on décrit. Ainsi, on aurait dû retenir 10, 100 ou même 1000 valeurs !

Mais avec 1000 valeurs, notre mesure exploserait ! Il passerait de 300 avec 7 valeurs à peut-être 40000000000 avec 1000 valeurs. C'est problématique.

Alors, plutôt que de calculer la somme, et avoir un indicateur qui explose, prenons plutôt la moyenne. Ainsi, qu'il y ait 7 valeurs ou 1000 valeurs, la moyenne n'explosera pas.

Bonne idée. La moyenne de (100,0,100,25,25,25,25) est 42,86.

Les mesures de dispersion

La variance empirique

Devinez quoi ! L'indicateur que nous venons de construire est l'un des plus utilisés en statistiques ! :soleil: Il s'appelle la variance empirique. Comme nous venons de le voir, elle est égale à

$\[v = \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\]$

Pour approfondir l'aspect calculatoire, rendez-vous à la section Aller plus loin, au bas du chapitre. Aussi, vous trouverez souvent une version "corrigée" de la variance empirique, que l'on qualifie de non biaisée. Je vous renvoie ici aussi à la section Aller plus loin.

L'écart-type empirique

L'écart-type empirique, c'est juste la racine carrée de la variance empirique. On l'appelle en anglais standard deviation, souvent abrégé std. En fait, quand on calcule la variance empirique des temps de trajet, le résultat a pour unité la minute $\(^2\)$ , ce qui n'est pas très intelligible. En prenant la racine carrée, l'unité redevient la minute. Ici, notre écart-type vaut 6,55 minutes. On le note $\(s\)$ .

$\[s = \sqrt{v}\]$

Mais lorsque vous faites un trajet, un écart-type de 6,55 minutes sur un trajet de 1 h (1h en moyenne), ce n'est pas la même chose qu'un écart-type de 6,55 minutes sur un trajet de 24 h (24h en moyenne) ! On a donc créé le coefficient de variation, disponible dans la section Aller plus loin.

L'écart inter-quartiles

Vous vous souvenez de la médiane ? C'est la valeur au-dessous de laquelle se trouvent la moitié des valeurs.

Un quartile, c'est la même chose, mais avec la proportion d'un quart. Il existe 3 quartiles, notés $\(Q_1\)$ (premier quartile), $\(Q_2\)$ (deuxième quartile) et $\(Q_3\)$ (troisième quartile). Ainsi :

  • 1/4 des valeurs se trouvent en dessous de $\(Q_1\)$ et 3/4 au dessus

  • 2/4 se trouvent en dessous de $\(Q_2\)$ , et 2/4 au dessus ( $\(Q_2\)$ est la médiane !)

  • 3/4 se trouvent en dessous de $\(Q_3\)$ , et 1/4 au dessus

L'écart inter-quartile est la différence entre le 3e quartile et le 1e quartile :

$\[IQ = Q_3-Q_1\]$

La boîte à moustaches (boxplot)

Boîte à moustaches, quel nom rigolo ! :lol: Les anglophones l'appellent boxplot.

Elle permet de représenter schématiquement une distribution, en incluant sa dispersion. La boîte est délimitée par $\(Q_1\)$ et $\(Q_3\)$ , et on représente souvent la médiane à l’intérieur de la boîte. On dessine ensuite des moustaches à cette boîte, qui vont de la valeur minimale à la valeur maximale... à condition que la moustache (d'un côté ou de l'autre) ne mesure pas plus de 1,5 fois l'écart inter-quartiles. Si certaines valeurs sont au dessous de  $\(Q_1 - 1.5IQ\)$ ou au dessus de $\(Q_3 + 1.5IQ\)$ , alors on les considère comme des outliers, et on ne les inclut pas dans la moustache :

Du côté du code

Pour la variance empirique et l'écart-type  empirique, c'est le même principe qu'au chapitre précédent : on appelle les méthodes  var()  et  std()  sur la variable étudiée. A vrai dire, ces 2 méthodes renverront des résultats un peu différents des calculs faits avec les formules données ci-dessus. C'est une histoire d'estimateur biaisé (pour les motivés, voir la section Aller plus loin : variance empirique). Pour obtenir les résultats décrits ci-dessus, il faut ajouter ddof=0  (lignes 8 et 9).

Nous allons afficher les boîtes à moustaches avec les histogrammes, pour que vous puissiez les comparer ;). Ligne 12, le mot clé vert=False signifie que nous souhaitons que la boîte à moustaches ne soit pas à la verticale (donc à l'horizontale !). En reprenant le code du chapitre précédent, voilà ce que cela donne :

for cat in data["categ"].unique():
    subset = data[data.categ == cat]
    print("-"*20)
    print(cat)
    print("moy:\n",subset['montant'].mean())
    print("med:\n",subset['montant'].median())
    print("mod:\n",subset['montant'].mode())
    print("var:\n",subset['montant'].var(ddof=0))
    print("ect:\n",subset['montant'].std(ddof=0))
    subset["montant"].hist()
    plt.show()
    subset.boxplot(column="montant", vert=False)
    plt.show()

Aller plus loin : La variance empirique corrigée

La meilleure manière d'estimer la variance d'une variable aléatoire (i.e. la variance théorique) n'est pas d'utiliser la variance empirique.

Étonnant, non ? Oui. En fait, quand on se plonge dans les calculs, on s'aperçoit que la variance empirique donne des valeurs qui (en moyenne) sont inférieures à la variance de la variable aléatoire.

Il s'agit de la notion de biais d'un estimateur. Un estimateur sans biais est meilleur qu'un estimateur biaisé. La variance empirique est un estimateur biaisé de la variance de la variable aléatoire.

Pour corriger ce biais, on a créé la variance empirique corrigée, ou variance empirique sans biais. Elle est souvent notée $\(s'^2\)$ , et est égale à $\(s'^2=\frac{n}{n-1}v\)$ , où $\(v\)$ est la variance empirique, et $\(n\)$ la taille de l'échantillon. Quand la taille de l'échantillon est grand, la variance empirique et la variance empirique corrigée sont presque égales.

Aller plus loin : Calculs avec la variance empirique

On peut montrer par le calcul que la variance empirique $\(v\)$ peut aussi s'écrire sous une forme très pratique :

$\[v=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 =(\frac{1}{n}\sum_{i=1}^{n}x_i^2)-\overline{x}^2\]$

 C'est la Théorème de König-Huygens. Pour la démonstration, c'est par ici ;).

 Si on crée une nouvelle variable $\(Y\)$ à partir d'une variable $\(X\)$ dont on connaît la variance $\(v_X\)$ , et que $\(Y = aX + b\)$ , alors on peut connaître la variance de $\(Y\)$ notée $\(v_Y\)$ ! Elle est donnée par cette relation :

$\[v_Y = a^2v_X\]$

(Voir la démonstration)

Aller plus loin : Le coefficient de variation

Lorsque vous faites un trajet, un écart-type de 6,55 minutes sur un trajet de 1 h, ce n'est pas la même chose qu'un écart-type de 6,55 minutes sur un trajet de 24 h ! Dans le premier cas, l'écart-type sera vu comme assez grand, alors que dans le second cas, il sera négligeable face aux 24 h.

Pour rendre compte de cela, on a créé le coefficient de variation, qui est l'écart-type empirique divisé par la moyenne :

$\[CV = \frac{s}{\overline{x}}\]$

Aller plus loin : Autres mesures de dispersion

Quand au début du chapitre, nous avons dit :

Mettons-les tous au carré. Un nombre mis au carré, c'est toujours positif n'est-ce pas ?

Peut-être vous êtes-vous dit :

On peut prendre la valeur absolue aussi plutôt que le carré non ?

Tout à fait. Quand on fait cela, on calcule l'écart moyen absolu.

Il y a deux versions : l'une où on mesure les écarts à la moyenne, l'autre où on mesure les écarts à la médiane.

Voici la version avec la médiane :

$\[EMA = \frac{1}{n}\sum_{i=1}^{n}{|x_i - Med|}\]$

Si on souhaite une mesure plus robuste, on définit également le MAD qui est la médiane des écarts absolus par rapport à la médiane.

Exemple de certificat de réussite
Exemple de certificat de réussite