• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/02/2020

Familiarisez-vous avec les mesures de concentration

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Bonne nouvelle, nous en avons fini avec cette histoire d’entretien d'embauche et de cet ami qui, au lieu de vous dire clairement combien de temps il faut prévoir pour que vous arriviez à l'heure, vous parle en termes de médiane, moyenne, variance, skewness et tout le tralala !

Revenons sur vos relevés bancaires, et étudions vos dépenses.

Une dépense, c'est une somme d'argent. Cela tombe bien, car les mesures de concentration sont le plus souvent utilisées pour des sommes d'argent ! Étudier la concentration d'argent, c'est regarder si l'argent est répartie de manière égalitaire ou pas.

Ce que l'on va regarder, c'est si tout l'argent que vous dépensez se concentre en quelques opérations bancaires, ou si au contraire, il est bien réparti parmi les opérations. Dire que votre argent se concentre sur quelques opérations signifie que généralement, vous faites de très nombreuses petites dépenses, et que parfois, il vous arrive de faire quelques dépenses énormes.

Au contraire, l'argent que vous dépensez est bien réparti si toutes vos opérations bancaires (sortantes) ont à peu près le même montant.

Pour visualiser cela, nous utilisons la courbe de Lorenz.

Les mesures de concentration

La courbe de Lorenz

Pour illustrer la courbe de Lorenz, imaginons la population d'un pays. Concentrons-nous sur les personnes qui ont des revenus : ceux qui gagnent de l'argent.

Il faut vous imaginer la courbe de Lorenz comme un podium, non pas avec 3 places, mais avec autant de places que de gens. Ce podium ressemble à un escalier, sur lequel on place l'individu qui gagne le plus d'argent tout en haut, et celui qui gagne le moins d'argent tout en bas.

Seulement, cet escalier n'est pas régulier : la hauteur d'une marche donnée, par rapport à la marche précédente, correspond au revenu de l'individu placé sur cette marche. Ainsi, quelqu'un qui gagne beaucoup d'argent sera placé sur une marche très haute par rapport à celle de la personne en dessous de lui.

Question : quelle sera la hauteur totale de l'escalier ?

La hauteur de l'escalier est la somme des hauteurs des marches. La somme des hauteurs des marches correspond à la somme de tous les revenus des individus. Par exemple, si 10.000 € ont été distribués parmi la population, la hauteur de l'escalier sera de 10 m (si on considère que 1 m correspond à 1.000 €).

La courbe de Lorenz représente tout simplement cet escalier, à cela près que la hauteur de l'escalier est ramenée à 1, et que la longueur de l'escalier (projetée au sol) est aussi ramenée à 1.

Que se passe-t-il si tous les gens reçoivent la même somme d'argent ?

Dans ce cas, la répartition est la plus égalitaire possible. L'escalier se présente comme ceci (à gauche) :

On voit que les marches sont régulières, et que toutes les personnes sont alignées sur une droite appelée première bissectrice, c'est-à-dire qu'elle passe par les points (0,0) et (1,1). Elle est représentée en bleu sur le graphique de droite.

Et si une seule personne concentre en sa possession l'ensemble de la richesse ?

Nous sommes dans l’extrême inverse du cas précédent. Ici, la répartition est la plus inégalitaire possible :

Ici, la courbe de Lorenz ne suit plus du tout la première bissectrice, mais elle s'en éloigne au maximum !

En résumé, plus la courbe de Lorenz est proche de la première bissectrice, plus la répartition est égalitaire

L'indice de Gini

La courbe de Lorenz n'est pas une statistique, c'est une courbe ! Du coup, on a créé l'indice de Gini, qui résume la courbe de Lorenz.

Il mesure l'aire présente entre la première bissectrice et la courbe de Lorenz. Plus précisément, si on note $\(S\)$ cette aire, alors

$\[gini = 2\times S\]$

D'autres manières d'exprimer des concentrations

A la radio ou dans les journaux, l'indice de Gini n'est pas très parlant pour le public. Une autre manière d'exprimer les inégalités est plus intelligible, il s'agit de dire :

  • Les X % les plus riches possèdent Y % de la richesse mondiale, ou bien

  • Les X % les plus riches possèdent autant que les Y % les plus pauvres.

La première de ces deux phrases est de la même forme que la loi du 80-20, liée à l'indice de Pareto.

Du côté du code

Voici le code permettant d'afficher la courbe de Lorenz :

import numpy as np

depenses = data[data['montant'] < 0]
dep = -depenses['montant'].values
n = len(dep)
lorenz = np.cumsum(np.sort(dep)) / dep.sum()
lorenz = np.append([0],lorenz) # La courbe de Lorenz commence à 0

plt.axes().axis('equal')
xaxis = np.linspace(0-1/n,1+1/n,n+1) #Il y a un segment de taille n pour chaque individu, plus 1 segment supplémentaire d'ordonnée 0. Le premier segment commence à 0-1/n, et le dernier termine à 1+1/n.
plt.plot(xaxis,lorenz,drawstyle='steps-post')
plt.show()

On y sélectionne tout d'abord le sous-échantillon de travail que l'on appelle  depenses  . Comme évoqué pus haut, il faut trier les individus dans l'ordre croissant des valeurs de la variable; nous le faisons ici grâce à  np.sort(dep)  , car  dep  contient les observations de la variable montant. Ensuite, nous calculons la somme cumulée grâce à  np.cumsum()  . Pour normaliser et faire en sorte que le haut de la courbe soit à 1, on divise le tout par  dep.sum()  . La variable  lorenz  contient les ordonnées des points, mais il nous faut maintenant leurs abscisses : celles-ci s'étendent de 0 à 1 (comme évoqué précédemment) à intervalle réguliers. C'est ce que produit  np.linspace(0,1,len(lorenz))  .

Le calcul de l'indice de Gini est un peu plus complexe à comprendre, je laisse les plus courageux s'y plonger ;) :

AUC = (lorenz.sum() -lorenz[-1]/2 -lorenz[0]/2)/n # Surface sous la courbe de Lorenz. Le premier segment (lorenz[0]) est à moitié en dessous de 0, on le coupe donc en 2, on fait de même pour le dernier segment lorenz[-1] qui est à moitié au dessus de 1.
S = 0.5 - AUC # surface entre la première bissectrice et le courbe de Lorenz
gini = 2*S
gini

Aller plus loin : La médiale

Nous avons dit que la courbe de Lorenz est un escalier de hauteur 1. Le salaire médial, c'est simplement le salaire de la personne qui se trouve à la moitié de la hauteur : 0,5.

La valeur du salaire médial n'est pas directement visible sur la courbe de Lorenz, mais on peut y voir la personne qui a le salaire médial. De même, la personne qui a le salaire médian est située exactement à 0,5 sur l'axe horizontal.

On savait que 50 % des salaires sont inférieurs au salaire médian, et 50 % sont supérieurs. Maintenant on sait que la somme des salaires inférieurs au salaire médial vaut 50 % de la somme de tous les salaires, et évidemment, la somme des salaires supérieurs au salaire médial vaut 50 % de la somme de tous les salaires.

Exemple de certificat de réussite
Exemple de certificat de réussite