• 10 hours
  • Easy

Free online content available in this course.

course.header.alt.is_video

course.header.alt.is_certifying

Got it!

Last updated on 3/18/24

Familiarisez-vous avec les mesures de concentration

Bonne nouvelle, nous en avons fini avec cette histoire d’entretien d'embauche et de cet ami qui, au lieu de vous dire clairement combien de temps il faut prévoir pour que vous arriviez à l'heure, vous parle en termes de médiane, moyenne, variance, skewness et tout le tralala !

Revenons sur nos relevés bancaires, et étudions nos dépenses.

Une dépense, c'est une somme d'argent. Cela tombe bien, car les mesures de concentration sont le plus souvent utilisées pour des sommes d'argent ! Étudier la concentration d'argent, c'est regarder si l'argent est réparti de manière égalitaire ou pas.

Ce que l'on va regarder, c'est si tout l'argent que vous dépensez se concentre en quelques opérations bancaires, ou si au contraire, il est bien réparti parmi les opérations. Dire que votre argent se concentre sur quelques opérations signifie que généralement, vous faites de très nombreuses petites dépenses, et que parfois, il vous arrive de faire quelques dépenses énormes.

Au contraire, l'argent que vous dépensez est bien réparti si toutes vos opérations bancaires (sortantes) ont à peu près le même montant.

Pour visualiser cela, nous utilisons la courbe de Lorenz.

Découvrez la courbe de Lorenz

Pour illustrer la courbe de Lorenz, imaginons la population d'un pays. Concentrons-nous sur les personnes qui ont des revenus : ceux qui gagnent de l'argent.

Il faut vous imaginer la courbe de Lorenz comme un podium, non pas avec 3 places, mais avec autant de places que de gens. Ce podium ressemble à un escalier, sur lequel on place l'individu qui gagne le plus d'argent tout en haut, et celui qui gagne le moins d'argent tout en bas.

Seulement, cet escalier n'est pas régulier : la hauteur d'une marche donnée, par rapport à la marche précédente, correspond au revenu de l'individu placé sur cette marche. Ainsi, quelqu'un qui gagne beaucoup d'argent sera placé sur une marche très haute par rapport à celle de la personne en dessous de lui.

Question : quelle sera la hauteur totale de l'escalier ?

La hauteur de l'escalier est la somme des hauteurs des marches. La somme des hauteurs des marches correspond à la somme de tous les revenus des individus. Par exemple, si 10.000 € ont été distribués parmi la population, la hauteur de l'escalier sera de 10 m (si on considère que 1 m correspond à 1.000 €).

La courbe de Lorenz représente tout simplement cet escalier, à cela près que la hauteur de l'escalier est ramenée à 1, et que la longueur de l'escalier (projetée au sol) est aussi ramenée à 1.

La courbe de Lorenz
La courbe de Lorenz

Que se passe-t-il si tous les gens reçoivent la même somme d'argent ?

Dans ce cas, la répartition est la plus égalitaire possible. L'escalier se présente comme ceci (à gauche) :

Une répartition plus égalitaire
Une répartition plus égalitaire

On voit que les marches sont régulières, et que toutes les personnes sont alignées sur une droite appelée première bissectrice, c'est-à-dire qu'elle passe par les points (0,0) et (1,1). Elle est représentée en bleu sur le graphique de droite.

Et si une seule personne concentre en sa possession l'ensemble de la richesse ?

Nous sommes dans l’extrême inverse du cas précédent. Ici, la répartition est la plus inégalitaire possible :

Une représentation extrêmement inégalitaire
Et une représentation extrêmement inégalitaire

Ici, la courbe de Lorenz ne suit plus du tout la première bissectrice, mais elle s'en éloigne au maximum !

En résumé, plus la courbe de Lorenz est proche de la première bissectrice, plus la répartition est égalitaire.

Voici le code permettant d'afficher la courbe de Lorenz :

depenses = data[data['montant'] < 0]
dep = -depenses['montant'].values
n = len(dep)
lorenz = np.cumsum(np.sort(dep)) / dep.sum()
lorenz = np.append([0],lorenz) # La courbe de Lorenz commence à 0

xaxis = np.linspace(0-1/n,1+1/n,n+1) #Il y a un segment de taille n pour chaque individu, plus 1 segment supplémentaire d'ordonnée 0. Le premier segment commence à 0-1/n, et le dernier termine à 1+1/n.
plt.plot(xaxis,lorenz,drawstyle='steps-post')
plt.show()

On y sélectionne tout d'abord le sous-échantillon de travail que l'on appelle  depenses  . Comme évoqué plus haut, il faut trier les individus dans l'ordre croissant des valeurs de la variable ; nous le faisons ici grâce à  np.sort(dep)  , car  dep  contient les observations de la variable montant.

Ensuite, nous calculons la somme cumulée grâce à  np.cumsum()  . Pour normaliser et faire en sorte que le haut de la courbe soit à 1, on divise le tout par  dep.sum()  . La variable  lorenz  contient les ordonnées des points, mais il nous faut maintenant leurs abscisses : celles-ci s'étendent de 0 à 1 (comme évoqué précédemment) à intervalle réguliers. C'est ce que produit  np.linspace(0-1/n,1+1/n,len(lorenz))  .

La médiale

Nous avons dit que la courbe de Lorenz est un escalier de hauteur 1. Le salaire médial, c'est simplement le salaire de la personne qui se trouve à la moitié de la hauteur : 0,5.

Le salaire médial se trouve à la moitié de la hauteur, ici 0,5.
Le salaire médial

La valeur du salaire médial n'est pas directement visible sur la courbe de Lorenz, mais on peut y voir la personne qui a le salaire médial. De même, la personne qui a le salaire médian est située exactement à 0,5 sur l'axe horizontal. 

On savait que 50 % des salaires sont inférieurs au salaire médian, et 50 % sont supérieurs. Maintenant on sait que la somme des salaires inférieurs au salaire médial vaut 50 % de la somme de tous les salaires, et évidemment, la somme des salaires supérieurs au salaire médial vaut 50 % de la somme de tous les salaires.

Appréhendez l'indice de Gini

La courbe de Lorenz n'est pas une statistique, c'est une courbe ! Du coup, on a créé l'indice de Gini, qui résume la courbe de Lorenz.

Il mesure l'aire présente entre la première bissectrice et la courbe de Lorenz. Plus précisément, si on note $\(S\)$ cette aire, alors :

$\(gini = 2\times S\)$

L'indice de Gini
L'indice de Gini 

Le calcul de l'indice de Gini reprend directement les variables issues du traçage de la courbe de Lorenz mais est un peu plus complexe à comprendre, je laisse les plus courageux s'y plonger ;) :

AUC = (lorenz.sum() -lorenz[-1]/2 -lorenz[0]/2)/n # Surface sous la courbe de Lorenz. Le premier segment (lorenz[0]) est à moitié en dessous de 0, on le coupe donc en 2, on fait de même pour le dernier segment lorenz[-1] qui est à moitié au dessus de 1.
S = 0.5 - AUC # surface entre la première bissectrice et le courbe de Lorenz
gini = 2*S
gini

D'autres manières d'exprimer des concentrations

À la radio ou dans les journaux, l'indice de Gini n'est pas très parlant pour le public. Une autre manière d'exprimer les inégalités est plus intelligible, il s'agit de dire :

  • Les X % les plus riches possèdent Y % de la richesse mondiale, ou bien

  • Les X % les plus riches possèdent autant que les Y % les plus pauvres.

La première de ces deux phrases est de la même forme que la loi du 80-20, liée à l'indice de Pareto.

En résumé

  • Les mesures de concentration permettent d'évaluer si une variable est également répartie (ou non) entre différents individus.

  • La courbe de Lorenz permet de représenter la répartition d'une variable au sein d'une population, notamment si elle est égalitaire ou non.

  • Le coefficient de GINI permet d'évaluer de façon chiffrée cette répartition. Il correspond à deux fois l'aire sous la courbe de Lorenz.

On arrive à la fin de cette partie sur l'analyse univariée ! Avant de commencer la prochaine partie, n'oubliez pas de valider vos acquis avec le quiz. ;)

Example of certificate of achievement
Example of certificate of achievement