Bonne nouvelle, nous en avons fini avec cette histoire d’entretien d'embauche et de cet ami qui, au lieu de vous dire clairement combien de temps il faut prévoir pour que vous arriviez à l'heure, vous parle en termes de médiane, moyenne, variance, skewness et tout le tralala !
Revenons sur nos relevés bancaires, et étudions nos dépenses.
Une dépense, c'est une somme d'argent. Cela tombe bien, car les mesures de concentration sont le plus souvent utilisées pour des sommes d'argent ! Étudier la concentration d'argent, c'est regarder si l'argent est réparti de manière égalitaire ou pas.
Ce que l'on va regarder, c'est si tout l'argent que vous dépensez se concentre en quelques opérations bancaires, ou si au contraire, il est bien réparti parmi les opérations. Dire que votre argent se concentre sur quelques opérations signifie que généralement, vous faites de très nombreuses petites dépenses, et que parfois, il vous arrive de faire quelques dépenses énormes.
Au contraire, l'argent que vous dépensez est bien réparti si toutes vos opérations bancaires (sortantes) ont à peu près le même montant.
Pour visualiser cela, nous utilisons la courbe de Lorenz.
Découvrez la courbe de Lorenz
Pour illustrer la courbe de Lorenz, imaginons la population d'un pays. Concentrons-nous sur les personnes qui ont des revenus : ceux qui gagnent de l'argent.
Il faut vous imaginer la courbe de Lorenz comme un podium, non pas avec 3 places, mais avec autant de places que de gens. Ce podium ressemble à un escalier, sur lequel on place l'individu qui gagne le plus d'argent tout en haut, et celui qui gagne le moins d'argent tout en bas.
Seulement, cet escalier n'est pas régulier : la hauteur d'une marche donnée, par rapport à la marche précédente, correspond au revenu de l'individu placé sur cette marche. Ainsi, quelqu'un qui gagne beaucoup d'argent sera placé sur une marche très haute par rapport à celle de la personne en dessous de lui.
Question : quelle sera la hauteur totale de l'escalier ?
La hauteur de l'escalier est la somme des hauteurs des marches. La somme des hauteurs des marches correspond à la somme de tous les revenus des individus. Par exemple, si 10.000 € ont été distribués parmi la population, la hauteur de l'escalier sera de 10 m (si on considère que 1 m correspond à 1.000 €).
La courbe de Lorenz représente tout simplement cet escalier, à cela près que la hauteur de l'escalier est ramenée à 1, et que la longueur de l'escalier (projetée au sol) est aussi ramenée à 1.
Que se passe-t-il si tous les gens reçoivent la même somme d'argent ?
Dans ce cas, la répartition est la plus égalitaire possible. L'escalier se présente comme ceci (à gauche) :
On voit que les marches sont régulières, et que toutes les personnes sont alignées sur une droite appelée première bissectrice, c'est-à-dire qu'elle passe par les points (0,0) et (1,1). Elle est représentée en bleu sur le graphique de droite.
Et si une seule personne concentre en sa possession l'ensemble de la richesse ?
Nous sommes dans l’extrême inverse du cas précédent. Ici, la répartition est la plus inégalitaire possible :
Ici, la courbe de Lorenz ne suit plus du tout la première bissectrice, mais elle s'en éloigne au maximum !
En résumé, plus la courbe de Lorenz est proche de la première bissectrice, plus la répartition est égalitaire.
Voici le code permettant d'afficher la courbe de Lorenz :
depenses = data[data['montant'] < 0]
dep = -depenses['montant'].values
n = len(dep)
lorenz = np.cumsum(np.sort(dep)) / dep.sum()
lorenz = np.append([0],lorenz) # La courbe de Lorenz commence à 0
xaxis = np.linspace(0-1/n,1+1/n,n+1) #Il y a un segment de taille n pour chaque individu, plus 1 segment supplémentaire d'ordonnée 0. Le premier segment commence à 0-1/n, et le dernier termine à 1+1/n.
plt.plot(xaxis,lorenz,drawstyle='steps-post')
plt.show()
On y sélectionne tout d'abord le sous-échantillon de travail que l'on appelle depenses
. Comme évoqué plus haut, il faut trier les individus dans l'ordre croissant des valeurs de la variable ; nous le faisons ici grâce à np.sort(dep)
, car dep
contient les observations de la variable montant.
Ensuite, nous calculons la somme cumulée grâce à np.cumsum()
. Pour normaliser et faire en sorte que le haut de la courbe soit à 1, on divise le tout par dep.sum()
. La variable lorenz
contient les ordonnées des points, mais il nous faut maintenant leurs abscisses : celles-ci s'étendent de 0 à 1 (comme évoqué précédemment) à intervalle réguliers. C'est ce que produit np.linspace(0-1/n,1+1/n,len(lorenz))
.
La médiale
Nous avons dit que la courbe de Lorenz est un escalier de hauteur 1. Le salaire médial, c'est simplement le salaire de la personne qui se trouve à la moitié de la hauteur : 0,5.
La valeur du salaire médial n'est pas directement visible sur la courbe de Lorenz, mais on peut y voir la personne qui a le salaire médial. De même, la personne qui a le salaire médian est située exactement à 0,5 sur l'axe horizontal.
On savait que 50 % des salaires sont inférieurs au salaire médian, et 50 % sont supérieurs. Maintenant on sait que la somme des salaires inférieurs au salaire médial vaut 50 % de la somme de tous les salaires, et évidemment, la somme des salaires supérieurs au salaire médial vaut 50 % de la somme de tous les salaires.
Appréhendez l'indice de Gini
La courbe de Lorenz n'est pas une statistique, c'est une courbe ! Du coup, on a créé l'indice de Gini, qui résume la courbe de Lorenz.
Il mesure l'aire présente entre la première bissectrice et la courbe de Lorenz. Plus précisément, si on note cette aire, alors :
Le calcul de l'indice de Gini reprend directement les variables issues du traçage de la courbe de Lorenz mais est un peu plus complexe à comprendre, je laisse les plus courageux s'y plonger ;) :
AUC = (lorenz.sum() -lorenz[-1]/2 -lorenz[0]/2)/n # Surface sous la courbe de Lorenz. Le premier segment (lorenz[0]) est à moitié en dessous de 0, on le coupe donc en 2, on fait de même pour le dernier segment lorenz[-1] qui est à moitié au dessus de 1.
S = 0.5 - AUC # surface entre la première bissectrice et le courbe de Lorenz
gini = 2*S
gini
D'autres manières d'exprimer des concentrations
À la radio ou dans les journaux, l'indice de Gini n'est pas très parlant pour le public. Une autre manière d'exprimer les inégalités est plus intelligible, il s'agit de dire :
Les X % les plus riches possèdent Y % de la richesse mondiale, ou bien
Les X % les plus riches possèdent autant que les Y % les plus pauvres.
La première de ces deux phrases est de la même forme que la loi du 80-20, liée à l'indice de Pareto.
En résumé
Les mesures de concentration permettent d'évaluer si une variable est également répartie (ou non) entre différents individus.
La courbe de Lorenz permet de représenter la répartition d'une variable au sein d'une population, notamment si elle est égalitaire ou non.
Le coefficient de GINI permet d'évaluer de façon chiffrée cette répartition. Il correspond à deux fois l'aire sous la courbe de Lorenz.
On arrive à la fin de cette partie sur l'analyse univariée ! Avant de commencer la prochaine partie, n'oubliez pas de valider vos acquis avec le quiz. ;)