Il n'y a pas que les histogrammes dans la vie !
Il est aussi possible de présenter des variables sous forme de tableau. C'est un peu moins beau certes, mais dans certains cas, cette représentation est mieux adaptée ou complémentaire d'une représentation graphique. Nous allons étudier ici les 4 cas correspondant aux 4 types de variables.
Donnons des noms à ce que nous étudions
Pour que nous puissions communiquer vous et moi, nous devons parler un langage commun. Nous allons donc nommer les différents objets que nous manipulerons dans ce chapitre.
Nous travaillerons ici avec l'échantillon des relevés bancaires, composés d'opérations. Notons le nombre d'opérations bancaires ; c'est la taille de notre échantillon.
Ensuite, la variable que nous étudierons s’appellera .
n'a rien de très concret : c'est juste une variable. Par exemple, montant est une variable.
Dans notre jeu de données, on a plusieurs valeurs pour la variable montant : 1.43, 80, 2.20, etc. Ici, c'est beaucoup plus concret, on a de vraies valeurs sous les yeux. Le nombre de valeurs présentes dans notre échantillon est de . Ainsi, on peut noter ces valeurs .
Cas des variables qualitatives et quantitatives discrètes
Si est qualitative (ou même quantitative discrète), cela signifie qu'elle peut prendre plusieurs modalités. Par exemple, categ peut prendre les modalités "COURSES", "LOYER", "TRANSPORTS", etc. Ces modalités, nous les appellerons , où est le nombre de modalités.
Cas des variables quantitatives continues
Pour présenter les variables quantitatives continues, nous agrégerons les valeurs de la variable en classes, qui seront au nombre de . Ces classes seront notées ainsi :
Représentez les variables sous forme de tableau
Pour les variables qualitatives
Pour les variables qualitatives, il suffit juste de compter le nombre de valeurs pour chaque modalité. Ce nombre est appelé effectif de la modalité.
Ainsi, pour une modalité (où est compris entre et , bien entendu !), on appelle l'effectif . Si on additionne les effectifs de toutes les modalités, on retombe sur : la taille de l'échantillon.
Si on divise l'effectif par , on obtient alors la fréquence, qui est un nombre compris entre 0 et 1. Vous l'aurez deviné, si on additionne les fréquences des toutes les modalités, on obtient 1 !
Voici donc comment on présente usuellement une variable qualitative : formellement, et avec l'exemple de la variable categ :
Pour les variables quantitatives
Variables discrètes
Pour les variables quantitatives discrètes, on peut reprendre le tableau précédent, et y ajouter une colonne qui donne la fréquence cumulée. La fréquence cumulée d'une modalité , c'est juste la somme des fréquences de toutes les modalités inférieures ou égales à . On la note . Voici l'exemple de la variable quart_mois :
Voici le code qui a généré le tableau récapitulatif de la variable quart_mois.
effectifs = data["quart_mois"].value_counts()
modalites = effectifs.index # l'index de effectifs contient les modalités
tab = pd.DataFrame(modalites, columns = ["quart_mois"]) # création du tableau à partir des modalités
tab["n"] = effectifs.values
tab["f"] = tab["n"] / len(data) # len(data) renvoie la taille de l'échantillon
Pour calculer les effectifs, on fait appel à value_counts()
sur la variable à étudier. Cette méthode renvoie un objet Series dont les valeurs sont les effectifs, et dont l'index contient les modalités (lignes 1 et 2).
À partir des modalités, on crée le tableau tab
(ligne 4), auquel on ajoute la colonne des effectifs (ligne 5) puis la colonne des fréquences (ligne 6).
Pour calculer les fréquences cumulées, il suffit de 2 lignes en plus. L'une trie les valeurs, et l'autre calcule la somme cumulée des fréquences :
tab = tab.sort_values("quart_mois") # tri des valeurs de la variable X (croissant)
tab["F"] = tab["f"].cumsum() # cumsum calcule la somme cumulée
Variables continues
Pour les variables continues, il suffit de remplacer les par les classes, comme nous l'avons dit plus haut. Voilà ce que ça donne, avec la variable montant :
En résumé
La représentation sous forme de tableau est une bonne alternative à une représentation graphique.
Pour une variable qualitative, nous pouvons reprendre la distribution empirique représentant pour chaque modalité, l'effectif et la fréquence.
Pour une variable quantitative discrète, la représentation est très similaire à celle d'une qualitative, en y ajoutant la fréquence cumulée.
Dans le cas d'une quantitative continue, on regroupera au préalable les différentes valeurs en classe (discrétisation), ce qui nous renvoie directement dans la représentation d'une quantitative discrète.
Nous avons maintenant de belles représentation de nos variables. Dans le prochain chapitre, découvrons les enjeux de l'analyse univariée – vous êtes prêt ?