• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/02/2020

Présentez une variable sous forme de tableau

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Il n'y a pas que les histogrammes dans la vie !

Il est aussi possible de présenter des variables sous forme de tableau. C'est un peu moins beau certes, mais dans certains cas, cette représentation est mieux adaptée ou complémentaire d'une représentation graphique. Nous allons étudier ici les 4 cas correspondant aux 4 types de variables.

Donnons des noms à ce que nous étudions

Pour que nous puissions communiquer vous et moi, nous devons parler un langage commun. Nous allons donc nommer les différents objets que nous manipulerons dans ce chapitre.

Nous travaillerons ici avec l'échantillon des relevés bancaires, composés d'opérations. Notons $\(n\)$ le nombre d'opérations bancaires ; c'est la taille de notre échantillon.

Ensuite, la variable que nous étudierons s’appellera $\(X\)$ .

 $\(X\)$ n'a rien de très concret : c'est juste une variable. Par exemple, montant est une variable.

Dans notre jeu de données, on a plusieurs valeurs pour la variable montant : 1.43, 80, 2.20, etc. Ici, c'est beaucoup plus concret, on a de vraies valeurs sous les yeux. Le nombre de valeurs présentes dans notre échantillon est de $\(n\)$ . Ainsi, on peut noter ces valeurs $\((x_1,...,x_n)\)$ .

Cas des variables qualitatives et quantitatives discrètes

Si $\(X\)$ est qualitative (ou même quantitative discrète), cela signifie qu'elle peut prendre plusieurs modalités. Par exemple, categ peut prendre les modalités "COURSES", "LOYER", "TRANSPORTS", etc. Ces modalités, nous les appellerons $\(\{a_1,...,a_k\}\)$ , où $\(k\)$ est le nombre de modalités.

Cas des variables quantitatives continues

Pour présenter les variables quantitatives continues, nous agrégerons les valeurs de la variable $\(X\)$ en classes, qui seront au nombre de $\(k\)$ . Ces classes seront notées ainsi : $\(\{[a_1',a_2'[,...,[a_k',a_{k+1}'[\}\)$

Représenter les variables sous forme de tableau

Pour les variables qualitatives

Pour les variables qualitatives, il suffit juste de compter le nombre de valeurs pour chaque modalité. Ce nombre est appelé effectif de la modalité.

Ainsi, pour une modalité $\(a_i\)$ (où $\(i\)$ est compris entre $\(1\)$ et $\(k\)$ bien entendu !), on appelle l'effectif $\(n_i\)$. Si on additionne les effectifs de toutes les modalités, on retombe sur $\(n\)$ : la taille de l'échantillon.

Si on divise l'effectif par $\(n\)$, on obtient alors la fréquence, qui est un nombre compris entre 0 et 1. Vous l'aurez deviné, si on additionne les fréquences des toutes les modalités, on obtient 1 !

Voici donc comment on présente usuellement une variable qualitative : formellement, et avec l'exemple de la variable categ :

Pour les variables quantitatives

Variables discrètes

Pour les variables quantitatives discrètes, on peut reprendre le tableau précédent, et y ajouter une colonne qui donne la fréquence cumulée. La fréquence cumulée d'une modalité $\(a_i\)$ , c'est juste la somme des fréquences de toutes les modalités inférieures ou égales à $\(a_i\)$ . On la note $\(F\)$ . Voici l'exemple de la variable quart_mois :

Variables continues

Pour les variables continues, il suffit de remplacer les $\(\{a_1,...,a_k\}\)$ par les classes, comme nous l'avons dit plus haut. Voilà ce que ça donne, avec la variable montant :

Et le code ?

En Python, c'est plutôt simple. Il suffit (presque) d'une ligne de code par colonne. Voici le code qui a généré le tableau récapitulatif de la variable quart_mois.

effectifs = data["quart_mois"].value_counts()
modalites = effectifs.index # l'index de effectifs contient les modalités

tab = pd.DataFrame(modalites, columns = ["quart_mois"]) # création du tableau à partir des modalités
tab["n"] = effectifs.values
tab["f"] = tab["n"] / len(data) # len(data) renvoie la taille de l'échantillon

Pour calculer les effectifs, on fait appel à  value_counts()  sur la variable à étudier. Cette méthode renvoie un objet Series dont les valeurs sont les effectifs, et dont l'index contient les modalités. (lignes 1 et 2)

A partir des modalités, on crée le tableau  tab  (ligne 4), auquel on ajoute la colonne des effectifs (ligne 5) puis la colonne des fréquences (ligne 6).

Pour calculer les fréquences cumulées, il suffit de 2 lignes en plus. L'une trie les valeurs, et l'autre calcule la somme cumulée des fréquences :

tab = tab.sort_values("quart_mois") # tri des valeurs de la variable X (croissant)
tab["F"] = tab["f"].cumsum() # cumsum calcule la somme cumulée

Exemple de certificat de réussite
Exemple de certificat de réussite