• 10 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 09/10/2024

Présentez une variable sous forme de tableau

Il n'y a pas que les histogrammes dans la vie !

Il est aussi possible de présenter des variables sous forme de tableau. C'est un peu moins beau certes, mais dans certains cas, cette représentation est mieux adaptée ou complémentaire d'une représentation graphique. Nous allons étudier ici les 4 cas correspondant aux 4 types de variables.

Donnons des noms à ce que nous étudions

Pour que nous puissions communiquer vous et moi, nous devons parler un langage commun. Nous allons donc nommer les différents objets que nous manipulerons dans ce chapitre.

Nous travaillerons ici avec l'échantillon des relevés bancaires, composés d'opérations. Notons n le nombre d'opérations bancaires ; c'est la taille de notre échantillon.

Ensuite, la variable que nous étudierons s’appellera X .

 X n'a rien de très concret : c'est juste une variable. Par exemple, montant est une variable.

Dans notre jeu de données, on a plusieurs valeurs pour la variable montant : 1.43, 80, 2.20, etc. Ici, c'est beaucoup plus concret, on a de vraies valeurs sous les yeux. Le nombre de valeurs présentes dans notre échantillon est de n . Ainsi, on peut noter ces valeurs (x1,...,xn) .

Cas des variables qualitatives et quantitatives discrètes

Si X est qualitative (ou même quantitative discrète), cela signifie qu'elle peut prendre plusieurs modalités. Par exemple, categ peut prendre les modalités "COURSES", "LOYER", "TRANSPORTS", etc. Ces modalités, nous les appellerons {a1,...,ak} , où k est le nombre de modalités.

Cas des variables quantitatives continues

Pour présenter les variables quantitatives continues, nous agrégerons les valeurs de la variable X en classes, qui seront au nombre de k . Ces classes seront notées ainsi : {[a1,a2[,...,[ak,ak+1[}

Représentez les variables sous forme de tableau

Pour les variables qualitatives

Pour les variables qualitatives, il suffit juste de compter le nombre de valeurs pour chaque modalité. Ce nombre est appelé effectif de la modalité.

Ainsi, pour une modalité ai (où i est compris entre 1 et k  , bien entendu !), on appelle l'effectif ni. Si on additionne les effectifs de toutes les modalités, on retombe sur n : la taille de l'échantillon.

Si on divise l'effectif par n, on obtient alors la fréquence, qui est un nombre compris entre 0 et 1. Vous l'aurez deviné, si on additionne les fréquences des toutes les modalités, on obtient 1 !

Voici donc comment on présente usuellement une variable qualitative : formellement, et avec l'exemple de la variable categ :

À gauche, une représentation formelle d'une variable qualitative. À droite, une représentation de la variable qualitative categ.
À droite, la représentation de la variable qualitative categ

Pour les variables quantitatives

Variables discrètes

Pour les variables quantitatives discrètes, on peut reprendre le tableau précédent, et y ajouter une colonne qui donne la fréquence cumulée. La fréquence cumulée d'une modalité ai , c'est juste la somme des fréquences de toutes les modalités inférieures ou égales à ai . On la note F . Voici l'exemple de la variable quart_mois :

À gauche, la représentation de la fréquence cumulée. À droite, la fréquence cumulée de quart_mois.
À droite, la fréquence cumulée de quart_mois

Voici le code qui a généré le tableau récapitulatif de la variable quart_mois.

effectifs = data["quart_mois"].value_counts()
modalites = effectifs.index # l'index de effectifs contient les modalités

tab = pd.DataFrame(modalites, columns = ["quart_mois"]) # création du tableau à partir des modalités
tab["n"] = effectifs.values
tab["f"] = tab["n"] / len(data) # len(data) renvoie la taille de l'échantillon

Pour calculer les effectifs, on fait appel à  value_counts()  sur la variable à étudier. Cette méthode renvoie un objet Series dont les valeurs sont les effectifs, et dont l'index contient les modalités (lignes 1 et 2).

À partir des modalités, on crée le tableau  tab  (ligne 4), auquel on ajoute la colonne des effectifs (ligne 5) puis la colonne des fréquences (ligne 6).

Pour calculer les fréquences cumulées, il suffit de 2 lignes en plus. L'une trie les valeurs, et l'autre calcule la somme cumulée des fréquences :

tab = tab.sort_values("quart_mois") # tri des valeurs de la variable X (croissant)
tab["F"] = tab["f"].cumsum() # cumsum calcule la somme cumulée
Variables continues

Pour les variables continues, il suffit de remplacer les {a1,...,ak} par les classes, comme nous l'avons dit plus haut. Voilà ce que ça donne, avec la variable montant :

À gauche, une représentation d'une variable continue. À droite, la représentation de la variable montant.
À droite, la représentation de la variable montant

En résumé

  • La représentation sous forme de tableau est une bonne alternative à une représentation graphique. 

  • Pour une variable qualitative, nous pouvons reprendre la distribution empirique représentant pour chaque modalité, l'effectif et la fréquence.

  • Pour une variable quantitative discrète, la représentation est très similaire à celle d'une qualitative, en y ajoutant la fréquence cumulée.

  • Dans le cas d'une quantitative continue, on regroupera au préalable les différentes valeurs en classe (discrétisation), ce qui nous renvoie directement dans la représentation d'une quantitative discrète.

 Nous avons maintenant de belles représentation de nos variables. Dans le prochain chapitre, découvrons les enjeux de l'analyse univariée – vous êtes prêt ?

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite