• 10 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/03/2024

Découvrez les 4 types de variables

Maintenant que nous avons tous le même vocabulaire, observons les variables de notre jeu de données de relevés bancaires. Elles ne sont pas toutes de même type. Certaines sont des nombres (la variable "montant"), certaines sont des dates (la variable "date_operation"), certaines sont des mots (comme la catégorie d'opération : "loyer", "courses", etc.).

Il y a 2 types de variables, chacun d’eux est subdivisé en 2 groupes.

Appréhendez les variables quantitatives

Ce sont les variables qui prennent des valeurs numériques (des nombres, quoi !), à condition que ces valeurs expriment une quantité et aient un sens lorsque l’on y applique des opérations arithmétiques.

Par exemple, si vous additionnez tous les montants des dépenses de votre relevé bancaire, vous saurez combien vous aurez dépensé au total : ceci a un sens. C’est une quantité d’argent. Cependant, l’identifiant d’une opération, bien que numérique, n’est pas une variable quantitative. En effet, effectuer la somme des identifiants de vos opérations n’a aucun sens, l’identifiant ne représente pas une quantité. Je ne devrais pas vous le dire (car vous verrez ceci après), mais l’identifiant est une variable qualitative (mais chuuut, je ne vous ai rien dit !).

Si le nombre de valeurs possibles (et probables) d'une variable est très grand, alors on peut la considérer comme continue. Sinon, on la considère comme discrète.

Dans nos relevés de compte, le montant des opérations peut prendre beaucoup de valeurs. Si vous prenez le montant d'une opération au hasard, il a de grandes chances d'être compris entre 0 € et 1 000 €. Entre ces 2 valeurs, il y a 100 000 valeurs possibles : 0,00 €, 0,01 €, 0,02 €, etc.

Découvrez les variables qualitatives

Disons que ce sont toutes les variables qui ne sont pas quantitatives ;). Les valeurs qu’elles prennent sont appelées des catégories, ou modalités. Ces dernières sont exprimées sous forme littérale (par un mot, une phrase ou un code) ou par un codage numérique sur lequel les opérations arithmétiques n’ont aucun sens.

Une variable est ordinale si ses modalités peuvent être ordonnées. Imaginons qu'à partir de la variable "montant", nous ayons construit une variable "tranche_depense", qui peut prendre différentes valeurs en fonction du montant de la dépense :

  • petite dépense

  • dépense moyenne

  • grosse dépense.

Cette variable serait ordinale, car on peut dire qu’une dépense de la tranche "petite dépense" est plus petite qu’une "dépense moyenne", elle-même plus petite qu’une "grosse dépense". Dans un autre cadre, les mentions attribuées à un examen (moyenbientrès bien) sont aussi une variable ordinale.

L’identifiant d’une opération est nominal, car on ne peut pas dire que l’opération numéro 1 est "inférieure" à l’opération numéro 40 (on suppose ici que les identifiants ne sont pas forcément classés par date d’opération).

Il y a des variables qualitatives, qui sont soit nominales, soit ordinales. Il y a aussi les variables quantitatives, qui sont soit discrètes, soit continues.
Types de variables

Voilà, vous savez tout ! :D

Ah si… les variables dites dichotomiques. Ce sont des variables qualitatives qui ne prennent que 2 modalités (0/1, oui/non, true/false). On les appelle souvent variables binaires, ou booléennes (abrégé : "bool").

Allez plus loin : Les dates, quantitatives ou qualitatives ?

… et les dates ?

Dans un ordinateur, les dates sont stockées sous forme de nombre entier, appelé timestamp. Il comptabilise le nombre de secondes (ou parfois de millisecondes) écoulées depuis le 1er janvier 1970. Par exemple, la date du 23 septembre 2020 est codée par le timestamp 1600819200. Cependant, additionner des timestamps n'a pas vraiment de sens : une date sera donc considérée comme qualitative ordinale.

Si vous rencontrez la date 01/01/1970 dans des données, sachez qu’il s’agit certainement d’une absence d’information pour laquelle le timestamp 0 a été mis par défaut...

... et si vous rencontrez des timestamps comme sur cette image, sachez les convertir sur www.epochconverter.com !

www.commitstrip.com
www.commitstrip.com

En résumé

  • Les variables quantitatives représentent l'ensemble des variables numériques.

  • Une variable quantitative peut être continue si le nombre de valeurs possibles est potentiellement infini, discrète sinon.

  • Les variables qualitatives sont des variables caractérisant l'appartenance de l'individu à un groupe (ou une catégorie).

  • Les différentes valeurs possibles d'une variable qualitative sont appelées des modalités.

  • Une variable qualitative peut être ordinale lorsque les modalités peuvent être ordonnées selon une certaine hiérarchie ou importance, nominale sinon.

Dans la prochaine partie, nous rentrerons un peu plus dans le concret avec l'apprentissage du nettoyage d'un jeu de données. Mais avant cela, il faut vérifier vos acquis avec un quiz ! C'est parti !

Exemple de certificat de réussite
Exemple de certificat de réussite