Dans ce cours, vous apprendrez comment nettoyer et décrire un jeu de données.
Mais avant de se lancer tête baissée, je vous propose un petit tour d'horizon du domaine des statistiques et des concepts clés qui nous accompagneront tout au long de ce cours.
Prêt ? Let's go !
Découvrez le lexique du vocabulaire dans la data
En statistiques, on étudie des trucs, des bidules et des choses.
Super. Merci pour l’info ! Mais encore ?
Je détaille ! Ces "choses", on les appelle des individus. Ces individus peuvent être des objets, des personnes, des animaux, des mesures physiques, etc. L’individu, c’est l’unité d’observation.
Des individus ont des caractéristiques : on les appelle des caractères, ou des variables.
L’ensemble des individus s’appelle la population. On note souvent sa taille , correspondant au nombre d’individus de la population. Il est très fréquent de ne pas connaître la taille exacte d'une population.
Lorsque l’on sélectionne certains individus d’une population, on obtient un échantillon. Sa taille est souvent notée .
On utilisera souvent le terme de jeu de données, (ou data set, en anglais). Cela correspond à l'ensemble des informations collectées sur les individus de notre échantillon.
Et... comment peut-on représenter un échantillon ?
On représente en général un échantillon sous forme de tableau, où chaque ligne correspond à un individu, et chaque colonne représente une variable. Cette représentation est à l’origine du format de fichier CSV (comma separated values). Ce format peut être ouvert avec les logiciels tableurs (Microsoft® Excel, OpenOffice Calc), et est facilement interprétable par les langages R et Python.
Faites un petit tour d’horizon des statistiques
Faites la différence entre statistiques et probabilités
Les statistiques et les probabilités, c’est la même chose, non ?
Eh bien… non ! Certes, ces deux domaines sont étroitement liés, mais ils sont distincts. Quand on ne fait qu’observer et décrire objectivement un phénomène passé, alors on fait des statistiques.
Mais dès lors que l'on modélise, qu'on essaie de comprendre les chances (ou le risque) qu'un événement se produise, on fait le lien entre ce qu'on observe et le domaine théorique que constituent les probabilités. On passe alors dans le domaine de la statistique dite inférentielle.
En statistiques, les données que l'on observe sont appelées observations, ou parfois réalisations. À partir de ces observations, on peut modéliser. Modéliser, c'est essayer de trouver les lois mathématiques qui régissent les données observées. Dans le domaine des probabilités, on manipule des variables aléatoires, des lois de probabilité, etc.
Si vous étudiez la proportion femmes/hommes d'un pays, vous sélectionnez un échantillon dans lequel vous observez ces proportions : par exemple 55 % de femmes et 45 % d'hommes. Ce sont des statistiques.
Mais si vous dites ensuite dans ce pays, un enfant qui naît a une probabilité de 55 % d’être une fille, alors vous faites des probabilités !
Appréhendez les différents domaines de la statistique
Les statistiques descriptives
C’est le sujet de ce cours ! Il s’agit de présenter, décrire et résumer le jeu de données, à l’aide de graphiques et de mesures (moyenne, écart-type, etc.). En statistique descriptive, chaque graphique (ou chaque mesure) est calculé(e) sur 1 ou 2 variables à la fois, pas plus. Pourquoi pas plus ? Parce que représenter les relations entre 2 variables sur un graphique est assez simple sur du papier ou sur un écran, car ceux-ci sont en 2 dimensions (longueur-largeur).
L'analyse multidimensionnelle
L’analyse multidimensionnelle (appelée également analyse exploratoire de données) est le prolongement des statistiques descriptives, sauf que là, on étudie plutôt les relations entre 3 variables ou plus. Représenter des graphiques avec 3, 4, 5 ou 100 dimensions n’est plus possible sur du papier à 2 dimensions. Il faut donc utiliser des techniques spéciales pour continuer à décrire et explorer les données.
Les statistiques inférentielles
Ici, il s’agit d’analyser les données d’un sous-ensemble d’une population pour en déduire les caractéristiques globales de la population. Si vous entendez un jour parler d'estimateurs ou de tests statistiques, il s'agira de statistiques inférentielles.
La modélisation statistique
Il s’agit d’observer les caractéristiques d’un échantillon, puis de formaliser ces observations par des règles mathématiques. Cette formalisation s’appelle un modèle probabiliste. Une fois que l'on a décrit un phénomène par un modèle, on peut faire de la prédiction ou de la prévision.
Découvrez les différents métiers de la Data : Data Analyst vs Data Scientist
Mais quelle est la différence entre un Data Scientist et un Data Analyst ?
La frontière entre ces deux métiers est parfois assez floue, mais on peut dire que le Data Analyst pratique en plus du nettoyage des données les statistiques descriptives, exploratoires et inférentielles. Le Data Scientist doit maîtriser l'ensemble de ces domaines, et doit également être capable de modéliser des phénomènes. Il a à sa disposition une batterie d'algorithmes qui permettent de trouver la modélisation la plus performante pour le problème qu'il doit traiter. Pour plus de précisions, vous pouvez faire un tour sur le cours Initiez-vous au machine learning.
En résumé
En statistiques, un jeux de données correspond à un échantillon d'une population globale étudiée.
Un jeu de données est organisé sous forme de tableau où les lignes sont des individus et les colonnes des variables.
Le domaine de la statistique est concentré sur l'explication et la description objective d'un phénomène passé.
Le domaine de la probabilité est plus intéressé au futur potentiel d'un évènement à venir.
Il existe quatre grands domaines de la statistique :
Les statistiques descriptives.
L'analyse multidimensionnelle.
Les statistiques inférentielles.
La modélisation statistique.
Dans le prochain chapitre, nous découvrirons les différents types de variables utilisés en statistiques. Vous me suivez ?