• 15 hours
  • Medium

Free online content available in this course.

Videos available in this course

Certificate of achievement available at the end this course

Got it!

Last updated on 5/21/19

Découvrez les statistiques : vocabulaire et tour d’horizon

Log in or subscribe for free to enjoy all this course has to offer!

Bon, l’heure est venue de savoir de quoi on parle ! Nous définirons dans ce chapitre les concepts clés du cours, et si vous souhaitez plonger dans le vaste monde de la Data Science, je vous propose un petit tour d’horizon du domaine des statistiques, c’est cadeau.

Le vocabulaire

En statistiques, on étudie des trucs, des bidules et des choses.

Super. Merci pour l’info ! Mais encore ?

Je détaille ! Ces « choses », on les appelle des individus. Ces individus peuvent être des objets, des personnes, des animaux, des mesures physiques, etc. L’individu, c’est l’unité d’observation.

Des individus ont des caractéristiques : on les appelle des caractères, ou des variables.

L’ensemble des individus s’appelle la population. On note souvent sa taille $\(N\)$, correspondant au nombre d’individus de la population. Il est très fréquent de ne pas connaître la taille exacte d'une population.

Lorsque l’on sélectionne certains individus d’une population, on obtient un échantillon. Sa taille est souvent notée $\(n\)$.

On utilisera souvent le terme de jeu de données, (ou data set en anglais). Ces termes n'ont pas de définition très précise, mais dans ce cours, ils seront équivalents à échantillon.

Comment représenter un échantillon ?

On représente en général un échantillon sous forme de tableau, où chaque ligne correspond à un individu, et chaque colonne représente une variable. Cette représentation est à l’origine du format de fichier CSV (comma separated values). Ce format peut être ouvert avec les logiciels tableurs (Microsoft® Excel, OpenOffice Calc), et est facilement interprétable par les langages R et Python.

Représentation d'un échantillon
Représentation d'un échantillon

Petit tour d’horizon des statistiques

Statistiques et probabilités

Les statistiques et les probabilités, c’est la même chose non ?

Eh bien… non ! Certes, ces deux domaines sont étroitement liés, mais ils sont distincts. Quand on ne fait qu’observer et décrire objectivement un phénomène, alors on fait des statistiques.

Mais dès lors que l'on modélise, on fait le lien entre ce qu'on observe et le domaine théorique que constituent les probabilités : on passe alors dans le domaine de la statistique dite inférentielle.

En statistiques, les données que l'on observe sont appelées observations, ou parfois réalisations. A partir de ces observations, on peut modéliser. Modéliser, c'est essayer de trouver les lois mathématiques qui régissent les données observées. Dans le domaine des probabilités, on manipule des variables aléatoires, des lois de probabilité, etc.

Si vous étudiez la proportion femmes/hommes d'un pays, vous sélectionnez un échantillon dans lequel vous observez ces proportions : par exemple 55% de femmes et 45% d'hommes. Ce sont des statistiques. Mais si vous dites ensuite dans ce pays, un enfant qui naît a une probabilité de 55% d’être une fille, alors vous faites des probabilités !

Les différents domaines de la statistique

Les statistiques descriptives

C’est le sujet ce cours ! Il s’agit de présenter, décrire et résumer le jeu de données, à l’aide de graphiques et de mesures (moyenne, écart-type, etc.). En statistique descriptive, chaque graphique (ou chaque mesure) est calculé(e) sur 1 ou 2 variables à la fois, pas plus. Pourquoi pas plus ? Parce que représenter les relations entre 2 variables sur un graphique est assez simple sur du papier ou sur un écran, car ceux-ci sont en 2 dimensions (longueur-largeur).

Graphique en 2 dimensions avec 1 axe horizontal et 1 axe vertical (source: wikipedia)
Graphique en 2 dimensions avec 1 axe horizontal et 1 axe vertical (source: Wikipedia)

L'analyse de données

L’analyse exploratoire de données est le prolongement des statistiques descriptives, sauf que là, on étudie plutôt les relations entre 3 variables ou plus. Représenter des graphiques avec 3, 4, 5 ou 100 dimensions n’est plus possible sur du papier à 2 dimensions. Il faut donc utiliser des techniques spéciales pour continuer à décrire et explorer les données.

Les statistiques inférentielles

Ici, il s’agit d’analyser les données d’un sous-ensemble d’une population pour en déduire les caractéristiques globale de la population. Si vous entendez un jour parler d'estimateurs ou de tests statistiques, il s'agira de statistiques inférentielles. 

La modélisation statistique

Il s’agit d’observer les caractéristiques d’un échantillon, puis de formaliser ces observations par des règles mathématiques. Cette formalisation s’appelle un modèle probabiliste. Une fois que l'on a décrit un phénomène par un modèle, on peut faire de la prédiction ou de la prévision.

Aller plus loin : Plus de cours !

Sur OpenClassrooms, vous retrouverez des cours relatifs aux domaines vus ci-dessus, dans le parcours Data Analyst.

Aller plus loin : Data Analyst vs Data Scientist

Mais quelle est la différence entre un Data Scientist et un Data Analyst ?

La frontière entre ces deux métiers est assez floue, mais on peut dire que le Data Analyst pratique les statistiques descriptives, exploratoires et inférentielles. Le Data Scientist doit maîtriser ces 3 domaines, et doit également être capable de modéliser des phénomènes. Il a à sa disposition une batterie d'algorithmes qui permettent de trouver la modélisation la plus performante pour le problème qu'il doit traiter. Pour plus de précisions, vous pouvez faire un tour ici.

Example of certificate of achievement
Example of certificate of achievement