Dans cette partie, nous allons effectuer des analyses univariées. Une analyse univariée est une analyse effectuée sur une variable à la fois. Voici quelques exemples d'analyse univariée :
Faire une étude sur répartition d'âge de la population chinoise en 2010. Nous pourrions pour cela représenter cette dernière comme vu lors des chapitres précédents, ou encore calculer la moyenne d'âge de cette population.
OpenClassrooms souhaite évaluer les performances des étudiants au quiz de la fin de la partie 1 de ce cours, on pourrait commencer par calculer le taux de réussite global.
Vous cherchez à évaluer l'évolution de l'érosion des sols de la région des Hauts-de France. On pourrait pour cela regarder l'indice d'érosion des sols.
Quel est le point commun entre la moyenne d'âge de la population chinoise en 2010, le taux de réussite au quiz de fin de la partie 1 de ce cours, et l'indice d'érosion des sols de la région des Hauts-de-France ? o_O
Réponse : ce sont tous des statistiques !
Découvrez ce qu'est une statistique
Formellement, une statistique, c'est un indicateur numérique calculé à partir d'un échantillon. La moyenne d'âge est calculée à partir des habitants d'un pays, le taux de réussite à un quiz est calculé à partir des réponses données par les étudiants, et l'indice d'érosion des sols est calculé à partir de relevés effectués sur des parcelles de terrain.
Autrement dit, dès que l'on calcule un nombre à partir d'un échantillon, on calcule une statistique !
Une statistique est utile car elle nous permet de résumer un grand échantillon en un seul nombre ! Certes, vous vous doutez bien qu'il y a une grande perte d'information quand on calcule une statistique : on peut calculer le taux de réussite à partir des réponses des étudiants, mais on ne peut pas retrouver les réponses des étudiants uniquement avec le taux de réussite !
Ainsi, une statistique est un indicateur, plus ou moins efficace, d'une certaine propriété d'un échantillon.
On trouve également le terme d'indice statistique. Un indice statistique, c'est une statistique construite à partir d'une certaine vision, à partir de connaissances d'un domaine (par ex. : l'économie). En quelque sorte, un indice est une statistique "entourée" d'une certaine philosophie. À la différence d'un indice, un indicateur est quant à lui très neutre, comme une moyenne, par exemple.
Appréhendez l'importance des indicateurs et indices statistiques
Si on calcule autant d'indicateurs et d'indices, c'est parce qu'ils sont censés nous guider (comme leur nom l'indique !). Ils nous aident à prendre des décisions. Les indicateurs et indices économiques, écologiques, sociologiques, etc., aident par exemple à prendre des décisions politiques.
Certains indicateurs et indices résultent d'un calcul très simple, comme le chiffre d'affaires d'une entreprise (il suffit d'additionner toutes ses recettes).
D'autres au contraire résultent d'un calcul plus complexe, comme ceux qui conjuguent plusieurs caractéristiques d'une population. C'est le cas de l'indice de développement humain (IDH), calculé à partir du PIB par habitant, l'espérance de vie à la naissance et le niveau d'éducation. On trouve également l'indicateur de capacité relationnelle, qui mesure la qualité des relations entre les personnes et le niveau de leur autonomisation relationnelle.
Dans le domaine de l'environnement, on trouve les indices de "biocapacité" et d'empreinte écologique de l'homme, eux-même calculés à partir de données concernant les forêts, les terrains construits, les champs cultivés, etc.
Que nous disent les indicateurs ?
Sur une même population, on peut bien sûr calculer plusieurs indicateurs. Chacun d'entre eux nous donnera une indication sur une caractéristique différente de la population. Par exemple, la moyenne d'une classe à un examen nous indiquera si l'examen a été bien réussi ou pas. Mais sur cette même population, l'écart-type des notes (nous verrons cette notion prochainement) nous indiquera s'il y a de grandes disparités de notes parmi les étudiants.
En résumé
Une analyse univariée est une analyse effectuée sur une variable à la fois.
Une statistique est un indicateur numérique calculé à partir d'un échantillon, permettant de résumer plus ou moins fidèlement un grand échantillon en un seul nombre.
Il existe deux termes pour catégoriser les statistiques, qui reviennent beaucoup dans le lexique courant :
Un indice statistique, c'est une statistique construite à partir d'une certaine vision, à partir de connaissances d'un domaine.
Un indicateur qui est une statistique plus neutre, construite sans à-priori et sans intention derrière.
La base du métier de data analyst est l'analyse des nombreux indices et indicateurs relatifs à son domaine.
Maintenant c'est parti pour faire des analyses univariées ! Suivez-moi au prochain chapitre. :)