Une modélisation statistique consiste à établir une relation entre variables, sous forme d'équation, que l'on estime sur un jeu de données observées. L'enjeu est d'utiliser cette relation, établie et vérifiée, sur des observations, à des fins de prévision : on se trouve ici dans le cadre de l'inférence.
Les différents types de modélisation
Voici les différents types de modélisation que vous retrouverez le plus souvent. Nous allons les étudier ensemble dans ce cours.
La régression linéaire, qui permet d'expliquer une variable quantitative à partir de variables explicatives quantitatives (éventuellement qualitatives en sus).
La classification supervisée, qui permet d'expliquer une variable qualitative à partir de variables explicatives quantitatives (éventuellement qualitatives en sus). Attention, il faut la distinguer de la classification non supervisée qu'est le clustering.
L'analyse de la variance, pour analyser l'influence d'une ou deux variables explicatives qualitatives sur une variable quantitative.
La régression
Le terme regression a été introduit par Francis Galton, chercheur britannique du XIXe siècle. Il décrivait dans un article scientifique le fait que la taille des enfants nés de parents inhabituellement grands ou petits se rapproche de la taille moyenne de la population.
La régression désigne désormais toute méthode statistique qui permet de mettre en relation une variable quantitative, que l'on cherche à expliquer et/ou prévoir, avec un ensemble de variables quantitatives (potentiellement) explicatives.
La classification (supervisée)
Lorsque la variable à expliquer, à prévoir, est qualitative, on parle alors de classification (supervisée). Si la régression logistique est bien le modèle de base, on trouve également les arbres de décision (et les forêts aléatoires), les SVM, etc.
Ces méthodes de classification permettent d'effectuer du scoring (pour l'attribution d'un prêt bancaire, par exemple) ou encore d'évaluer la probabilité qu'un individu statistique appartienne à une catégorie (qu'il guérisse ou non à la suite de la prise d'un médicament).
L'analyse de la variance
L'analyse de la variance (terme souvent abrégé par l'anglais ANOVA : ANalysis Of VAriance) est un modèle statistique utilisé pour comparer les moyennes d'échantillons selon les modalités d'une variable qualitative.
Vous avez eu un aperçu des trois modèles que vous allez étudier dans ce cours. À présent, voyons les trois jeux de données sur lesquels vous allez travailler.