L'objectif de la régression logistique est de modéliser, de classifier, une variable binaire prenant ses valeurs dans en fonction de variables explicatives quantitatives (et potentiellement qualitatives). La régression logistique est une méthode de classification (supervisée) qui permet de traiter des cas comme :
la prévision de présence/absence d'une maladie ;
la prévision de l'état de fonctionnement d'une machine-outil en fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins de maintenance prédictive ;
le credit scoring (attribution ou non d'un crédit).
Retour au jeu de données des maladies cardio-vasculaires
L'objectif de notre cas d'étude n°2 est de prévoir la présence/absence d'une maladie cardio-vasculaire en fonction de constantes de santé chez un individu.
Si l'on cherche à expliquer cette maladie en fonction de l'âge, on peut tout d'abord représenter le nuage de points :
Il est évident qu'une régression linéaire n'est pas adéquate ici, on obtiendrait des valeurs en dehors de . L'objectif ici est de modéliser la probabilité d'être malade en fonction de l'âge. La visualisation de la fréquence empirique permet de comprendre le choix de courbes en S pour modéliser cette proportion.
On considère ici que :
La variable sachant , qui prend comme valeurs 1 ou 0, suit une loi de Bernoulli de paramètre dépendant de :
La probabilité s'écrit sous la forme :
Il s'agit bien d'un modèle logistique !
Voici donc un premier aperçu du modèle logistique, et d'un problème qu'il permet de traiter. Voyons plus en détail comment estimer le modèle.