L'objectif de la régression logistique est de modéliser, de classifier, une variable binaire prenant ses valeurs dans {0,1} en fonction de variables explicatives quantitatives (et potentiellement qualitatives). La régression logistique est une méthode de classification (supervisée) qui permet de traiter des cas comme :
la prévision de présence/absence d'une maladie ;
la prévision de l'état de fonctionnement d'une machine-outil en fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins de maintenance prédictive ;
le credit scoring (attribution ou non d'un crédit).
Retour au jeu de données des maladies cardio-vasculaires
L'objectif de notre cas d'étude n°2 est de prévoir la présence/absence d'une maladie cardio-vasculaire en fonction de constantes de santé chez un individu.
Si l'on cherche à expliquer cette maladie en fonction de l'âge, on peut tout d'abord représenter le nuage de points :
Il est évident qu'une régression linéaire n'est pas adéquate ici, on obtiendrait des valeurs en dehors de {0,1} . L'objectif ici est de modéliser la probabilité d'être malade en fonction de l'âge. La visualisation de la fréquence empirique permet de comprendre le choix de courbes en S pour modéliser cette proportion.
On considère ici que :
La variable chd sachant age=x , qui prend comme valeurs 1 ou 0, suit une loi de Bernoulli de paramètre p(x) dépendant de x :
Y/X=x∼B(p(x))
La probabilité p(x) s'écrit sous la forme :
Il s'agit bien d'un modèle logistique !
Voici donc un premier aperçu du modèle logistique, et d'un problème qu'il permet de traiter. Voyons plus en détail comment estimer le modèle.