• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appréhendez le fonctionnement de la régression logistique

L'objectif de la régression logistique est de modéliser, de classifier, une variable binaire prenant ses valeurs dans {0,1} en fonction de variables explicatives quantitatives (et potentiellement qualitatives). La régression logistique est une méthode de classification (supervisée) qui permet de traiter des cas comme :

  • la prévision de présence/absence d'une maladie ;

  • la prévision de l'état de fonctionnement d'une machine-outil en fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins de maintenance prédictive ;

  • le credit scoring (attribution ou non d'un crédit).

Retour au jeu de données des maladies cardio-vasculaires

L'objectif de notre cas d'étude n°2 est de prévoir la présence/absence d'une maladie cardio-vasculaire en fonction de constantes de santé chez un individu.

Si l'on cherche à expliquer cette maladie en fonction de l'âge, on peut tout d'abord représenter le nuage de points :

Nuage de point. Chd = Maladie cardio-vasculaire.
Nuage de points. Chd = personne atteinte d'une maladie coronarienne ou non.

Il est évident qu'une régression linéaire n'est pas adéquate ici, on obtiendrait des valeurs en dehors de {0,1} . L'objectif ici est de modéliser la probabilité d'être malade en fonction de l'âge. La visualisation de la fréquence empirique permet de comprendre le choix de courbes en S pour modéliser cette proportion.

Figure 4.2: Maladie cardio-vasculaire . Proportion de malades en fonction de l'âge
Proportion de malades en fonction de l'âge
Figure 4.3 : Exemples de courbes en S
Exemples de courbes en S

On considère ici que :

  1. La variable chd sachant age=x , qui prend comme valeurs 1 ou 0, suit une loi de Bernoulli de paramètre p(x) dépendant de x :
    Y/X=xB(p(x))
     

  2. La probabilité p(x) s'écrit sous la forme :

p(x)=P(Y=1/X=x)=exp(β1+β2x)1+exp(β1+β2x)

Il s'agit bien d'un modèle logistique !

Voici donc un premier aperçu du modèle logistique, et d'un problème qu'il permet de traiter. Voyons plus en détail comment estimer le modèle.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite