• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 23/07/2019

Appréhendez le fonctionnement de la régression logistique

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

L'objectif de la régression logistique est de modéliser, de classifier, une variable binaire prenant ses valeurs dans $\(\left\{0,1\right\}\)$ en fonction de variables explicatives quantitatives (et potentiellement qualitatives). La régression logistique est une méthode de classification (supervisée) qui permet de traiter des cas comme :

  • la prévision de présence/absence d'une maladie ;

  • la prévision de l'état de fonctionnement d'une machine-outil en fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins de maintenance prédictive ;

  • le credit scoring (attribution ou non d'un crédit).

Retour au jeu de données des maladies cardio-vasculaires

L'objectif de notre cas d'étude n°2 est de prévoir la présence/absence d'une maladie cardio-vasculaire en fonction de constantes de santé chez un individu.

Si l'on cherche à expliquer cette maladie en fonction de l'âge, on peut tout d'abord représenter le nuage de points :

Nuage de point. Chd = Maladie cardio-vasculaire.
Nuage de points. Chd = personne atteinte d'une maladie coronarienne ou non.

Il est évident qu'une régression linéaire n'est pas adéquate ici, on obtiendrait des valeurs en dehors de $\(\left\{0,1\right\}\)$ . L'objectif ici est de modéliser la probabilité d'être malade en fonction de l'âge. La visualisation de la fréquence empirique permet de comprendre le choix de courbes en S pour modéliser cette proportion.

Figure 4.2: Maladie cardio-vasculaire . Proportion de malades en fonction de l'âge
Proportion de malades en fonction de l'âge
Figure 4.3 : Exemples de courbes en S
Exemples de courbes en S

On considère ici que :

  1. La variable $\(chd\)$ sachant $\(age=x\)$ , qui prend comme valeurs 1 ou 0, suit une loi de Bernoulli de paramètre $\(p(x)\)$ dépendant de $\(x\)$ :
    $\(Y\left/X=x\right.\sim\mathcal{B}\left(p(x)\right)\)$
     

  2. La probabilité $\(p(x)\)$ s'écrit sous la forme :

$\[p(x)=\mathbb{P}\left(Y=1\left/X=x\right.\right)=\frac{\exp\left(\beta_1+\beta_2\, x\right)}{1+\exp\left(\beta_1+\beta_2\, x\right)}\]$

Il s'agit bien d'un modèle logistique !

Voici donc un premier aperçu du modèle logistique, et d'un problème qu'il permet de traiter. Voyons plus en détail comment estimer le modèle.

Exemple de certificat de réussite
Exemple de certificat de réussite