• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Estimez un modèle de régression logistique

De manière générale, la régression logistique de $\( Y\in\left\{0,1\right\}\)$ sur $\(p \)$ variables explicatives $\(X_1\ldots,X_p\)$ }, consiste à considérer que :

  1. La loi de $\(Y\)$ sachant $\(X_1=x_1,\ldots,X_p=x_p\)$ est une loi de Bernoulli de paramètre $\(p\left(x_1,\ldots,x_p\right)\)$ dépendant de $\(x_1,\ldots,x_p\)$ :

    $\[Y\left/X_1=x_1,\ldots,X_p=x_p\right.=\mathcal{B}\left(p\left(x_1,\ldots,x_p\right)\right)\]$

  2. La probabilité $\(p\left(x_1,\ldots,x_p\right)\)$ s'écrit sous la forme :

$\[p\left(x_1,\ldots,x_p\right)=\mathbb{P}\left(Y=1\left/X_1=x_1,\ldots,X_p=x_p\right.\right)=\frac{\exp\left(\beta_1\, x_1+\ldots+\beta_p\, x_p\right)}{1+\exp\left(\beta_1\, x_1+\ldots+\beta_p\, x_p\right)}\]$

À noter que si l'on souhaite que le modèle contienne une constante, on considère que $\(X_1=1\)$ , comme dans le cas d'étude.

Avec la fonction logit, la fonction définie sur $\([0,1] \)$ et à valeurs dans $\(\mathbb{R} \)$ :

$\[\operatorname{logit}(x)=\ln\left(\frac{x}{1-x}\right)\\]$

on peut montrer que

$\[\operatorname{logit}\left(p\left(x_1,\ldots,x_p\right)\right)=\beta_1\, x_1+\ldots+\beta_p\, x_p\]$

On est ici dans le cadre plus global des modèles linéaires généralisés (GLM) qui contient :

  • La régression linéaire : la loi de $\(Y \)$ sachant $\(X_1=x_1,\ldots,X_p=x_p\)$ est une loi normale.

  • La régression log-linéaire : la loi de $\(Y \)$ sachant $\(X_1=x_1,\ldots,X_p=x_p\)$ est une loi de Poisson ( $\(Y \)$ est une variable de comptage, d'incidents, par exemple).

  • La régression logistique : la loi de $\(Y \)$ sachant $\(X_1=x_1,\ldots,X_p=x_p\)$ est une loi de Bernoulli. 

$\(Y\in\left\{0,1\right\}\)$ , on peut considérer d'autres fonctions $\(g \)$ telles que :

$\[g\left(p\left(x_1,\ldots,x_p\right)\right)=\beta_1\, x_1+\ldots+\beta_p\, x_p\]$

notamment :

  •  $\(g(p)=\frac{p}{1-p}\)$ : régression logistique.

  •  $\(g(p)=\Phi^{-1}(p)\)$ , où $\(\Phi \)$ est la fonction de répartition de la loi $\(\mathcal{N}(0,1)\)$ : régression probit.

  •  $\(g(p)=\ln\left(-\ln\left(1-p\right)\right) \)$ : régression log-log.

Et en image :

ddd

Cas des variables explicatives qualitatives

Dans le cas où l'on dispose (au moins) d'une variable explicative qualitative avec $\(I \)$ modalités, on considère alors un modèle avec $\(I \)$ indicatrices (valant 1 si l'événement est vrai, 0 sinon). Dans le cas d'une variable explicative qualitative avec $\(I \)$ modalités :

$\[\operatorname{logit}\left(p\left(x\right)\right)=\beta_1\, \mathbb{1}_{X=1}+\ldots+\beta_I\, \mathbb{1}_{X=I}\]$

Le modèle est indéterminé si l'on considère en sus la constante dans le modèle, on doit alors poser une contrainte, par exemple :

  •  $\(\beta_1=0\\)$ 

  •  $\(\sum_{i=1}^I \beta_i=1\)$

Comment estimer en régression logistique ?

Dans la régression logistique, on ne peut pas estimer les paramètres par MCO, on procède par maximum de vraisemblance.

L'estimateur du maximum de vraisemblance, s'il existe, annule le gradient de la vraisemblance (et celui de la log-vraisemblance).

Ce système non linéaire en $\(\boldsymbol{\beta}=\left(\beta_1,\ldots,\beta_p\right)^\top\)$ n'admet pas de solution explicite, il faut donc utiliser des algorithmes d'optimisation itératifs pour le déterminer : on utilise notamment l'algorithme IRLS (Iterative Reweighted Least Square).

Validation du modèle

En sus du test de significativité d'un paramètre (test de Student), on peut tester la nullité globale des paramètres (ou d'un sous-ensemble des paramètres) via :

  • le test de Wald ;

  • le test du score ;

  • le test du rapport de vraisemblance ou de la déviance.

Le test considéré ici est :

$\[\begin{cases}H_{0} :\beta_1=\ldots=\beta_q=0\\H_{1} :\text{il existe } j\in\left\{1,\ldots,q\right\}\text{ tel que }\beta_j\ne 0\end{cases}\]$

On ne perd aucunement en généralité, on remarque qu'il est possible de réordonner les variables explicatives, et donc de tester n'importe quelle combinaison de $\(q \)$ variables.

On peut montrer que les statistiques de test considérées convergent toutes vers la loi $\(\chi^2(q)\)$ sous $\(H_0\)$ . On rejettera donc l'hypothèse $\(H_0\)$ au niveau de test $\(\alpha\)$ si les statistiques calculées sur l'échantillon sont supérieures au quantile d'ordre $\(1-\alpha \)$ de la loi $\(\chi^2(q) \)$ : $\(\chi_{q,1-\alpha}^2\)$ .

Comme pour le modèle de régression linéaire, il est temps à présent d'analyser les résultats au chapitre suivant.

Exemple de certificat de réussite
Exemple de certificat de réussite