• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 14/02/2020

Estimez un modèle de régression logistique

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

De manière générale, la régression logistique de Y{0,1} sur p variables explicatives X1,Xp }, consiste à considérer que :

  1. La loi de Y sachant X1=x1,,Xp=xp est une loi de Bernoulli de paramètre p(x1,,xp) dépendant de x1,,xp :

    Y/X1=x1,,Xp=xp=B(p(x1,,xp))
  2. La probabilité p(x1,,xp) s'écrit sous la forme :

p(x1,,xp)=P(Y=1/X1=x1,,Xp=xp)=exp(β1x1++βpxp)1+exp(β1x1++βpxp)

À noter que si l'on souhaite que le modèle contienne une constante, on considère que X1=1 , comme dans le cas d'étude.

Avec la fonction logit, la fonction définie sur [0,1] et à valeurs dans R :

logit(x)=ln(x1x) 

on peut montrer que

logit(p(x1,,xp))=β1x1++βpxp

On est ici dans le cadre plus global des modèles linéaires généralisés (GLM) qui contient :

  • La régression linéaire : la loi de Y sachant X1=x1,,Xp=xp est une loi normale.

  • La régression log-linéaire : la loi de Y sachant X1=x1,,Xp=xp est une loi de Poisson ( Y est une variable de comptage, d'incidents, par exemple).

  • La régression logistique : la loi de Y sachant X1=x1,,Xp=xp est une loi de Bernoulli. 

Y{0,1} , on peut considérer d'autres fonctions g telles que :

g(p(x1,,xp))=β1x1++βpxp

notamment :

  •  g(p)=p1p : régression logistique.

  •  g(p)=Φ1(p) , où Φ est la fonction de répartition de la loi N(0,1) : régression probit.

  •  g(p)=ln(ln(1p)) : régression log-log.

Et en image :

ddd

Cas des variables explicatives qualitatives

Dans le cas où l'on dispose (au moins) d'une variable explicative qualitative avec I modalités, on considère alors un modèle avec I indicatrices (valant 1 si l'événement est vrai, 0 sinon). Dans le cas d'une variable explicative qualitative avec I modalités :

logit(p(x))=β11X=1++βI1X=I

Le modèle est indéterminé si l'on considère en sus la constante dans le modèle, on doit alors poser une contrainte, par exemple :

  •  β1=0  

  •  Ii=1βi=1

Comment estimer en régression logistique ?

Dans la régression logistique, on ne peut pas estimer les paramètres par MCO, on procède par maximum de vraisemblance.

L'estimateur du maximum de vraisemblance, s'il existe, annule le gradient de la vraisemblance (et celui de la log-vraisemblance).

Ce système non linéaire en β=(β1,,βp) n'admet pas de solution explicite, il faut donc utiliser des algorithmes d'optimisation itératifs pour le déterminer : on utilise notamment l'algorithme IRLS (Iterative Reweighted Least Square).

Validation du modèle

En sus du test de significativité d'un paramètre (test de Student), on peut tester la nullité globale des paramètres (ou d'un sous-ensemble des paramètres) via :

  • le test de Wald ;

  • le test du score ;

  • le test du rapport de vraisemblance ou de la déviance.

Le test considéré ici est :

{H0:β1==βq=0H1:il existe j{1,,q} tel que βj0

On ne perd aucunement en généralité, on remarque qu'il est possible de réordonner les variables explicatives, et donc de tester n'importe quelle combinaison de q variables.

On peut montrer que les statistiques de test considérées convergent toutes vers la loi χ2(q) sous H0 . On rejettera donc l'hypothèse H0 au niveau de test α si les statistiques calculées sur l'échantillon sont supérieures au quantile d'ordre 1α de la loi χ2(q) : χ2q,1α .

Comme pour le modèle de régression linéaire, il est temps à présent d'analyser les résultats au chapitre suivant.

Exemple de certificat de réussite
Exemple de certificat de réussite