De manière générale, la régression logistique de Y∈{0,1} sur p variables explicatives X1…,Xp }, consiste à considérer que :
La loi de Y sachant X1=x1,…,Xp=xp est une loi de Bernoulli de paramètre p(x1,…,xp) dépendant de x1,…,xp :
Y/X1=x1,…,Xp=xp=B(p(x1,…,xp))La probabilité p(x1,…,xp) s'écrit sous la forme :
À noter que si l'on souhaite que le modèle contienne une constante, on considère que X1=1 , comme dans le cas d'étude.
Avec la fonction logit, la fonction définie sur [0,1] et à valeurs dans R :
on peut montrer que
On est ici dans le cadre plus global des modèles linéaires généralisés (GLM) qui contient :
La régression linéaire : la loi de Y sachant X1=x1,…,Xp=xp est une loi normale.
La régression log-linéaire : la loi de Y sachant X1=x1,…,Xp=xp est une loi de Poisson ( Y est une variable de comptage, d'incidents, par exemple).
La régression logistique : la loi de Y sachant X1=x1,…,Xp=xp est une loi de Bernoulli.
Y∈{0,1} , on peut considérer d'autres fonctions g telles que :
notamment :
g(p)=p1−p : régression logistique.
g(p)=Φ−1(p) , où Φ est la fonction de répartition de la loi N(0,1) : régression probit.
g(p)=ln(−ln(1−p)) : régression log-log.
Et en image :
Cas des variables explicatives qualitatives
Dans le cas où l'on dispose (au moins) d'une variable explicative qualitative avec I modalités, on considère alors un modèle avec I indicatrices (valant 1 si l'événement est vrai, 0 sinon). Dans le cas d'une variable explicative qualitative avec I modalités :
Le modèle est indéterminé si l'on considère en sus la constante dans le modèle, on doit alors poser une contrainte, par exemple :
β1=0
∑Ii=1βi=1
Comment estimer en régression logistique ?
Dans la régression logistique, on ne peut pas estimer les paramètres par MCO, on procède par maximum de vraisemblance.
L'estimateur du maximum de vraisemblance, s'il existe, annule le gradient de la vraisemblance (et celui de la log-vraisemblance).
Ce système non linéaire en β=(β1,…,βp)⊤ n'admet pas de solution explicite, il faut donc utiliser des algorithmes d'optimisation itératifs pour le déterminer : on utilise notamment l'algorithme IRLS (Iterative Reweighted Least Square).
Validation du modèle
En sus du test de significativité d'un paramètre (test de Student), on peut tester la nullité globale des paramètres (ou d'un sous-ensemble des paramètres) via :
le test de Wald ;
le test du score ;
le test du rapport de vraisemblance ou de la déviance.
Le test considéré ici est :
On ne perd aucunement en généralité, on remarque qu'il est possible de réordonner les variables explicatives, et donc de tester n'importe quelle combinaison de q variables.
On peut montrer que les statistiques de test considérées convergent toutes vers la loi χ2(q) sous H0 . On rejettera donc l'hypothèse H0 au niveau de test α si les statistiques calculées sur l'échantillon sont supérieures au quantile d'ordre 1−α de la loi χ2(q) : χ2q,1−α .
Comme pour le modèle de régression linéaire, il est temps à présent d'analyser les résultats au chapitre suivant.