De manière générale, la régression logistique de sur variables explicatives }, consiste à considérer que :
La loi de sachant est une loi de Bernoulli de paramètre dépendant de :
La probabilité s'écrit sous la forme :
À noter que si l'on souhaite que le modèle contienne une constante, on considère que , comme dans le cas d'étude.
Avec la fonction logit, la fonction définie sur et à valeurs dans :
on peut montrer que
On est ici dans le cadre plus global des modèles linéaires généralisés (GLM) qui contient :
La régression linéaire : la loi de sachant est une loi normale.
La régression log-linéaire : la loi de sachant est une loi de Poisson ( est une variable de comptage, d'incidents, par exemple).
La régression logistique : la loi de sachant est une loi de Bernoulli.
, on peut considérer d'autres fonctions telles que :
notamment :
: régression logistique.
, où est la fonction de répartition de la loi : régression probit.
: régression log-log.
Et en image :
Cas des variables explicatives qualitatives
Dans le cas où l'on dispose (au moins) d'une variable explicative qualitative avec modalités, on considère alors un modèle avec indicatrices (valant 1 si l'événement est vrai, 0 sinon). Dans le cas d'une variable explicative qualitative avec modalités :
Le modèle est indéterminé si l'on considère en sus la constante dans le modèle, on doit alors poser une contrainte, par exemple :
Comment estimer en régression logistique ?
Dans la régression logistique, on ne peut pas estimer les paramètres par MCO, on procède par maximum de vraisemblance.
L'estimateur du maximum de vraisemblance, s'il existe, annule le gradient de la vraisemblance (et celui de la log-vraisemblance).
Ce système non linéaire en n'admet pas de solution explicite, il faut donc utiliser des algorithmes d'optimisation itératifs pour le déterminer : on utilise notamment l'algorithme IRLS (Iterative Reweighted Least Square).
Validation du modèle
En sus du test de significativité d'un paramètre (test de Student), on peut tester la nullité globale des paramètres (ou d'un sous-ensemble des paramètres) via :
le test de Wald ;
le test du score ;
le test du rapport de vraisemblance ou de la déviance.
Le test considéré ici est :
On ne perd aucunement en généralité, on remarque qu'il est possible de réordonner les variables explicatives, et donc de tester n'importe quelle combinaison de variables.
On peut montrer que les statistiques de test considérées convergent toutes vers la loi sous . On rejettera donc l'hypothèse au niveau de test si les statistiques calculées sur l'échantillon sont supérieures au quantile d'ordre de la loi : .
Comme pour le modèle de régression linéaire, il est temps à présent d'analyser les résultats au chapitre suivant.