Comment interpréter les paramètres ?
Si l'on considère un événement avec une probabilité de réussite, cela signifie qu'en moyenne, sur individus, on a 1 réussite contre échecs. On parle alors d'une cote de chances contre 1.
La cote (l'odds en anglais) pour un individu d'obtenir la réponse est définie par :
Le rapport de cotes, l'odds ratio, entre 2 individus i et , est défini par :
En toute généralité, on peut interpréter les odds ratios comme suit, pour 2 individus et :
Si les probabilités sont telles que et (cas d'un événement rare), on a :
Par exemple, si , l'événement a une probabilité fois plus importante de se produire pour que pour .
Dans le cas de la régression logistique :
on peut montrer que :
Toutes choses égales par ailleurs, une variation d'une unité sur la -ième variable correspond à un odds ratio égal à . L'exponentielle du coefficient peut être vue comme un odds ratio.
Choisissez le modèle adéquat
On peut comparer des modèles entre eux, ou procéder à une sélection automatique de modèle (à l'aide des algorithmes backward, forward et stepwise) en se basant sur des critères tels que l'AIC (critère d'Akaike) ou le BIC (critère de Schwarz) vus dans les chapitres précédents.
Comment prévoir "Y" ?
On considère la règle de décision suivante pour prévoir ( désigne la prévision) :
où est un seuil fixé par l'utilisateur. Classiquement, on considère : si la probabilité prédite est (strictement) supérieure à , on prévoit 1, sinon 0.
On peut évaluer la qualité d'un modèle par validation croisée, et étudier un certain nombre de critères, parmi lesquels la sensibilité et la spécificité, calculées à partir de la matrice de confusion.
Dans le cas d'un classificateur binaire, la matrice de confusion est définie comme suit :
|
| Prévision | |
|
| 1 (Positif) | 0 (Négatif) |
Vérité | 1 (Positif) | Vrai positif (VP) | Faux négatif (FN) |
0 (Négatif) | Faux positif (FP) | Vrai négatif (VF) |
La sensibilité, le taux de positifs classés positifs, vaut:
La spécificité, le taux de négatifs classés négatifs, vaut :
Appréhendez la courbe ROC
La courbe (Receiver Operating Characteristic) représente la sensibilité en fonction de la spécificité pour différents seuils de décision . L'aire sous la courbe , l' (Area Under the ), est une mesure de la qualité de la classification qui varie entre :
: dans le pire des cas ;
: dans le meilleur des cas.
Et voilà, vous avez procédé à l'analyse des résultats. Voyons tout cela en pratique dans le prochain chapitre. Vous allez prédire le risque de contracter une maladie chez des patients.