• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Analysez les résultats

Comment interpréter les paramètres ?

Si l'on considère un événement avec une probabilité $\(p=\frac{1}{N}\)$ de réussite, cela signifie qu'en moyenne, sur $\(N\)$ individus, on a 1 réussite contre $\(N-1\)$ échecs. On parle alors d'une cote de $\(N-1\)$ chances contre 1.

La cote (l'odds en anglais) pour un individu $\( i \)$ d'obtenir la réponse $\(Y=1\)$ est définie par :

$\[\operatorname{odds}(i)=\frac{p\left(\mathbf{x}_i\right)}{1-p\left(\mathbf{x}_i\right)}\]$

Le rapport de cotes, l'odds ratio, entre 2 individus i et $\(i^\prime\)$, est défini par :

$\[\operatorname{OR}\left(i,i^\prime\right)=\frac{\operatorname{odds}\left(i\right)}{\operatorname{odds}\left(i^\prime\right)}=\frac{\frac{p\left(\mathbf{x}_i\right)}{1-p\left(\mathbf{x}_i\right)}}{\frac{p\left(\mathbf{x}_{i^\prime}\right)}{1-p\left(\mathbf{x}_{i^\prime}\right)}}\]$

En toute généralité, on peut interpréter les odds ratios comme suit, pour 2 individus $\(i\)$ et $\(i^\prime\)$ :

$\[\operatorname{OR}\left(i,i^\prime\right)<1\Leftrightarrow\quad p\left(\mathbf{x}_i\right)<\left(\mathbf{x}_{i^\prime}\right)\\]$

$\[\operatorname{OR}\left(i,i^\prime\right)=1\quad\Leftrightarrow\quad p\left(\mathbf{x}_i\right)=p\left(\mathbf{x}_{i^\prime}\right)\]$

$\[\operatorname{OR}\left(i,i^\prime\right)>\quad\Leftrightarrow\quad p\left(\mathbf{x}_i\right)>\left(\mathbf{x}_{i^\prime}\right)\]$

Si les probabilités sont telles que $\(p\left(\mathbf{x}_i\right)\ll 1\)$ et $\(p\left(\mathbf{x}_{i^\prime}\right)\ll 1\)$ (cas d'un événement rare), on a :

$\[\operatorname{OR}\left(i,i^\prime\right)\simeq\frac{p\left(\mathbf{x}_i\right)}{p\left(\mathbf{x}_{i^\prime}\right)}\]$

Par exemple, si $\( \operatorname{OR}\left(i,i^\prime\right)=k,\)$ , l'événement a une probabilité $\(k \)$ fois plus importante de se produire pour $\(\mathbf{x}_i\)$ que pour $\(\mathbf{x}_{i^\prime}\)$ .

Dans le cas de la régression logistique :

$\[\operatorname{logit}\left(p\left(x_1,\ldots,x_p\right)\right)=\beta_1\, x_1+\ldots+\beta_p\, x_p\]$

on peut montrer que :

$\[\operatorname{OR}\left(i,i^\prime\right)=\prod_{j=1}^p \exp\left(\beta_j\left(x_{ji}-x_{ji^\prime}\right)\right)\]$

Toutes choses égales par ailleurs, une variation d'une unité sur la $\(j\)$ -ième variable correspond à un odds ratio égal à $\(\exp\left(\beta_j\right)\)$ . L'exponentielle du coefficient peut être vue comme un odds ratio.

Choisissez le modèle adéquat

On peut comparer des modèles entre eux, ou procéder à une sélection automatique de modèle (à l'aide des algorithmes backward, forward et stepwise) en se basant sur des critères tels que l'AIC (critère d'Akaike) ou le BIC (critère de Schwarz) vus dans les chapitres précédents.

Comment prévoir "Y" ?

On considère la règle de décision suivante pour prévoir $\(Y\)$ ( $\(\widehat{Y}^{prev}\)$ désigne la prévision) :

$\[\widehat{Y}^{prev}=\begin{cases}1 \ \ \text{si}\quad\widehat{p}\left(x_1,\ldots,x_p\right)> s\\ 0 \ \ \text{si}\quad\widehat{p}\left(x_1,\ldots,x_p\right)\leq s\\\end{cases}\]$

$\(s\in[0,1]\)$ est un seuil fixé par l'utilisateur. Classiquement, on considère $\(s=\frac{1}{2}\)$ : si la probabilité prédite est (strictement) supérieure à $\(\frac{1}{2}\)$ , on prévoit 1, sinon 0.

On peut évaluer la qualité d'un modèle par validation croisée, et étudier un certain nombre de critères, parmi lesquels la sensibilité et la spécificité, calculées à partir de la matrice de confusion.

Dans le cas d'un classificateur binaire, la matrice de confusion est définie comme suit :

 

 

Prévision

 

 

1 (Positif)

0 (Négatif)

Vérité

1 (Positif)

Vrai positif (VP)

Faux négatif (FN)

0 (Négatif)

Faux positif (FP)

Vrai négatif (VF) 

La sensibilité, le taux de positifs classés positifs, vaut:

$\[\frac{\operatorname{VP}}{\operatorname{VP}+\operatorname{FN}}\]$

La spécificité, le taux de négatifs classés négatifs, vaut : 

$\[\frac{\operatorname{VN}}{\operatorname{FP}+\operatorname{VN}}\]$

Appréhendez la courbe ROC

La courbe $\(\operatorname{ROC} \)$ (Receiver Operating Characteristic) représente la sensibilité en fonction de la spécificité pour différents seuils de décision $\(s\)$ . L'aire sous la courbe $\(\operatorname{ROC}\)$ , l' $\(\operatorname{AUC} \)$ (Area Under the $\(\operatorname{ROC}\)$ ), est une mesure de la qualité de la classification qui varie entre :

  •  $\(\operatorname{AUC}=\frac{1}{2}\)$ : dans le pire des cas ;

  •  $\(\operatorname{AUC}=1\)$ : dans le meilleur des cas.

Et voilà, vous avez procédé à l'analyse des résultats. Voyons tout cela en pratique dans le prochain chapitre. Vous allez prédire le risque de contracter une maladie chez des patients.

Exemple de certificat de réussite
Exemple de certificat de réussite