• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Analysez les résultats

Comment interpréter les paramètres ?

Si l'on considère un événement avec une probabilité p=1N de réussite, cela signifie qu'en moyenne, sur N individus, on a 1 réussite contre N1 échecs. On parle alors d'une cote de N1 chances contre 1.

La cote (l'odds en anglais) pour un individu i d'obtenir la réponse Y=1 est définie par :

odds(i)=p(xi)1p(xi)

Le rapport de cotes, l'odds ratio, entre 2 individus i et i, est défini par :

OR(i,i)=odds(i)odds(i)=p(xi)1p(xi)p(xi)1p(xi)

En toute généralité, on peut interpréter les odds ratios comme suit, pour 2 individus i et i :

OR(i,i)<1p(xi)<(xi) 
OR(i,i)=1p(xi)=p(xi)
OR(i,i)>p(xi)>(xi)

Si les probabilités sont telles que p(xi)1 et p(xi)1 (cas d'un événement rare), on a :

OR(i,i)p(xi)p(xi)

Par exemple, si OR(i,i)=k, , l'événement a une probabilité k fois plus importante de se produire pour xi que pour xi .

Dans le cas de la régression logistique :

logit(p(x1,,xp))=β1x1++βpxp

on peut montrer que :

OR(i,i)=pj=1exp(βj(xjixji))

Toutes choses égales par ailleurs, une variation d'une unité sur la j -ième variable correspond à un odds ratio égal à exp(βj) . L'exponentielle du coefficient peut être vue comme un odds ratio.

Choisissez le modèle adéquat

On peut comparer des modèles entre eux, ou procéder à une sélection automatique de modèle (à l'aide des algorithmes backward, forward et stepwise) en se basant sur des critères tels que l'AIC (critère d'Akaike) ou le BIC (critère de Schwarz) vus dans les chapitres précédents.

Comment prévoir "Y" ?

On considère la règle de décision suivante pour prévoir Y ( ˆYprev désigne la prévision) :

ˆYprev={1  siˆp(x1,,xp)>s0  siˆp(x1,,xp)s

s[0,1] est un seuil fixé par l'utilisateur. Classiquement, on considère s=12 : si la probabilité prédite est (strictement) supérieure à 12 , on prévoit 1, sinon 0.

On peut évaluer la qualité d'un modèle par validation croisée, et étudier un certain nombre de critères, parmi lesquels la sensibilité et la spécificité, calculées à partir de la matrice de confusion.

Dans le cas d'un classificateur binaire, la matrice de confusion est définie comme suit :

 

 

Prévision

 

 

1 (Positif)

0 (Négatif)

Vérité

1 (Positif)

Vrai positif (VP)

Faux négatif (FN)

0 (Négatif)

Faux positif (FP)

Vrai négatif (VF) 

La sensibilité, le taux de positifs classés positifs, vaut:

VPVP+FN

La spécificité, le taux de négatifs classés négatifs, vaut : 

VNFP+VN

Appréhendez la courbe ROC

La courbe ROC (Receiver Operating Characteristic) représente la sensibilité en fonction de la spécificité pour différents seuils de décision s . L'aire sous la courbe ROC , l' AUC (Area Under the ROC ), est une mesure de la qualité de la classification qui varie entre :

  •  AUC=12 : dans le pire des cas ;

  •  AUC=1 : dans le meilleur des cas.

Et voilà, vous avez procédé à l'analyse des résultats. Voyons tout cela en pratique dans le prochain chapitre. Vous allez prédire le risque de contracter une maladie chez des patients.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite