• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 29/01/2024

Comprenez la classification supervisée

Le chapitre précédent développe la prévision d'une variable cible quantitative $\(Y\)$ appliquée, par exemple, à la prévision de la concentration en ozone. En revanche, le problème de reconnaissance de l'activité humaine vise à la prévision d'une classe d'activité ou encore de la classe d'une variable $\(Y\)$ , cette fois qualitative. Il s'agit d'un problème de classification supervisée ou reconnaissance de forme.

Historiquement, les deux méthodes partageant l'objectif de discrimination, ou de prévision, d'une variable quantitative Y, et apparues en premier sont :

L'analyse discriminante développée par Fisher propose la prévision d'une classe parmi les $\(m\)$ modalités de $\(Y\)$, alors qu'en principe la régression logistique est adaptée à une variable $\(Y\)$ à deux classes ou binaire : succès ou échec, présence d'une maladie, défaut de paiement, occurrence d'un événement... Néanmoins, cette même méthode, à condition que la taille de l'échantillon le permette, est largement utilisée pour de la discrimination en $\(m>2\)$ classes en construisant $\(m\)$ modèles d'une classe contre les autres.

Pour la prévision de la classe d'un nouvel individu ou d'une nouvelle instance, les $\(m\)$ modèles fournissent $\(m\)$ probabilités d'occurrence de chaque classe, et c'est la classe de probabilité maximale qui l'emporte. Cette stratégie est prise par défaut dans la librairie   $\(\tt scikit-learn\)$ lors de l'utilisation de la régression logistique avec $\(m>2\)$ .

Après ces méthodes historiques, bien d'autres modèles ou algorithmes ont été proposés avec le même objectif de prévision d'une classe ou modalité d'une variable qualitative binaire ou à $\(m\)$ classes : $\(k\)$ plus proches voisins, arbre binaire de décision, réseau de neurones (perceptron), machine à vecteur support (SVM) ainsi que les algorithmes  d'agrégation d'arbres : boosting, random forest... Se reporter aux tutoriels du dépôt $\(\tt github.com/wikistat\)$ pour les expérimenter.

Classification binaire par régression logistique

Nous avons vu précédemment comment ajuster une variable $\(Y\)$ quantitative, à valeurs dans $\(\mathbb{R}\)$, par une combinaison linéaire des $\(p\)$ variables explicatives $\(X^j\)$ . Ce que la régression logistique vise à modéliser est la probabilité d'occurrence (succès, maladie...) d'une classe de $\(Y\)$ qui est à valeur dans l'intervalle $\([0, 1]\)$ .

Plus précisément, le choix d'une fonction lien permet de faire correspondre les deux domaines de variation $\([0,1]\)$ et $\(\mathbb{R}\)$ afin de relier une probabilité avec un prédicteur linéaire classique $\(\boldsymbol{Xb}\)$ . Si $\(\pi_i\)$ désigne la probabilité de la classe 1 de $\(Y\)$ ou $\(P(y_i=1|\boldsymbol{x}_i)\)$ , la fonction lien dite canonique couramment utilisée est la fonction logistique et le modèle s'écrit :

$\(\quad \text{logit}(\pi_i)=\log\frac{\pi_i}{1-\pi_i}=b_0+b_1x^1_i+\cdots+b_p x^p_i\quad\text{ou}\quad\hat{\pi}_i=\frac{\exp{\boldsymbol{x}'_i\boldsymbol{b}}}{1+\exp{\boldsymbol{x}'_i\boldsymbol{b}}}\)$

L'estimation des paramètres $\(b_j\)$ de ce modèle est obtenue par l'exécution d'un algorithme de maximisation (e.g. Newton Raphson) de la log-vraisemblance du modèle.

La prévision d'une probabilité $\(\hat{\pi}_0\)$ de $\(\boldsymbol{x}_0\)$ est fournie par :

$\(\quad \hat{\pi}_0=\frac{\exp{\boldsymbol{x}'_0\boldsymbol{b}}}{1+\exp{\boldsymbol{x}'_0\boldsymbol{b}}}.\)$

La prévision de la classe de $\(\boldsymbol{x}_0\)$ est obtenue en comparant cette probabilité avec une valeur seuil ou cut-off, par défaut $\(0,5\)$ ; $\(\hat{y}_i=1\)$ si $\(\hat{\pi}_0 > \frac{1}{2}\)$ et $\(\hat{y}_i=0\)$ sinon.

Moyennant des hypothèses sur la loi de $\(Y\)$ (binomiale), la planification de l'expérience et la répartition de l'échantillon, des procédures de test et d'estimation par intervalle de confiance des prévisions sont accessibles. Consulter la bibliographie à ce sujet. Nous nous limitons ici au seul objectif de prévision.

Courbe ROC

Matrice de confusion

Une erreur quadratique moyenne (RMSE) est généralement utilisée pour évaluer une erreur de prévision ou risque en régression. Ce critère n'est pas adapté au cas de la classification supervisée. Il est souvent remplacé par un simple taux d'erreur calculé à partir de la matrice de confusion. Cette matrice est simplement une table de contingence ou tableau obtenu par le croisement des deux variables : classe observée vs classe prédite.

Dans le cas fréquent de la discrimination de deux classes, la plupart des méthodes (e.g. régression logistique) estiment, pour chaque individu $\(i\)$ , un score ou une probabilité $\(\widehat{\pi}_i\)$ que cet individu prenne la modalité $\(Y=1\)$ . Cette probabilité comprise entre 0 et 1 est comparée avec une valeur seuil $\(s\)$ fixée a priori, par défaut $\(0,5\)$ :

$\( \quad \text{Si} \quad \widehat{\pi}_i > s,\; \widehat{y}_i=1\quad\text{sinon}\quad\widehat{y}_i=0.\)$

Pour un échantillon de taille $\(n\)$ dont l'observation de $\(Y\)$ est connue ainsi que les scores $\(\widehat{\pi}_i\)$ fournis par un modèle, la matrice de confusion associée à cette valeur de seuil $\(s\)$ est :

Prévision

Observation

Observation

Total

 

  $\(Y=1\)$

$\( Y=0\)$

 

$\(\widehat{y}_i=1\)$

$\(n_{11}(s)\)$

$\(n_{10}(s)\)$

$\(n_{1+}(s)\)$

$\(\widehat{y}_i=0\)$

$\(n_{01}(s)\)$

$\(n_{00}(s)\)$

$\(n_{0+}(s)\)$

Total

$\(n_{+1}\)$

$\(n_{+0}\)$

$\(n\)$

Les quantités suivantes sont considérées :

  • vrais positifs : les $\(n_{11}(s)\)$ observations bien classées ( $\(\widehat{y}_i=1\)$ et $\(Y=1\)$ ) ;

  • vrais négatifs : les $\(n_{00}(s)\)$ observations bien classées ( $\(\widehat{y}_i=0 \)$ et $\(Y=0\)$ ) ; 

  • faux négatifs : les $\(n_{01}(s)\)$ observations mal classées ( $\(\widehat{y}_i=0\)$ et $\(Y=1\)$ ) ;

  • faux positifs : les $\(n_{10}(s)\)$ observations mal classées ( $\(\widehat{y}_i=1\)$ et $\(Y=0\)$ ) ;

  • le taux d'erreur : $\(t(s)= \frac{n_{01}(s)+n_{10}(s)}{n}\)$  ;

  • le taux de vrais positifs ou sensibilité $\(=\frac{n_{11}(s)}{n_{+1}}\)$ ou taux de positifs pour les individus qui le sont effectivement ;

  • le taux de vrais négatifs ou spécificité $\(=\frac{n_{00}(s)}{n_{+0}}\)$ ou taux de négatifs pour les individus qui le sont effectivement ;

  • le taux de faux positifs $\(=1-\text{Spécificité}=1-\frac{n_{00}(s)}{n_{+0}}=\frac{n_{10}(s)}{n_{+0}}\)$ .

Courbe ROC et AUC

Les notions de spécificité et de sensibilité proviennent de la théorie du signal ; leurs valeurs dépendent directement de celle du seuil $\(s\)$ . En augmentant $\(s\)$ , la sensibilité diminue tandis que  la spécificité augmente, car la règle de décision devient plus exigeante. Un bon modèle associe grande sensibilité et grande spécificité pour la détection d'un signal. Ce lien est représenté graphiquement par la courbe ROC (Receiver Operating Caracteristic) de la sensibilité (probabilité de détecter un vrai signal) en fonction de un moins la spécificité (probabilité de détecter un signal à tort) pour chaque valeur $\(s\)$ du seuil.

On montre qu'une courbe ROC est croissante monotone. Plus une courbe de la figure ci-dessous se rapproche du carré, meilleure est la discrimination, correspondant à la fois à une forte sensibilité et une grande spécificité. L'aire sous la courbe : AUC (area under curve) mesure la qualité de discrimination du modèle, tandis qu'une analyse de la courbe aide au choix du seuil.

Comparaison de trois courbes ROC
Modélisation de la concentration de l'ozone : comparaison des courbes ROC de trois modèles

Ce graphique compare trois courbes ROC. Celle issue du modèle MOCAGE en vert avec celles issues de deux modèles de régression logistique, l'un linéaire, l'autre quadratique car faisant intervenir des interactions. Pour comparer des modèles ou méthodes de complexités différentes, ces courbes doivent être estimées sur un échantillon test. Elles sont bien évidemment optimistes sur l'échantillon d'apprentissage. De plus, l'AUC ne définit pas un ordre total entre modèles, car les courbes ROC peuvent se croiser.

Ces résultats montrent encore plus clairement l'intérêt de l'adaptation statistique de la prévision MOCAGE, mais aussi la difficulté de la décision qui découle de la courbe ROC. Le choix du seuil, et donc de la méthode à utiliser si les courbes se croisent, dépend d'un choix dans ce cas politique : quel est le taux de faux positifs acceptable d'un point de vue économique, ou le taux de vrais positifs à atteindre pour des raisons de santé publique ? Le problème majeur est de pouvoir quantifier les coûts afférents, par la définition d'une matrice dissymétrique de ces coûts de mauvais classement en vue d'optimiser le choix de $\(s\)$ .

Autre critère pour la discrimination à deux classes

Une autre difficulté concerne les cas où les classes sont déséquilibrées ; ainsi, les jours de dépassement du seuil critique de concentration en ozone sont relativement rares.

D'autres critères ont été proposés pour intégrer cette difficulté dont le Score de Pierce basé sur le taux de bonnes prévisions : $\(H=\frac{n_{11}(s)}{n_{+1}(s)}\)$ et le taux de fausses alertes : $\(F=\frac{n_{10}(s)}{n_{+0}}\)$ . Le score de Pierce est alors défini par PSS $\(=H-F\)$ et est compris entre $\(-1\)$ et $\(1\)$ . Il évalue la qualité de la prévision. Si ce score est supérieur à 0, le taux de bonnes prévisions est supérieur à celui des fausses alertes et plus il est proche de 1, meilleur est le modèle. 

Le score de Pierce a été conçu pour la prévision d'événements climatiques rares afin de pénaliser les modèles ne prévoyant jamais ces événements        ($\(H=0\)$) ou encore générant trop de fausses alertes ( $\(F=1\)$ ). Le modèle idéal prévoyant tous les événements critiques ( $\(H=1\)$ ) sans fausse alerte      ($\(F=0\)$). Une autre stratégie consiste à introduire des coûts de mauvais classement pour pondérer un score.

Exemple de certificat de réussite
Exemple de certificat de réussite