Réalisez des modélisations de données performantes

12 heures
Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Sélectionnez automatiquement un modèle

Pour utiliser notre modèle à des fins de prévision, il vaut mieux qu'il soit le plus parcimonieux possible, c'est-à-dire qu'il n'intègre que les variables qui sont réellement utiles.

L'idée ici est d'utiliser un algorithme de recherche de modèle qui cherchera à optimiser un certain critère statistique.

Quels critères statistiques pouvez-vous utiliser ?

Concernant les critères statistiques, on considère généralement des critères tels que R². Cependant, on sait que ce n'est pas l'indicateur le plus sensé. On peut également utiliser une information de type AIC ou BIC et le $$$C_p$$$ de Mallows.

Ces derniers critères cherchent un compromis entre :

l'ajustement du modèle ;
la qualité de la prévision.

En effet, ces deux quantités ne varient pas dans le même sens : quand le nombre de paramètres augmente, meilleur est l'ajustement, mais moins bonne sera la prévision.

Déterminez les régresseurs adaptés

Supposez que l'on dispose de $$$K $$$ régresseurs potentiels et que vous cherchiez à déterminer les $$$k $$$ régresseurs les mieux adaptés.

Il est possible de considérer les critères de sélection suivants pour chacun des modèles testés :

le coefficient de détermination (ajusté ou pas) ;
la variance résiduelle ;
des critères basés sur l'information de Kullback (AIC ou BIC, par exemple) ;
la statistique de Mallows.

Étudiez en détail les critères de sélection

Ces critères sont un compromis entre l'ajustement du modèle (on privilégie une faible variance résiduelle) et la parcimonie de ce modèle (on privilégie alors un faible nombre de variables explicatives). On trouve parmi eux (pour un modèle $$$\mathcal{M}_k$$$ à $$$k$$$ variables explicatives) :

Le Critère d'Akaike (AIC : Akaike Information Criterium) :
$$\[\operatorname{AIC}\left( \mathcal{M}_k\right)=n\ln\left(\widehat{\sigma}_{\mathcal{M}_k}^{2}\right) +2k\]$$
Le Critère de Schwarz (BIC : Bayesian Information Criterium, également noté SBC pour Schwarz Bayesian Criterium) :
$$\[\operatorname{BIC}\left( \mathcal{M}_k\right)=n\ln\left( \widehat{\sigma}_{\mathcal{M}_k}^{2}\right) +k\,\ln\left( n\right)\]$$
La statistique de Mallows : $$$\operatorname{C_{p}}$$$ est défini par :

$$\[\operatorname{C_{p}}\left( \mathcal{M}_k\right)=\frac{\operatorname{SCR}\left( \mathcal{M}_k\right) }{\widehat{\sigma}^{2}}-n+2k\]$$

où $$$\widehat{\sigma}^{2} $$$ est la variance du modèle complet (avec tous les régresseurs) et $$$\operatorname{SCR}\left( \mathcal{M}_k\right)$$$ la somme des carrés des résidus du modèle $$$\mathcal{M}_k$$$ .

La statistique de Mallows est une mesure de l'erreur quadratique moyenne (qui englobe le biais et la variance) des prédictions produites par un sous-modèle. Si un sous-modèle à $$$k $$$ variables explicatives possède un pouvoir prédictif proche de celui du modèle complet, au sens de l'erreur quadratique moyenne, alors $$$\operatorname{C_{p}}\simeq k.$$$
En pratique, il est recommandé de choisir le modèle vérifiant $$$\operatorname{C_{p}}\leq k$$$ .

Découvrez les procédures itératives de choix

La procédure la plus complète, mais la plus fastidieuse également, consiste à sélectionner le modèle qui minimise un des critères précédents pour tous les modèles de régression potentiels à $$$k $$$ régresseurs, pour $$$k\in\left\{ 1,\ldots,K\right\}$$$ .

Sachez qu'il existe aussi des procédures alternatives :

Procédure ascendante ou forward
On initialise la procédure en intégrant seulement la constante, puis les régresseurs sont introduits un par un, le principe étant de retenir à chaque pas la variable qui contribue le plus à augmenter la somme des carrés expliqués.
Procédure descendante ou backward
On initialise la procédure en intégrant tous les régresseurs, puis on élimine à chaque pas le régresseur associé à la plus petite diminution de la somme des carrés expliqués (la constante est toujours conservée).
Procédure pas-à-pas ou stepwise
Cette méthode est une procédure de sélection de type forward, avec possibilité d'éliminer, éventuellement, des variables devenues non significatives (dans une étape backward).

Et voilà, vous savez comment sélectionner automatiquement le modèle le plus juste grâce à un algorithme. Allez, on passe à la pratique dans le prochain chapitre.