Réalisez des modélisations de données performantes

12 heures
Difficile

Licence

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Analysez les résultats

Après avoir estimé un modèle de régression linéaire, il faut ensuite analyser :

La significativité des paramètres : un modèle correct doit avoir des paramètres significatifs.
L'atypicité et l'influence éventuelle de certaines données : on pourra retirer les données atypiques et influentes.
Les éventuels problèmes de colinéarité.
Les éventuels problèmes d'hétéroscédasticité (quand la variance des résidus ne peut pas être considérée comme constante).

Dans le cas où plusieurs régresseurs sont disponibles, il faut choisir le meilleur modèle en utilisant un critère de choix et un algorithme de recherche.

Analysez l'atypicité des observations

Sur les variables explicatives :
Les termes diagonaux de $$$H$$$ sont appelés "leviers des observations" : $$$h_{ii}=\mathbb{X}_{i}^{^{\top}}\left( \mathbb{X}^{\top}\mathbb{X}\right)^{-1}\mathbb{X}_{i}$$$
où $$$\mathbb{X}_{i}=\left( x_{i1},\ldots,x_{ip}\right) ^{\top}$$$
Belsey a proposé de considérer l'observation $$$i$$$ comme atypique si :
$$\[h_{ii}>2\frac{p}{n}\]$$
Sur la variable à expliquer :
À partir des résidus
$$\[e_{i}=y_{i}-\widehat{y_{i}}\]$$
On considère les résidus studentisés pour évaluer si une observation est atypique. Une forte valeur de ces résidus caractérisera une observation atypique.
Pour $$$i\in\left\{ 1,\ldots,n\right\}$$$ , on définit les résidus studentisés internes par :

$$\[r_{i}=\frac{e_{i}}{\sqrt{\widehat{\operatorname{Var}}\left( e_{i}\right) }}=\frac{y_{i}-\widehat{y_{i}}}{\widehat{\sigma}\sqrt{1-h_{ii}}}\]$$
$$$r_{i}$$$ suit approximativement une loi de Student $$$\mathcal{T}\left(n-p-1\right)$$$ . En pratique, on utilise cette approximation lorsque $$$n-p-1>30$$$ .
Au niveau de test $$$\alpha$$$ , on considère qu'une observation $$$i$$$ est $$$atypique$$$ si :
$$\[\left\vert{r_i}\right\vert>t_{n-p-1,1-\frac{\alpha}{2}}\]$$
On peut également procéder par validation croisée, en considérant les résidus studentisés dits externes : on calcule alors une erreur de prévision et plus d'ajustement ; on base les calculs sur $$$n-1 $$$ observations pour prévoir la n-ième observation.

En pratique, on ne retire que les observations atypiques ET influentes. Le graphique suivant illustre les cas de figure de données atypiques (influentes ou non) dans le cadre de la régression linéaire simple.

Figure 3.1 : Influence de données atypiques — Influence de données atypiques

Analysez l'influence des observations

La mesure de l'influence d'une observation s'effectue à l'aide de la distance de Cook qui mesure un écart entre $$$\widehat{\boldsymbol{\beta}}$$$ et $$$\widehat{\boldsymbol{\beta}}^{\,(-i)}$$$ (calculs effectués sans la $$$i$$$ -ème observation).

La distance de Cook pour l'observation $$$i $$$ vaut :

$$\[D_{i}=\frac{1}{p}\frac{\left( \widehat{\boldsymbol{\beta}}-\widehat{\boldsymbol{\beta}}^{\,(-i)}\right)^{\top}\mathbb{X}^{\top}\mathbb{X}\left( \widehat{\boldsymbol{\beta}}-\widehat{\boldsymbol{\beta}}^{\,(-i)}\right) }{\widehat{\sigma}^{2}}\]$$

Cook a proposé de considérer l'observation $$$i $$$ comme influente si :

$$\[D_{i}>\frac{4}{n-p}\]$$

Détectez les problèmes de colinéarité

Parlons maintenant du problème de colinéarité.

L'estimateur des MCO existe si toutes les variables sont non colinéaires entre elles, c'est-à-dire seulement si l'on peut trouver une variable qui peut s'exprimer comme une combinaison linéaire des autres (par exemple $$$Ne_{12} = 0.3 \ max03v + 1.1\ Ne_9$$$ ). Dans ce cas, il n'existe pas de solution unique au problème.

Heureusement, la colinéarité est facile à détecter.

Cependant, il n'en est pas de même pour une colinéarité "presque" exacte. Dans ce cas, il y a deux manières de procéder :

utiliser des indicateurs comme le VIF ou le TOL (la définition est donnée juste après) ;
utiliser dans le modèle des coefficients appelés "indices de conditionnement", puis analyser une décomposition de la variance.

Si les colonnes de $$$\mathbb{X} $$$ sont colinéaires, alors la matrice n'est pas de rang plein, ce qui conduit à une solution des MCO non unique.

La colinéarité exacte peut facilement s'éviter, contrairement à une colinéarité approchée.

Le facteur d'influence de la variance ou la tolérance

On effectue la régression de $$$X_{j}$$$ , pour $$$ j\in\left\{1,\ldots,p\right\}$$$ sur les $$$p $$$ autres variables (dont la constante), et l'on calcule le coefficient de détermination $$$\operatorname{R}_j^2$$$ .
Le facteur d'influence de la variance, noté VIF (Variance Inflation Factor), de la variable $$$ X_{j}$$$ , $$$ j\in\left\{ 1,\ldots,p\right\}$$$ , est défini par :

$$\[\operatorname{VIF}_{j}=\frac{1}{1-\operatorname{R}_j^2}\]$$

La tolérance, notée TOL, est définie comme l'inverse du facteur d'influence de la variance :

$$\[\operatorname{TOL}_{j}=\frac{1}{\operatorname{VIF}_{j}}\]$$

En pratique, une valeur $$$\operatorname{VIF}_{j}>10$$$ ( $$$\operatorname{TOL}_{j}<0.1$$$ ) indique un problème de colinéarité éventuel.

Analysez la structure des variables explicatives

On se place ici dans le cas d'une régression sans constante, ou dans le cas d'une régression avec constante pour laquelle on omet ce régresseur particulier.
On considère les $$$p $$$ valeurs propres $$$\left( \lambda_{1},\ldots,\lambda_{p}\right)$$$ de la matrice de corrélation des variables explicatives (à l'exception de la constante) ordonnées par ordre décroissant.
Les indices de conditionnement sont définis pour $$$j\in\left\{1,\ldots,p\right\}$$$ par :

$$\[\operatorname{CI}_{j}=\sqrt{\frac{\lambda_{1}}{\lambda_{j}}}\]$$

Des valeurs élevées des indices de conditionnement traduisent la présence de colinéarité.
En pratique, une valeur $$$ \operatorname{CI}_{j}>30$$$ indique un problème de colinéarité éventuel.
On cherche ensuite à déterminer les groupes de variables concernés. On calcule pour cela la proportion $$$\pi_{lk}$$$ de variance du coefficient $$$\widehat{\beta}_{k}$$$ due à la variable explicative $$$X_{\ell}$$$ .

Voici les différents indices de conditionnement :

Valeurs propres	$$$\operatorname{CI}$$$	$$$\operatorname{Var}\left( \widehat{\beta}_{1}\right)$$$	$$$\ldots$$$	$$$\operatorname{Var}\left( \widehat{\beta}_{k}\right)$$$	$$$\ldots$$$	$$$\operatorname{Var}\left( \widehat{\beta}_{p}\right)$$$
$$$\lambda_{1}$$$	1	$$$\pi_{11}$$$	$$$\ldots$$$	$$$\pi_{1k}$$$	$$$\ldots$$$	$$$\pi_{1p}$$$
$$$\vdots$$$	$$$\vdots$$$	$$$\vdots$$$		$$$\vdots$$$		$$$\vdots$$$
$$$\lambda_{j}$$$	$$$\sqrt{\frac{\lambda_{1}}{\lambda_{j}}}$$$	$$$\pi_{j1}$$$	$$$\ldots$$$	$$$\pi_{jk}$$$	$$$\ldots$$$	$$$\pi_{jp}$$$
$$$\vdots$$$	$$$\vdots$$$	$$$\vdots$$$		$$$\vdots$$$		$$$\vdots$$$
$$$\lambda_{p}$$$	$$$\sqrt{\frac{\lambda_{1}}{\lambda_{p}}}$$$	$$$\pi_{p1}$$$	$$$\ldots$$$	$$$\pi_{pk}$$$	$$$\ldots$$$	$$$\pi_{pp}$$$

En pratique, il faut étudier les variables explicatives $$$X_{j}$$$ avec un $$$\operatorname{CI}$$$ élevé.
Pour cette variable $$$X_j$$$ , s'il existe au moins deux variables explicatives $$$ X_{k} $$$ et $$$X_{k^{\prime}}$$$ telles que $$$\pi_{jk}$$$ et $$$\pi_{jk^{\prime}}$$$ soient élevés (supérieurs à 0.5, en pratique), alors un problème de colinéarité est suspecté entre ces variables.

Analysez l'homoscédasticité des résidus

On peut notamment étudier l'homoscédasticité des résidus, c'est-à-dire la constance de leur variance, en représentant graphiquement les résidus studentisés en fonction des valeurs ajustées. Un nuage avec une forme conique peut laisser présager un effet hétéroscédastique.

Vous avez analysé un certain nombre de vos résultats. Dans le prochain chapitre, vous verrez comment choisir le modèle qui répond le mieux à votre problématique.

Valeurs propres	$$\(\operatorname{CI}\)$$	$$\(\operatorname{Var}\left( \widehat{\beta}_{1}\right)\)$$	$$\(\ldots\)$$	$$\(\operatorname{Var}\left( \widehat{\beta}_{k}\right)\)$$	$$\(\ldots\)$$	$$\(\operatorname{Var}\left( \widehat{\beta}_{p}\right)\)$$
$$\(\lambda_{1}\)$$	1	$$\(\pi_{11}\)$$	$$\(\ldots\)$$	$$\(\pi_{1k}\)$$	$$\(\ldots\)$$	$$\(\pi_{1p}\)$$
$$\(\vdots\)$$	$$\(\vdots\)$$	$$\(\vdots\)$$		$$\(\vdots\)$$		$$\(\vdots\)$$
$$\(\lambda_{j}\)$$	$$\(\sqrt{\frac{\lambda_{1}}{\lambda_{j}}}\)$$	$$\(\pi_{j1}\)$$	$$\(\ldots\)$$	$$\(\pi_{jk}\)$$	$$\(\ldots\)$$	$$\(\pi_{jp}\)$$
$$\(\vdots\)$$	$$\(\vdots\)$$	$$\(\vdots\)$$		$$\(\vdots\)$$		$$\(\vdots\)$$
$$\(\lambda_{p}\)$$	$$\(\sqrt{\frac{\lambda_{1}}{\lambda_{p}}}\)$$	$$\(\pi_{p1}\)$$	$$\(\ldots\)$$	$$\(\pi_{pk}\)$$	$$\(\ldots\)$$	$$\(\pi_{pp}\)$$