Réalisez des modélisations de données performantes

12 heures
Difficile

Licence

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Testez le modèle linéaire gaussien simple

À ce stade, la régression linéaire a livré toutes ses possibilités.

Nous avons estimé $$$\beta_1$$$ , $$$\beta_2$$$ et $$$ \sigma^2$$$ , et nous sommes également en mesure de calculer le coefficient de détermination.

Mais nous ne pouvons pas tester les paramètres ni établir d'intervalles de confiance sur ces paramètres.

Pour pouvoir le faire, nous allons donc ajouter une hypothèse de loi : l'hypothèse gaussienne, c'est-à-dire que nous considérons que $$$\epsilon$$$ suit une loi normale $$$\mathcal{N}(0,\sigma^2)\ .$$$

Si nous reprenons le modèle de la régression linéaire simple entre le pic d'ozone et la température à midi, nous allons pouvoir tester si la température à midi est significative pour expliquer le pic d'ozone.

Avec cette hypothèse, on parle de modèle linéaire gaussien simple.

Dans le modèle linéaire gaussien simple, on considère, en sus des hypothèses formulées dans le cadre du modèle linéaire simple :

$$\[\varepsilon\sim\mathcal{N}\left(0,\sigma^2\right)\\]$$

Dans ce cadre, $$$\left(\varepsilon_i\right)_{i\in\{1,\ldots,n\}}$$$ est un échantillon i.i.d de loi $$$\mathcal{N}\left(0,\sigma^2\right)$$$ .

Testez la significativité de $$$\beta_1$$$ et $$$\beta_2$$$

Pour $$$j\in\{1,2\}$$$ , on teste :

$$\[\begin{cases}H_{0} :\beta_j=0\\H_{1} :\beta_j\neq 0\end{cases}\]$$

On utilise comme statistique de test :

$$\[T_j=\frac{\widehat{\beta}_j}{\widehat{\sigma}_{\widehat{\beta}_j}}\]$$

où :

$$\[\sigma^2_{\widehat{\beta}_1}=\frac{\sigma^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}\ ,\\ \sigma^2_{\widehat{\beta}_2}=\frac{\sigma^2}{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}\\]$$

Plus cette quantité est grande, plus on est enclin à rejeter l'hypothèse de nullité du paramètre.

On peut montrer que, sous $$$H_0$$$ , $$$T_j$$$ admet comme loi la loi de Student à $$$n-2$$$ degrés de liberté.

$$\[T_j\sim\mathcal{T}\left(n-2\right)\\]$$

On décide du rejet de $$$H_0$$$ au niveau de test $$$\alpha$$$ si

$$\[\left|t_j\right|>t_{n-2,1-\frac{\alpha}{2}}\]$$

où $$$t_{n-2,1-\frac{\alpha}{2}}$$$ désigne le quantile d'ordre $$$1-\frac{\alpha}{2}$$$ de la loi $$$\mathcal{T}(n-2)$$$ .

En pratique, dire que l'on rejette cette hypothèse $$$H_0$$$ pour $$$\beta_2$$$ revient à conserver la variable $$$X $$$ comme explicative.

Obtenez des intervalles de confiance pour $$$\beta_1$$$ et $$$\beta_2$$$

Pour $$$ j\in\left\{1,2\right\}$$$ , le paramètre $$$\beta_j $$$ admet comme intervalle de confiance de niveau $$$1-\alpha$$$ :

$$\[\left[\widehat{\beta}_j- t_{n-2,1-\frac{\alpha}{2}}\ \widehat{\sigma}_{\widehat{\beta}_j}\, ; \,\widehat{\beta}_j + t_{n-2,1-\frac{\alpha}{2}}\ \widehat{\sigma}_{\widehat{\beta}_j}\right]\]$$

Il est également possible d'établir une région de confiance simultanée des deux paramètres $$$\beta_1$$$ et $$$\beta_2$$$ (via une loi de Fisher), ainsi qu'un intervalle de confiance pour $$$\sigma^2$$$ (via une loi du khi-deux).

Et voilà pour le test de notre modèle. Maintenant, passons à la pratique. Nous allons appliquer une régression linéaire simple sur le jeu de données de l'ozone.

Réalisez des modélisations de données performantes

Testez le modèle linéaire gaussien simple

Testez la significativité de $$\(\beta_1\)$$ et $$\(\beta_2\)$$

Obtenez des intervalles de confiance pour $$\(\beta_1\)$$ et $$\(\beta_2\)$$

Testez le modèle linéaire gaussien simple

Testez la significativité de $\(\beta_1\)$ et $\(\beta_2\)$

Obtenez des intervalles de confiance pour $\(\beta_1\)$ et $\(\beta_2\)$

Testez la significativité de $$\(\beta_1\)$$ et $$\(\beta_2\)$$

Obtenez des intervalles de confiance pour $$\(\beta_1\)$$ et $$\(\beta_2\)$$