À ce stade, la régression linéaire a livré toutes ses possibilités.
Nous avons estimé β1 , β2 et σ2 , et nous sommes également en mesure de calculer le coefficient de détermination.
Mais nous ne pouvons pas tester les paramètres ni établir d'intervalles de confiance sur ces paramètres.
Pour pouvoir le faire, nous allons donc ajouter une hypothèse de loi : l'hypothèse gaussienne, c'est-à-dire que nous considérons que ϵ suit une loi normale N(0,σ2) .
Si nous reprenons le modèle de la régression linéaire simple entre le pic d'ozone et la température à midi, nous allons pouvoir tester si la température à midi est significative pour expliquer le pic d'ozone.
Avec cette hypothèse, on parle de modèle linéaire gaussien simple.
Dans le modèle linéaire gaussien simple, on considère, en sus des hypothèses formulées dans le cadre du modèle linéaire simple :
Dans ce cadre, (εi)i∈{1,…,n} est un échantillon i.i.d de loi N(0,σ2) .
Testez la significativité de β1 et β2
Pour j∈{1,2} , on teste :
On utilise comme statistique de test :
où :
Plus cette quantité est grande, plus on est enclin à rejeter l'hypothèse de nullité du paramètre.
On peut montrer que, sous H0 , Tj admet comme loi la loi de Student à n−2 degrés de liberté.
On décide du rejet de H0 au niveau de test α si
où tn−2,1−α2 désigne le quantile d'ordre 1−α2 de la loi T(n−2) .
En pratique, dire que l'on rejette cette hypothèse H0 pour β2 revient à conserver la variable X comme explicative.
Obtenez des intervalles de confiance pour β1 et β2
Pour j∈{1,2} , le paramètre βj admet comme intervalle de confiance de niveau 1−α :
Il est également possible d'établir une région de confiance simultanée des deux paramètres β1 et β2 (via une loi de Fisher), ainsi qu'un intervalle de confiance pour σ2 (via une loi du khi-deux).
Et voilà pour le test de notre modèle. Maintenant, passons à la pratique. Nous allons appliquer une régression linéaire simple sur le jeu de données de l'ozone.