Réalisez une ANOVA à un facteur
On se place dans le cas plus général où la variable qualitative a niveaux ( pour la variété de blé, dans le cas d'étude). On considère que l'on dispose de observations pour la modalité de la variable.
On parle d'un plan d'expérience :
complet si ;
équilibré si .
Dans le cas d'étude, le plan est équilibré (donc forcément complet).
Le modèle s'écrit :
pour et .
sont des paramètres inconnus, et les sont des v.a.r. indépendantes de loi , où est inconnue.
On considère par la suite les notations suivantes :
Pour aller plus loin : l'estimation du modèle
Afin de résoudre le problème, il faut poser une contrainte supplémentaire (les variables explicatives sont strictement colinéaires), par exemple :
(on peut choisir une autre cellule que la première)
Les estimateurs de sont alors :
L'estimateur de est dans tous les cas :
Réalisez le test d'influence d'une variable qualitative
Ce n'est pas l'estimation de ces paramètres inconnus qui nous intéresse ici, mais bien notre capacité à tester une hypothèse du type la variété de blé n'a pas d'effet, ce qui se traduit statistiquement par :
On rejette d'autant plus facilement cette hypothèse que les moyennes sont différentes les unes des autres. La statistique de test utilisée à cet effet est :
où :
La terminologie employée ici est :
Variation interclasse : en français SCE (Somme des Carrés Expliqués), en anglais SSM (Sum of Squares of the Model).
Variation intraclasse : en français SCR (Somme des Carrés Résiduels), en anglais SSE (Sum of Squares of the Error).
Variation totale : en français SCT (Somme des Carrés Totaux), en anglais SST (Total Sum of Squares).
Degrés de liberté : en français ddl, en anglais df (degrees of freedom).
Carrés moyens : en français CM, en anglais MS (Mean Squares).
On peut montrer également que la somme des carrés totaux, définie par :
vérifie :
On présente classiquement les résultats sous forme de tableau d'analyse de la variance :
Source | ddl |
|
| F | -valeur |
E |
|
|
|
| influence du facteur |
R |
|
|
| ||
T |
|
|
On rejette au niveau de test si où est le quantile d'ordre de la loi de Fisher à degré de liberté.
On peut également lire le résultat de ce test via la p-valeur. On rappelle que l'on rejette au niveau de test si .
En pratique, rejeter revient à déclarer que la variable qualitative a un effet significatif sur notre phénomène ( ).
Voilà pour l'ANOVA à un facteur. Passons maintenant à l'ANOVA à... deux facteurs ! C'est parti.
Réalisez une ANOVA à deux facteurs
On souhaite désormais étudier l'influence de deux facteurs qualitatifs et , avec respectivement et modalités, sur une variable quantitative.
On suppose ici que l'on dispose d'un plan d'expériences équilibré (avec observations pour chaque croisement des facteurs).
Le modèle considéré est le suivant :
pour , et
, les , les et les sont des paramètres inconnus, et les sont des v.a.r. indépendantes de loi , où est inconnu.
On considère les quantités suivantes (moyennes : globales, par modalité sur et sur ) :
Les différents tests d'influence
Les tests effectués sont les suivants :
Ils permettent respectivement de tester l'influence du facteur , du facteur et de l'interaction des facteurs et .
On considère les quantités suivantes :
On présente classiquement les résultats sous forme de tableau :
Source | ddl |
| -valeur | ||
|
|
|
| influence de | |
|
|
|
|
| influence de |
|
|
|
|
| influence de |
|
|
|
| ||
|
|
|
|
|
On teste tout d'abord l'impact de l'interaction des 2 variables qualitatives sur .
Voilà comment l'analyse de la variance se déroule en principe. Maintenant, ouvrez votre logiciel de code préféré, nous allons réaliser une analyse de la variance pour comprendre ce qui influence les rendements de blé.