• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

TP : Pratiquez l'analyse de la variance sur le jeu de données du blé

Vous allez mener une ANOVA sur notre cas d'étude, en regardant précisément :

  • une ANOVA à 1 facteur : la variété de blé ;

  • une ANOVA à 1 facteur : le pesticide utilisé ;

  • une ANOVA à 2 facteurs : la variété de blé ET le pesticide utilisé.

Dans tous les cas, nous cherchons à comprendre si les facteurs ont une influence sur le rendement de blé.

Importez les données

On charge la librairie ggplot2, qui permettra d'afficher les graphiques :

library(ggplot2)

Le fichier "ble.txt" contient les rendements de blé pour 80 parcelles en fonction de la variété de blé (V1, V2, V3 ou V4).

ble <- read.table("ble.txt",header=TRUE,sep=";",dec=".")
ble
Le jeu de données du blé
Le jeu de données du blé

Réalisez une ANOVA à 1 facteur

On veut étudier ici l'influence de la variété de blé sur le rendement.

On peut visualiser l'influence de la variété en affichant ces boîtes à moustaches :

ggplot(ble,aes(x=variete,y=rdt))+
  geom_boxplot()+
  ggtitle("Boites à moustaches")+
  xlab("Variété de blé")+
  ylab("Rendement")
Influence de la variété de blé sur le rendement
Influence de la variété de blé sur le rendement

Les 4 variétés semblent assez différentes, même si l'ordre de grandeur de ces écarts n'est pas très grand. La question sera de savoir si ces écarts sont significatifs ou pas.

Étudions maintenant l'influence de la présence ou non de pesticide sur le rendement :

ggplot(ble,aes(x=phyto,y=rdt))+
  geom_boxplot()+
  ggtitle("Boites à moustaches")+
  xlab("Traitement phytosanitaire")+
  ylab("Rendement")
Présence de pesticide sur le rendement
Présence de pesticide sur le rendement

Ici, les boîtes à moustaches ne sont pas très distinctes, même s'il y a un peu plus de variance dans le cas "SANS pesticide".

Lançons l'ANOVA pour tester l'influence de la variété de blé :

anova_variete <- lm(rdt~variete,data=ble)
summary(anova_variete)
Call:
lm(formula = rdt ~ variete, data = ble)

Residuals:
    Min     1Q  Median      3Q    Max 
-344.20 -69.30   -6.60   89.15 329.90 

Coefficients:
             Estimate   Std. Error   t value  Pr(>|t|) 
(Intercept)   5633.80        26.30   214.211   < 2e-16 ***
varieteV2      -49.70        37.19    -1.336   0.18546 
varieteV3     -169.20        37.19    -4.549     2e-05 ***
varieteV4      118.40        37.19     3.183   0.00211 ** 
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 117.6 on 76 degrees of freedom
Multiple R-squared: 0.4476, Adjusted R-squared: 0.4258 
F-statistic: 20.53 on 3 and 76 DF, p-value: 7.674e-10

On y voit les paramètres estimés (dans la colonne "Estimate"), mais ici, ce ne sont pas les paramètres qui nous intéressent le plus.

Réalisez un test de Fisher

Ce qui nous intéresse réellement, c'est le test de Fisher.
La p-valeur de ce test ( $\(7.67*10^-7\)$ ) est très petite et largement inférieure à 5 %. On rejette donc l'hypothèse H0 selon laquelle $\(\alpha 1 = \alpha 2 = \alpha 3 = \alpha 4 = 0\)$ .

Pour obtenir le tableau de l'analyse de la variance, on utilise la commande ANOVA :

anova(anova_variete)

Voici le résultat :

Analysis of Variance Table

Response: rdt
           Df   Sum Sq   Mean Sq  F value      Pr(>F) 
variete     3   851845    283948   20.525   7.674e-10 ***
Residuals  76  1051387     13834 
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Réalisons maintenant l'Analyse de la Variance sur le pesticide utilisé :

anova_phyto <- lm(rdt~phyto,data=ble)
summary(anova_phyto)
anova(anova_phyto)

On trouve ici une p-valeur de 0.8, ce qui est très au-dessus de 5 %.
On ne rejette donc pas l'hypothèse H0 selon laquelle $\( \alpha 1 = \alpha 2 = 0\)$ .

Réalisez une ANOVA à 2 facteurs

Jusqu'ici, nous avons étudié les 2 facteurs (variété et pesticide) séparément. Cependant, la variété et le pesticide peuvent avoir des interactions qui influent sur le rendement.

En effet, même si l'on a montré que, globalement, le pesticide n'a pas d'effet sur le rendement, il se peut que, pour une variété précise, il y ait quand même un effet du pesticide sur le rendement.
L'ANOVA à 2 facteurs va nous permettre d'étudier ces éventuelles interactions :

anova_variete_phyto <- lm(rdt~variete*phyto,data=ble)
summary(anova_variete_phyto)
anova(anova_variete_phyto)

Voici le résultat :

Analysis of Variance Table

Response: rdt
              Df  Sum Sq Mean Sq F value    Pr(>F)    
variete        3  851845  283948 19.5749 2.205e-09 ***
phyto          1    1008    1008  0.0695    0.7928    
variete:phyto  3    5968    1989  0.1371    0.9375    
Residuals     72 1044411   14506                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

On voit sur le tableau 3 lignes :

  • variete  : qui teste l'effet de la variété ;

  • phyto  : qui teste l'effet du pesticide ;

  • variete:phyto  : qui teste les interactions pesticide-variété.

La p-valeur des interactions (93,75 %) est très largement supérieure à 5 % ; on en déduit donc que les interactions n'ont pas d'impact sur le rendement.

Vous êtes arrivé à la fin de ce cours... Enfin, presque ! Il ne vous reste plus qu'un quiz pour le terminer.

Exemple de certificat de réussite
Exemple de certificat de réussite