• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

TP : Pratiquez l'analyse de la variance sur le jeu de données du blé

Vous allez mener une ANOVA sur notre cas d'étude, en regardant précisément :

  • une ANOVA à 1 facteur : la variété de blé ;

  • une ANOVA à 1 facteur : le pesticide utilisé ;

  • une ANOVA à 2 facteurs : la variété de blé ET le pesticide utilisé.

Dans tous les cas, nous cherchons à comprendre si les facteurs ont une influence sur le rendement de blé.

Importez les données

On charge la librairie ggplot2, qui permettra d'afficher les graphiques :

library(ggplot2)

Le fichier "ble.txt" contient les rendements de blé pour 80 parcelles en fonction de la variété de blé (V1, V2, V3 ou V4).

ble <- read.table("ble.txt",header=TRUE,sep=";",dec=".")
ble
Le jeu de données du blé
Le jeu de données du blé

Réalisez une ANOVA à 1 facteur

On veut étudier ici l'influence de la variété de blé sur le rendement.

On peut visualiser l'influence de la variété en affichant ces boîtes à moustaches :

ggplot(ble,aes(x=variete,y=rdt))+
geom_boxplot()+
ggtitle("Boites à moustaches")+
xlab("Variété de blé")+
ylab("Rendement")
Influence de la variété de blé sur le rendement
Influence de la variété de blé sur le rendement

Les 4 variétés semblent assez différentes, même si l'ordre de grandeur de ces écarts n'est pas très grand. La question sera de savoir si ces écarts sont significatifs ou pas.

Étudions maintenant l'influence de la présence ou non de pesticide sur le rendement :

ggplot(ble,aes(x=phyto,y=rdt))+
geom_boxplot()+
ggtitle("Boites à moustaches")+
xlab("Traitement phytosanitaire")+
ylab("Rendement")
Présence de pesticide sur le rendement
Présence de pesticide sur le rendement

Ici, les boîtes à moustaches ne sont pas très distinctes, même s'il y a un peu plus de variance dans le cas "SANS pesticide".

Lançons l'ANOVA pour tester l'influence de la variété de blé :

anova_variete <- lm(rdt~variete,data=ble)
summary(anova_variete)
Call:
lm(formula = rdt ~ variete, data = ble)

Residuals:
    Min     1Q  Median      3Q    Max 
-344.20 -69.30   -6.60   89.15 329.90 

Coefficients:
             Estimate   Std. Error   t value  Pr(>|t|) 
(Intercept)   5633.80        26.30   214.211   < 2e-16 ***
varieteV2      -49.70        37.19    -1.336   0.18546 
varieteV3     -169.20        37.19    -4.549     2e-05 ***
varieteV4      118.40        37.19     3.183   0.00211 ** 
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 117.6 on 76 degrees of freedom
Multiple R-squared: 0.4476, Adjusted R-squared: 0.4258 
F-statistic: 20.53 on 3 and 76 DF, p-value: 7.674e-10

On y voit les paramètres estimés (dans la colonne "Estimate"), mais ici, ce ne sont pas les paramètres qui nous intéressent le plus.

Réalisez un test de Fisher

Ce qui nous intéresse réellement, c'est le test de Fisher.
La p-valeur de ce test ( 7.67107 ) est très petite et largement inférieure à 5 %. On rejette donc l'hypothèse H0 selon laquelle α1=α2=α3=α4=0 .

Pour obtenir le tableau de l'analyse de la variance, on utilise la commande ANOVA :

anova(anova_variete)

Voici le résultat :

Analysis of Variance Table
Response: rdt
Df Sum Sq Mean Sq F value Pr(>F)
variete 3 851845 283948 20.525 7.674e-10 ***
Residuals 76 1051387 13834
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Réalisons maintenant l'Analyse de la Variance sur le pesticide utilisé :

anova_phyto <- lm(rdt~phyto,data=ble)
summary(anova_phyto)
anova(anova_phyto)

On trouve ici une p-valeur de 0.8, ce qui est très au-dessus de 5 %.
On ne rejette donc pas l'hypothèse H0 selon laquelle α1=α2=0 .

Réalisez une ANOVA à 2 facteurs

Jusqu'ici, nous avons étudié les 2 facteurs (variété et pesticide) séparément. Cependant, la variété et le pesticide peuvent avoir des interactions qui influent sur le rendement.

En effet, même si l'on a montré que, globalement, le pesticide n'a pas d'effet sur le rendement, il se peut que, pour une variété précise, il y ait quand même un effet du pesticide sur le rendement.
L'ANOVA à 2 facteurs va nous permettre d'étudier ces éventuelles interactions :

anova_variete_phyto <- lm(rdt~variete*phyto,data=ble)
summary(anova_variete_phyto)
anova(anova_variete_phyto)

Voici le résultat :

Analysis of Variance Table
Response: rdt
Df Sum Sq Mean Sq F value Pr(>F)
variete 3 851845 283948 19.5749 2.205e-09 ***
phyto 1 1008 1008 0.0695 0.7928
variete:phyto 3 5968 1989 0.1371 0.9375
Residuals 72 1044411 14506
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

On voit sur le tableau 3 lignes :

  • variete  : qui teste l'effet de la variété ;

  • phyto  : qui teste l'effet du pesticide ;

  • variete:phyto  : qui teste les interactions pesticide-variété.

La p-valeur des interactions (93,75 %) est très largement supérieure à 5 % ; on en déduit donc que les interactions n'ont pas d'impact sur le rendement.

Vous êtes arrivé à la fin de ce cours... Enfin, presque ! Il ne vous reste plus qu'un quiz pour le terminer.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite