Tester la moyenne (théorique) d'un échantillon
Le coin méthodologique
Supposons que nous ayons à disposition un échantillon i.i.d de loi N(μ,σ2), ou un grand échantillon i.i.d quelconque (en pratique de taille supérieure à 30).
On considère les tests suivants (c'est le test 3 qui est considéré dans le second exemple introductif) :
{H0:μ=μ0H1:μ>μ0
{H0:μ=μ0H1:μ<μ0
{H0:μ=μ0H1:μ≠μ0
On pourrait utiliser ¯X−μ0 (ou ¯X) comme statistique de test, malheureusement sa loi dépend du paramètre σ inconnu, c'est pourquoi on utilise :
On a sous H0 :
Les régions critiques au niveau α sont :
W={T>tn−1,1−α}.
W={T<−tn−1,1−α} .
W={|T|>tn−1,1−α2}.
On constate bien ici que la forme de la région critique est donnée par l'hypothèse alternative H1.
Les p-valeurs sont :
P(T(n−1)≥√n¯x−μ0s).
P(T(n−1)≤√n¯x−μ0s).
P(|T(n−1)|≥√n¯x−μ0s)=2P(T(n−1)≥√n¯x−μ0s).
Le coin R : exemple de la consommation d'essence
On teste :
avec μ0=31
Pour α=5 , on a :
tn−1,1−α2=t127,0.975≃1.97
|√n ¯x−μ0s′|≃|√128 31.45−312.16|≃2.35 .
On rejette H0 au niveau de test 5% car :
La p-valeur vaut :
p-valeur=P(|T(n−1)|≥√n ¯x−μ0s)=2(1−P(T(n−1)≤√n ¯x−μ0s))≃2(1−P(T(127)≤2.35))≃0.02 .
On constate qu’on rejette bien l’hypothèse nulle au niveau de test 5% ( 0.02<0.05 ) mais pas au niveau de test 1% ( 0.02≥0.05 )
En pratique, le data analyst peut utiliser la commande t.test
pour résoudre ce test :
alpha <- 0.05
t.test(essence$conso,mu=31,alternative="two.sided")
## ## Results of Hypothesis Test ## -------------------------- ## ## Null Hypothesis: mean = 31 ## ## Alternative Hypothesis: True mean is not equal to 31 ## ## Test Name: One Sample t-test ## ## Estimated Parameter(s): mean of x = 31.44945 ## ## Data: essence$conso ## ## Test Statistic: t = 2.354358 ## ## Test Statistic Parameter: df = 127 ## ## P-value: 0.02008833 ## ## 95% Confidence Interval: LCL = 31.07169 ## UCL = 31.82722
Tester la variance (théorique) d'un échantillon
Supposons que nous ayons à disposition un échantillon i.i.d de loi N(μ,σ2), ou un grand échantillon i.i.d quelconque (en pratique de taille supérieure à 30).
On considère les tests suivants :
{H0:σ2=σ20H1:σ2>σ20
{H0:σ2=σ20H1:σ2<σ20
{H0:σ2=σ20H1:σ2≠σ20
On utilise comme statistique de test :
On a sous H0 :
K∼χ2(n−1)
Les régions critiques au niveau α sont :
W={K>χ2n−1,1−α} .
W={K<χ2n−1,α} .
W={K<χ2n−1,α2 ou K>χ2n−1,1−α2} .
De là on tire les p-valeurs...
Le coin R : exemple de la consommation d'essence
Considérons par exemple le test suivant :
avec σ20=4.5 .
En pratique, le data analyst pourra de nouveau utiliser la commande varTest
issue du package EnvStats
pour obtenir cet intervalle de confiance :
library(EnvStats)
alpha <- 0.05
varTest(essence$conso,sigma.squared=4.5,alternative="greater")
## ## Results of Hypothesis Test ## -------------------------- ## ## Null Hypothesis: variance = 4.5 ## ## Alternative Hypothesis: True variance is greater than 4.5 ## ## Test Name: Chi-Squared Test on Variance ## ## Estimated Parameter(s): variance = 4.66481 ## ## Data: essence$conso ## ## Test Statistic: Chi-Squared = 131.6513 ## ## Test Statistic Parameter: df = 127 ## ## P-value: 0.3706697 ## ## 95% Confidence Interval: LCL = 3.839436 ## UCL = Inf
On ne rejette donc pas l’hypothèse nulle au niveau de test 5%, la p-valeur vaut en effet environ 0.37 (elle n’est évidemment pas inférieure à 0.05).