Le coin méthodologique
Considérons un échantillon i.i.d de loi N(μ,σ2), ou un grand échantillon i.i.d non gaussien (en pratique de taille supérieure à 30).
L'intervalle de confiance bilatère de niveau 1−α pour σ2 est alors :
où χ2n−1,α2 et χ2n−1,1−α2 désignent respectivement les quantiles d'ordres α2 et 1−α2 de la loi χ2(n−1)
Pour aller plus loin
Mathématiquement, pour établir l'intervalle de confiance, on se base sur le résultat probabiliste suivant :
Ce résultat est vrai pour un échantillon i.i.d sous hypothèse normale, ou asymptotiquement vrai pour un grand échantillon i.i.d quelconque.
Le coin R : exemple de la consommation d'essence
Si on souhaite encadrer la variance (théorique) de la consommation d’essence σ2 avec une probabilité de 95%, on obtient alors comme intervalle de confiance ( χ2n−1,α2=χ2127,0.025≃97.7 , χ2n−1,α2=χ2127,0.975≃160.1 et s′2≃4.66 ) :
Si on lance “manuellement” les calculs au niveau de test 5% :
alpha <- 0.05
icinf <- (n_essence-1)*sprime2/qchisq(p=1-alpha/2,df=n_essence-1)
round(icinf,digits=2)
## [1] 3.7
icsup <- (n_essence-1)*sprime2/qchisq(p=alpha/2,df=n_essence-1)
round(icsup,digits=2)
## [1] 6.06
On obtient alors :
Remarquons encore ici que l’hypothèse gaussienne n’était pas obligatoire ici, en effet l’échantillon est de taille suffisamment importante (supérieure à 30).
En pratique, le data analyst pourra utiliser la commande varTest
issue du package EnvStats
pour obtenir cet intervalle de confiance :
library(EnvStats)
## ## Attaching package: 'EnvStats' ## The following objects are masked from 'package:stats': ## ## predict, predict.lm ## The following object is masked from 'package:base': ## ## print.default
alpha <- 0.05
varTest(essence$conso,conf.level=1-alpha)
## ## Results of Hypothesis Test ## -------------------------- ## ## Null Hypothesis: variance = 1 ## ## Alternative Hypothesis: True variance is not equal to 1 ## ## Test Name: Chi-Squared Test on Variance ## ## Estimated Parameter(s): variance = 4.66481 ## ## Data: essence$conso ## ## Test Statistic: Chi-Squared = 592.4309 ## ## Test Statistic Parameter: df = 127 ## ## P-value: 0 ## ## 95% Confidence Interval: LCL = 3.700708 ## UCL = 6.063869