Distinguez les tests paramétriques des tests non paramétriques
Antoine est content du travail que vous avez réalisé sur le lien entre la densité de population et la région. Il attend avec encore plus d’impatience le résultat de l’étude des données de température en fonction du niveau de densité. Il vous demande donc de commencer par étudier la température minimale en fonction des quatre niveaux de densité de population.
Vous relisez dans vos anciens cours qu’étudier le lien entre une variable qualitative, comme le niveau de densité de population, et une variable quantitative, comme la température moyenne, revient à chercher si les sous-groupes créés par la variable qualitative viennent de la même population selon la mesure de la variable quantitative. Pour le dire autrement, est-ce que les différents niveaux de densité de population ont la même valeur moyenne (ou médiane) pour la température minimale mesurée. Pour le vérifier, il est nécessaire d’utiliser un test d’hypothèse : soit l’analyse des variances, aussi appelée ANOVA, ANalysis Of VAriances, qui est un test paramétrique, soit le test de Kruskal-Wallis, qui est non paramétrique. Les deux tests ne sont pas utilisés dans les mêmes cas.
La priorité est toujours donnée aux tests paramétriques, qui permettent de généraliser s’ils sont utilisables.
Lorsque l’ANOVA ou le test de Kruskal-Wallis montre un lien entre la variable qualitative et la variable quantitative, on n’en connaît pas le sens. Il faut réaliser un test post-hoc de Tukey à la suite d’une ANOVA et de Nemenyi à la suite d’un test de Kruskal-Wallis pour déterminer les différences entre les groupes.
ANOVA
L’ANOVA est un test paramétrique dont l’utilisation est plus limitée mais qui permet de généraliser.
Pour utiliser l’ANOVA, il faut que :
les données soient indépendantes, c’est-à-dire qu’une mesure n’est pas liée à une autre comme c'est typiquement le cas si on mesure le taux de glycémie d’une personne diabétique avant et après repas. Ici les données de température sont indépendantes ;
les données suivent une loi normale ;
les variances des sous-groupes soient similaires.
Si le premier point est lié intrinsèquement aux données, il faut vérifier les deux autres points.
Pour vérifier que les données suivent une loi normale, il y a deux cas :
Il y a plus de 30 données par groupes, comme c’est le cas ici. Les données peuvent être approximées par une loi normale grâce au théorème central limite.
Si le nombre d’observations par groupes est inférieur à 30, il faut vérifier avec le test d’hypothèse de Shapiro-Wilk qu’elles suivent bien une loi normale.
Pour vérifier que les données de température minimale ont une variance similaire entre les sous-groupes de densité de population, on utilisera le test de Bartlett dans la section un peu plus loin "Réalisez une ANOVA".
Le test de Kruskal-Wallis
Le test de Kruskal-Wallis est un test non paramétrique qui est moins restrictif mais ne permet pas de généraliser.
Vous savez déjà que le test de Kruskal-Wallis pourra être réalisé sans souci sur vos données, car les données de température sont indépendantes et il y a bien plus de 5 observations par niveau de densité de population, avec les 3 ans de données enregistrées quotidiennement.
Représentez ce lien
Depuis le début de ce cours, vous avez pu noter que commencer par la visualisation permettait d’éviter les erreurs. La variation entre les groupes va donc être représentée graphiquement, sous forme de boîtes à moustaches, avec la couleur en supplément.
Il semble y avoir une température minimale qui augmente avec la densité de population.
Pour le vérifier, une analyse des variances est réalisée, et c’est ce que l’on va faire juste après.
Vérifiez l’existence du lien
Réalisez une ANOVA
Avant de réaliser une ANOVA, vous savez maintenant qu’il faut vérifier que les conditions d’utilisation sont remplies, c’est-à-dire :
Indépendance des données : liée à la récolte des données. Il n’a pas de souci ici, les températures mesurées à un niveau de population n’influencent pas les données mesurées à un autre. Par contre, elles sont toutes impactées par la météo.
Normalité des données : Comme elles sont bien au-delà de 30, il est possible de s’affranchir de cette étape et de considérer que les données suivent une loi normale.
Homoscédasticité, ou l’égalité des variances entre les groupes. La lecture du graphique précédent montre que les données semblent avoir la même variabilité entre les différents niveaux de densité de population, mais il est bien de le confirmer avec le test de Bartlett.
Dans cette vidéo vous avez pu apprendre à mettre en place le test de Bartlett pour vérifier l’homoscédasticité entre les groupes : bartlett.test(tmin ~ densite_pop, data = donnees_temperature)
Finalement, les variances ne sont pas égales entre les densités de population. L’ANOVA ne peut donc pas être mise en place pour mesurer l’influence de la densité de population sur la température minimale, mais l’analyse a quand même été réalisée pour montrer l’utilisation des codes.
anova <- aov(
tmin ~ densite_pop, data = donnees_temperature
)
summary(anova)
TukeyHSD(anova)
Réalisez un test de Kruskal-Wallis
Comme la variance n’est pas similaire entre les groupes, il est conseillé d’utiliser le test de Kruskal-Wallis pour savoir si la température minimale varie en fonction de la densité de population.
kruskal.test(
tmin ~ densite_pop, data = donnees_temperature
)
PMCMRplus::kwAllPairsNemenyiTest(
tmin ~ densite_pop, data = donnees_temperature
)
Le test de Kruskal-Wallis sort le même résultat que l’ANOVA, avec une différence entre tous les niveaux excepté entre très peuplé
et peuplé
. On obtient donc une température minimale plus basse dans les départements peu peuplé
que dans les départements peuplé
et très peuplé
qui ont eux aussi des températures minimales plus basses que les départements surpeuplé
.
À vous de jouer
Contexte
Antoine, très impressionné par votre travail sur la température minimale, vous demande de faire la même chose pour les températures moyennes et maximales.
Consignes
Vous devez donc :
Représenter les liens entre la densité de population et la température moyenne puis maximale.
Selon la représentation graphique : choisir entre ne pas aller plus loin ou calculer le lien entre la densité de population et les deux températures.
N’oubliez pas de bien faire les vérifications pour utiliser le bon test !
En résumé
Étudier le lien entre une variable qualitative et une variable quantitative revient à comparer les données au sein de chaque sous-groupe.
Il est possible de réaliser plusieurs graphiques, les mêmes que pour une variable quantitative en ajoutant la couleur.
L’ANOVA et le test de Kruskal-Wallis permettent de quantifier les différences entre les sous-groupes.
L’ANOVA est plus restrictive mais permet de généraliser les résultats trouvés.
Le test de Kruskal-Wallis est plus généraliste et tout à fait applicable dans le cas de statistiques descriptives.
Dans le prochain chapitre, nous allons voyager dans le temps et dans l’espace avec l’analyse de variation spatio-temporelle !