Continuons à mettre en pratique tout ce que nous avons vu à travers, cette fois, le test T et le test d’ANOVA. June vous a demandé de comparer la satisfaction client et la saison d’un côté et la satisfaction client avec le type de voyage de l’autre.
Testez les relations avec le Test T
Pour exécuter le test T, il faut suivre les étapes suivantes.
À partir de “Données clients VertiGo nettoyées”, concentrez-vous sur les évaluations des clients de l’agence VertiGo par saison de voyage.
Filtrez les données. Nous allons comparer uniquement les saisons été et hiver.
Visualisez les différences entre les évaluations et les saisons via un boxplot.
Calculez la statistique de test T.
Calculez la valeur p associée.
Voici le code à exécuter pour obtenir les résultats :
import pandas as pd
from scipy.stats import ttest_ind
# Charger les données
file_path = '/mnt/data/Données+clients+VertiGo+nettoyées.csv'
data = pd.read_csv(file_path)
# Filtrer les données pour ne garder que les saisons été et hiver
data_filtered = data[data['saison de voyage'].isin(['été', 'hiver'])]
# Sélectionner les colonnes pertinentes
ete = data_filtered[data_filtered['saison de voyage'] == 'été']['évaluation sur 5'].dropna()
hiver = data_filtered[data_filtered['saison de voyage'] == 'hiver']['évaluation sur 5'].dropna()
# Calculer le test T et la valeur p
t_stat, p_value = ttest_ind(ete, hiver, equal_var=False) # Utilisation de equal_var=False par défaut
print(f"Statistique de test T: {t_stat}")
print(f"Valeur p: {p_value}")
Nous obtenons les résultats suivants :
Statistique de test T : -1,342
Valeur p : 0,179
Comment interpréter ces résultats ?
La statistique de test T quantifie l'écart entre les moyennes des deux groupes en tenant compte de la variabilité des données au sein de chaque groupe. Une valeur T négative indique que la moyenne des évaluations pour l'été est inférieure à celle de l'hiver, mais nous devons examiner la valeur p pour tirer des conclusions sur la significativité de cette différence.
La valeur p de 0,179 est supérieure au seuil de 0,05. Cela signifie que nous n'avons pas suffisamment de preuves pour rejeter l'hypothèse nulle, qui stipule qu'il n'y a pas de différence significative entre les évaluations des saisons été et hiver.
La différence observée entre les évaluations des saisons été et hiver n'est pas statistiquement significative. Autrement dit, nous ne pouvons pas conclure qu'il y a une différence réelle entre les évaluations pour ces deux saisons.
Vous pouvez utiliser cette information pour réévaluer la manière dont les services sont perçus en fonction des saisons, mais gardez à l'esprit que, d'après les données actuelles, les différences ne sont pas significatives.
Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test T.
Testez les relations avec ANOVA
Pour exécuter le test ANOVA, il faut suivre les étapes suivantes :
À partir de “Données clients VertiGo nettoyées”, concentrez-vous sur les évaluations des clients de l’agence VertiGo par type de voyage.
Visualisez les différences entre les types de voyage via un boxplot.
Calculez la statistique de test ANOVA.
Calculez la valeur p associée.
Voici le code à exécuter pour obtenir les résultats :
import pandas as pd
import seaborn as sns
from scipy.stats import f_oneway
# Charger les données
file_path = '/mnt/data/Données+clients+VertiGo+nettoyées.csv'
data_ANOVA = pd.read_csv(file_path)
# On visualise nos variables d'intérêts
sns.boxplot(x="type de voyage", y="évaluation sur 5", data=data_ANOVA)
# Sélectionner les colonnes pertinentes pour chaque type de voyage
aventure = data_ANOVA[data_ANOVA['type de voyage'] == 'aventure']['évaluation sur 5'].dropna()
detente = data_ANOVA[data_ANOVA['type de voyage'] == 'détente']['évaluation sur 5'].dropna()
culturel = data_ANOVA[data_ANOVA['type de voyage'] == 'culturel']['évaluation sur 5'].dropna()
# Calculer le test ANOVA et la valeur p
f_stat, p_value = f_oneway(aventure, detente, culturel)
print(f"Statistique de test F: {f_stat}")
print(f"Valeur p: {p_value}")
Nous obtenons les résultats suivants :
Statistique de test F : 0,703
Valeur p : 0,495
Comment interpréter ces résultats ?
Le boxplot permet de clairement voir une absence de différence des notes données pour les différents types de voyages. On ne s’attend donc pas à obtenir quelque chose de significatif avec le test statistique.
La statistique de test F compare la variation entre les groupes à la variation au sein de chaque groupe. Une valeur F aussi faible suggère une absence de différence entre les moyennes des groupes.
La valeur p indique la probabilité que la différence observée entre les groupes soit due au hasard. Une valeur p supérieure au seuil de 0,05 indique que la différence n’est pas statistiquement significative.
Ainsi, nous n’observons pas de différence significative entre les évaluations des types de voyage (aventure, détente, culturel).
Nous ne pouvons donc pas utiliser cette information pour réévaluer la manière dont les services sont perçus par les clients selon les types de voyage.
Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test ANOVA.
Comprenez les limites des tests T et ANOVA
Les tests T et ANOVA sont des outils statistiques puissants, mais ils présentent plusieurs limites liées à leurs propres conditions d'application.
Le test T, utilisé pour comparer les moyennes de deux groupes, suppose que les données suivent une distribution normale. Si cette condition n'est pas respectée, les résultats ne seront potentiellement pas fiables. De plus, le test T exige que les variances des deux groupes soient égales; une condition non respectée peut biaiser les résultats. Le test T nécessite également que les observations soient indépendantes et est sensible aux valeurs extrêmes, qui peuvent influencer les conclusions. En outre, il ne permet de comparer que deux groupes à la fois.
Le test ANOVA, qui compare les moyennes de trois groupes ou plus, partage certaines de ces limitations. Il suppose également que les données suivent une distribution normale et que les variances entre les groupes sont égales. Comme pour le test T, les observations doivent être indépendantes et les résultats peuvent être influencés par des valeurs extrêmes. De plus, bien que l'ANOVA identifie s'il existe une différence significative entre les groupes, il ne précise pas quels groupes diffèrent, nécessitant des tests plus poussés pour une interprétation complète. Ces limitations soulignent l'importance de vérifier les conditions d'application avant de s'appuyer sur les résultats de ces tests.
À vous de jouer
Contexte
Vous avez analysé “Données clients VertiGo nettoyées” dans la partie précédente et vous avez normalement sélectionné le test ANOVA pour examiner la variation entre l’âge moyen des clients et le type de voyage (aventure, détente, culturel). Il n’y a plus qu’à réaliser ce test !
Consignes
Formulez les hypothèses H0 et H1.
Sélectionnez les colonnes pertinentes.
Visualisez les données.
Calculez la statistique de test ANOVA.
Calculez la valeur p associée.
Livrable
Vous devez réaliser le test en Python.
En résumé
La statistique de test T mesure la différence entre les moyennes de deux groupes en prenant en compte la variabilité des données de chaque groupe.
Une valeur T négative suggère que la différence entre les groupes est due à ce que le groupe de référence (souvent le premier groupe mentionné dans l'analyse) a une moyenne plus basse.
La statistique de test F compare la variation entre les groupes à la variation au sein de chaque groupe.
Une valeur F plus élevée suggère une plus grande différence entre les moyennes des groupes.
Le test Mann-Whitney est une alternative au test T si les données ne suivent pas une distribution normale.
Le test Kruskal-Wallis est une alternative au test ANOVA si les données ne suivent pas une distribution normale.
Bravo, vous avez réalisé et interprété vos tests statistiques avec succès ! Mais ces tests ne s’arrêtent pas là ! Présenter les résultats est une étape clé pour un data analyst. Cela comprend la synthèse des résultats, l’élaboration de votre rapport de recherche et la présentation orale de vos conclusions.