• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 08/11/2024

Établissez des associations mixtes

Continuons à mettre en pratique tout ce que nous avons vu à travers, cette fois, le test T et le test d’ANOVA. June vous a demandé de comparer la satisfaction client et la saison d’un côté et la satisfaction client avec le type de voyage de l’autre.

Testez les relations avec le Test T

Pour exécuter le test T, il faut suivre les étapes suivantes.

  1. À partir de “Données clients VertiGo nettoyées”, concentrez-vous sur  les évaluations des clients de l’agence VertiGo par saison de voyage.

  2. Filtrez les données. Nous allons comparer uniquement les saisons été et hiver.

  3. Visualisez les différences entre les évaluations et les saisons via un boxplot.

  4. Calculez la statistique de test T.

  5. Calculez la valeur p associée.

Voici le code à exécuter pour obtenir les résultats :

import pandas as pd
from scipy.stats import ttest_ind

# Charger les données
file_path = '/mnt/data/Données+clients+VertiGo+nettoyées.csv'
data = pd.read_csv(file_path)

# Filtrer les données pour ne garder que les saisons été et hiver
data_filtered = data[data['saison de voyage'].isin(['été', 'hiver'])]

# Sélectionner les colonnes pertinentes
ete = data_filtered[data_filtered['saison de voyage'] == 'été']['évaluation sur 5'].dropna()
hiver = data_filtered[data_filtered['saison de voyage'] == 'hiver']['évaluation sur 5'].dropna()

# Calculer le test T et la valeur p
t_stat, p_value = ttest_ind(ete, hiver, equal_var=False)  # Utilisation de equal_var=False par défaut

print(f"Statistique de test T: {t_stat}")
print(f"Valeur p: {p_value}")

Nous obtenons les résultats suivants :

  • Statistique de test T : -1,342

  • Valeur p : 0,179

    Comparaison des évaluations des séjours en été et en hiver, révélant aucune différence statistiquement significative entre les saisons.
    Box plot comparant les évaluations des séjours en fonction des saisons

Comment interpréter ces résultats ?

  • La statistique de test T quantifie l'écart entre les moyennes des deux groupes en tenant compte de la variabilité des données au sein de chaque groupe. Une valeur T négative indique que la moyenne des évaluations pour l'été est inférieure à celle de l'hiver, mais nous devons examiner la valeur p pour tirer des conclusions sur la significativité de cette différence.

  • La valeur p de 0,179 est supérieure au seuil de 0,05. Cela signifie que nous n'avons pas suffisamment de preuves pour rejeter l'hypothèse nulle, qui stipule qu'il n'y a pas de différence significative entre les évaluations des saisons été et hiver.

La différence observée entre les évaluations des saisons été et hiver n'est pas statistiquement significative. Autrement dit, nous ne pouvons pas conclure qu'il y a une différence réelle entre les évaluations pour ces deux saisons.

Vous pouvez utiliser cette information pour réévaluer la manière dont les services sont perçus en fonction des saisons, mais gardez à l'esprit que, d'après les données actuelles, les différences ne sont pas significatives. ​

Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test T.

Testez les relations avec ANOVA

Pour exécuter le test ANOVA, il faut suivre les étapes suivantes :

  1. À partir de “Données clients VertiGo nettoyées”, concentrez-vous sur les évaluations des clients de l’agence VertiGo par type de voyage.

  2. Visualisez les différences entre les types de voyage via un boxplot.

  3. Calculez la statistique de test ANOVA.

  4. Calculez la valeur p associée.

Voici le code à exécuter pour obtenir les résultats :

import pandas as pd
import seaborn as sns
from scipy.stats import f_oneway

# Charger les données
file_path = '/mnt/data/Données+clients+VertiGo+nettoyées.csv'
data_ANOVA = pd.read_csv(file_path)


# On visualise nos variables d'intérêts
sns.boxplot(x="type de voyage", y="évaluation sur 5", data=data_ANOVA)

# Sélectionner les colonnes pertinentes pour chaque type de voyage
aventure = data_ANOVA[data_ANOVA['type de voyage'] == 'aventure']['évaluation sur 5'].dropna()
detente = data_ANOVA[data_ANOVA['type de voyage'] == 'détente']['évaluation sur 5'].dropna()
culturel = data_ANOVA[data_ANOVA['type de voyage'] == 'culturel']['évaluation sur 5'].dropna()

# Calculer le test ANOVA et la valeur p
f_stat, p_value = f_oneway(aventure, detente, culturel)

print(f"Statistique de test F: {f_stat}")
print(f"Valeur p: {p_value}")

Nous obtenons les résultats suivants :

Les boîtes représentent la médiane et l'étendue interquartile, tandis que les lignes verticales montrent l'étendue des valeurs sans les valeurs aberrantes. Des points au-dessus des boîtes indiquent des valeurs atypiques (outliers).
Boxplot des niveaux de satisfaction par type de voyage
  • Statistique de test F : 0,703

  • Valeur p : 0,495

Comment interpréter ces résultats ?

Le boxplot permet de clairement voir une absence de différence des notes données pour les différents types de voyages. On ne s’attend donc pas à obtenir quelque chose de significatif avec le test statistique.

  • La statistique de test F compare la variation entre les groupes à la variation au sein de chaque groupe. Une valeur F aussi faible suggère une absence de différence entre les moyennes des groupes.

  • La valeur p indique la probabilité que la différence observée entre les groupes soit due au hasard. Une valeur p supérieure au seuil de 0,05 indique que la différence n’est pas statistiquement significative.

Ainsi, nous n’observons pas de différence significative entre les évaluations des types de voyage (aventure, détente, culturel).

Nous ne pouvons donc pas utiliser cette information pour réévaluer la manière dont les services sont perçus par les clients selon les types de voyage.

Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test ANOVA.

Comprenez les limites des tests T et ANOVA

Les tests T et ANOVA sont des outils statistiques puissants, mais ils présentent plusieurs limites liées à leurs propres conditions d'application.

Le test T, utilisé pour comparer les moyennes de deux groupes, suppose que les données suivent une distribution normale. Si cette condition n'est pas respectée, les résultats ne seront potentiellement pas fiables. De plus, le test T exige que les variances des deux groupes soient égales; une condition non respectée peut biaiser les résultats. Le test T nécessite également que les observations soient indépendantes et est sensible aux valeurs extrêmes, qui peuvent influencer les conclusions. En outre, il ne permet de comparer que deux groupes à la fois.

Le test ANOVA, qui compare les moyennes de trois groupes ou plus, partage certaines de ces limitations. Il suppose également que les données suivent une distribution normale et que les variances entre les groupes sont égales. Comme pour le test T, les observations doivent être indépendantes et les résultats peuvent être influencés par des valeurs extrêmes. De plus, bien que l'ANOVA identifie s'il existe une différence significative entre les groupes, il ne précise pas quels groupes diffèrent, nécessitant des tests plus poussés pour une interprétation complète. Ces limitations soulignent l'importance de vérifier les conditions d'application avant de s'appuyer sur les résultats de ces tests.

À vous de jouer

Contexte

Vous avez analysé “Données clients VertiGo nettoyées” dans la partie précédente et vous avez normalement sélectionné le test ANOVA pour examiner la variation entre l’âge moyen des clients et le type de voyage (aventure, détente, culturel). Il n’y a plus qu’à réaliser ce test !

Consignes

  1. Formulez les hypothèses H0 et H1.

  2. Sélectionnez les colonnes pertinentes.

  3. Visualisez les données. 

  4. Calculez la statistique de test ANOVA.

  5. Calculez la valeur p associée.

Livrable

Vous devez réaliser le test en Python.

En résumé

  • La statistique de test T mesure la différence entre les moyennes de deux groupes en prenant en compte la variabilité des données de chaque groupe.

  • Une valeur T négative suggère que la différence entre les groupes est due à ce que le groupe de référence (souvent le premier groupe mentionné dans l'analyse) a une moyenne plus basse.

  • La statistique de test F compare la variation entre les groupes à la variation au sein de chaque groupe. 

  • Une valeur F plus élevée suggère une plus grande différence entre les moyennes des groupes.

  • Le test Mann-Whitney est une alternative au test T si les données ne suivent pas une distribution normale. 

  • Le test Kruskal-Wallis est une alternative au test ANOVA si les données ne suivent pas une distribution normale. 

Bravo, vous avez réalisé et interprété vos tests statistiques avec succès ! Mais ces tests ne s’arrêtent pas là ! Présenter les résultats est une étape clé pour un data analyst. Cela comprend la synthèse des résultats, l’élaboration de votre rapport de recherche et la présentation orale de vos conclusions. 

Exemple de certificat de réussite
Exemple de certificat de réussite