Nous allons passer à l’action en exécutant les tests statistiques que nous avons appris à sélectionner précédemment. Pour rappel, nous allons appliquer le test de corrélation de Pearson pour analyser la relation entre les dépenses publicitaires et le nombre de réservations et le test de corrélation de Spearman pour évaluer la relation entre la durée des séjours et le prix total des voyages.
Testez des corrélations avec Pearson
Pour effectuer le test de Pearson, il faut suivre les étapes suivantes.
Chargez les données de “Données entreprise VertiGo nettoyées” qui liste les dépenses publicitaires annuelles de l’agence VertiGo et son nombre de réservations annuelles.
Extraire les colonnes pertinentes.
Visualisez la tendance.
Calculez le coefficient de corrélation de Pearson.
Calculez la valeur p associée.
Voici le code à exécuter pour obtenir les résultats.
import pandas as pd
from scipy.stats import pearsonr
import seaborn as sns
# Charger les données
file_path = '/mnt/data/Données+entreprise+VertiGo+nettoyées.csv'
data = pd.read_csv(file_path)
# Extraire les colonnes pertinentes
depenses = df['Depenses_Publicitaires']
reservations = df['Nombre_de_Reservations']
# Visualisation de la tendance
sns.regplot(x=depenses, y=reservations, robust=True, line_kws=dict(color="r"))
# Calculer le coefficient de corrélation de Pearson et la valeur p
correlation, p_value = pearsonr(depenses, reservations)
print(f"Coefficient de corrélation de Pearson: {correlation}")
print(f"Valeur p: {p_value}")
Nous obtenons les résultats suivants :
Coefficient de corrélation de Pearson (r) : 0,926
Valeur p : 0,0
Comment interpréter ces résultats ?
Eh bien pour ça, reprenons les choses dans l’ordre.
Coefficient de corrélation de Pearson (r) : Le coefficient de corrélation de 0,926 indique une forte corrélation positive entre les dépenses publicitaires et le nombre de réservations. Cela signifie que, à mesure que les dépenses publicitaires augmentent, le nombre de réservations augmente aussi.
Valeur p : La valeur p de 0,0 est inférieure au seuil de 0,05, indiquant que la corrélation est statistiquement significative. La relation observée n'est donc probablement pas due au simple hasard.
Vous pouvez utiliser cette information pour influencer les décisions stratégiques, comme augmenter les dépenses publicitaires pour potentiellement augmenter les réservations.
Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test avec Pearson.
Testez des corrélations avec Spearman
Pour exécuter le test de Spearman, il faut suivre les mêmes étapes que pour le test de Pearson.
À partir de “Données client VertiGo nettoyées”, concentrez-vous sur les durées moyennes de voyage annuelles et les prix totaux des séjours des clients de l’agence VertiGo.
Sélectionnez les colonnes pertinentes.
Visualisez la tendance.
Calculez le coefficient de corrélation de Spearman.
Calculez la valeur p associée.
Voici le code à exécuter pour obtenir les résultats.
import pandas as pd
from scipy.stats import spearmanr
import seaborn as sns
# Charger les données depuis le fichier Excel
file_path = '/mnt/data/Données+clients+VertiGo+nettoyées.csv'
data_voyage = pd.read_csv(file_path)
# Extraire les colonnes pertinentes
duree_sejours = data_voyage['durée de voyage (en jours)']
prix_total = data_voyage['prix total']
# Visualisation de la tendance
sns.regplot(data=df, x="durée de voyage (en jours)", y="prix total", robust=True, line_kws=dict(color="r"))
# Calculer le coefficient de corrélation de Spearman et la valeur p
spearman_corr, spearman_p_value = spearmanr(duree_sejours, prix_total)
print(f"Coefficient de corrélation de Spearman: {spearman_corr}")
print(f"Valeur p: {spearman_p_value}")
Nous obtenons les résultats suivants :
Coefficient de corrélation de Spearman (ρ) : 0,994
Valeur p : 0,0
Comment interpréter ces résultats ?
Eh bien pour ça, reprenons les choses dans l’ordre.
Coefficient de corrélation de Spearman (ρ) : Le coefficient de corrélation de 0,994 indique une très forte corrélation positive entre la durée des séjours et le prix total des voyages. Cela signifie qu’il y a une tendance monotone entre les deux variables.
Valeur p : La valeur p de 0,0 est inférieure au seuil de 0,05, indiquant que la corrélation est statistiquement significative. La relation observée ne peut donc pas être due au hasard.
Les résultats montrent qu'il existe une corrélation significative entre la durée des séjours et le prix total des voyages. Cette information suggère que la durée du voyage est un déterminant majeur dans le prix du voyage.
Voici une vidéo qui récapitule les étapes à suivre pour réaliser un test avec Spearman.
On a vu des résultats de 0,05 et de 0,92 mais si c’est 0,45 par exemple cela veut dire quoi ?
C’est vrai que ce résultat peut être difficile à appréhender mais on peut essayer de généraliser un peu cette valeur de corrélation. On dit généralement que si la valeur de la corrélation est comprise entre :
-1 et -0,75 : corrélation forte négative ;
-0,75 et -0,5 : corrélation moyenne négative ;
-0,5 et -0,25 : corrélation faible négative ;
-0,25 et +0,25 : absence de corrélation ;
+0,25 et +0,5 : corrélation faible positive ;
+0,5 et +0,75 : corrélation moyenne positive ;
+0,75 et +1 : corrélation forte positive ;
Comme vous le savez, il est crucial de vérifier les conditions d'application et de considérer les particularités des données avant de tirer des conclusions. Mais ce qu’il faut aussi garder à l’esprit c’est qu’une forte corrélation globale ne garantit pas que cette relation soit uniforme ou significative dans tous les sous-groupes de l'échantillon. Les résultats globaux doivent être interprétés avec prudence, en tenant compte de ces sous-groupes potentiels. Grâce au test de Pearson, nous avons observé une forte corrélation positive entre les dépenses publicitaires et le nombre de réservations. Mais attention, si VertiGo a mené différentes campagnes publicitaires, cela pourrait avoir des impacts variables sur les réservations et une analyse globale pourrait masquer ces variations sous-jacentes.
Imaginons que VertiGo a lancé deux campagnes au cours des 5 dernières années, une sur les réseaux sociaux et une autre télévisée.
Voici une analyse de ces sous-groupes qui a été réalisée par l’entreprise :
Campagnes sur les réseaux sociaux
Dépenses annuelles moyennes : 50 000 €
Réservations annuelles moyennes : 10 000
Corrélation de Pearson : 0,95
Les campagnes sur les réseaux sociaux montrent une très forte corrélation positive. Une augmentation des dépenses dans ce domaine entraîne presque proportionnellement une augmentation des réservations.
Campagnes sur les télévisées
Dépenses annuelles moyennes : 100 000 €
Réservations annuelles moyennes : 12 000
Corrélation de Pearson : 0,60
Dans ce cas, les campagnes télévisées montrent une corrélation positive modérée. Bien qu'il y ait une tendance générale à l'augmentation des réservations avec des dépenses publicitaires télévisées, l'impact est moins prononcé que pour les réseaux sociaux.
La forte corrélation de 0,926 ne reflète pas ces différences. En se basant uniquement sur cette valeur globale, on risque de négliger les différences cruciales dans l'efficacité des campagnes.
Une analyse plus fine des sous-groupes permet de mieux comprendre quelles campagnes sont réellement efficaces.
Comprenez les limites des tests Pearson et Spearman
Les tests de corrélation de Spearman et Pearson sont largement utilisés pour mesurer la relation entre deux variables, mais chacun a ses limites en fonction des données à analyser.
Le test de Pearson est optimal lorsque les données suivent une distribution normale et que la relation entre les variables est linéaire. Il est donc sensible aux valeurs aberrantes, qui peuvent fortement influencer les résultats.
En revanche, le test de Spearman, basé sur les rangs des données, est non paramétrique et s'applique même lorsque les données ne sont pas normalement distribuées ou que la relation entre les variables est non linéaire. Il est plus robuste face aux valeurs aberrantes, mais peut manquer de précision pour détecter des corrélations lorsque les données sont très bruitées. En somme, Pearson est plus précis dans des conditions idéales, tandis que Spearman est une alternative plus flexible pour des situations où les hypothèses de normalité et de linéarité ne sont pas respectées. Dans tous les cas cependant, il est important de rappeler qu’une corrélation, même significative, ne constitue pas une relation de cause à effet entre les 2 variables étudiées.
À vous de jouer
Contexte
Vous avez analysé “Données entreprise VertiGo nettoyées” dans la partie précédente et vous avez normalement sélectionné le test de Pearson pour comparer les revenus des ventes de VertiGo en fonction du nombre de clients. Il n’y a plus qu’à réaliser ce test !
Consignes
Formulez les hypothèses H0 et H1.
Calculez le coefficient de corrélation et la valeur p associée.
Interprétez les résultats.
Livrable
Vous devez réaliser le test en Python.
En résumé
Le test de corrélation de Pearson est utilisé pour analyser la relation linéaire entre deux variables quantitatives.
Une valeur p inférieure à 0,05 dans un test de corrélation indique que la corrélation est statistiquement significative.
Le test de corrélation de Spearman est utilisé pour évaluer la relation monotone entre deux variables quantitatives sans nécessiter de distribution normale.
Une valeur p supérieure à 0,05 dans un test de corrélation indique que la corrélation n'est pas statistiquement significative.
L'analyse des sous-groupes peut révéler des différences importantes dans les relations entre variables qui ne sont pas apparentes dans les analyses globales.
Il est temps maintenant de tester vos données qualitatives et d’en interpréter les résultats.