• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 08/11/2024

Collectez les données

Après avoir défini les objectifs de votre analyse et formulé des hypothèses générales basées sur une compréhension du contexte, le prochain pas vers une étude statistique réussie est la collecte des données. Cette étape est essentielle pour rassembler les éléments nécessaires pour réaliser vos objectifs d'analyse.

Identifiez les sources de données

Mais avant ça, il faut identifier les différentes sources qui sont à votre disposition.

Dans une entreprise, ce n’est pas ça qui manque, bien au contraire. Ces sources de données peuvent varier largement en fonction de l'objectif de la recherche. Voici les principales sources de données qu’on retrouve en entreprise :

  • Enquêtes : les enquêtes sont un pilier dans la collecte de données. Elles offrent une grande flexibilité en termes de conception et de déploiement. Elles peuvent être adaptées pour explorer une variété de questions et recueillir des données variées comme des données quantitatives (évaluations numériques), et qualitatives (opinions et les perceptions).

  • Bases de données : les bases de données sont des réservoirs d'informations qui peuvent fournir un aperçu historique et actuel des tendances et des comportements. Elles vont de bases de données internes d'une organisation (registre des clients d’une entreprise, chiffres d’affaires, commandes, etc.) à des bases de données publiques qui offrent des informations sur une multitude de sujets. Par exemple, la ville de Paris met à disposition des bases de données qui répertorient les arbres dans la ville. L’Organisation des Nations Unies pour l’alimentation et l’agriculture partage aussi ses données sur la production par exemple.

  • Capteurs : l'utilisation des données issues des capteurs automatise le processus et permet d'obtenir des mesures précises et continues. Cette méthode est particulièrement utile pour capturer des données environnementales ou physiologiques sans intervention humaine. Le projet Smart Métropole "vise à améliorer le cadre de vie et les services proposés aux administrés d’un territoire en tirant le meilleur parti du numérique".

  • Web : c’est une source dynamique et expansive de données, couvrant les interactions en ligne, les comportements des utilisateurs et les tendances sociales. La collecte de données web peut fournir des informations clés en temps réel et à grande échelle. Il est essentiel de vérifier l'authenticité des sources web pour éviter les fausses informations.

Mais est-ce que finalement, toutes ces sources ne sont pas des bases de données ?

Techniquement, oui, toutes ces sources pourraient être vues comme alimentant in fine des "bases de données" pour l'analyse. Leur distinction repose sur la manière dont les données sont collectées, leur nature originelle et la façon dont elles sont ensuite utilisées pour l'analyse. Par exemple, les données recueillies via une enquête pourront être, dans un second temps, structurées dans une base de données.

Pour améliorer les ventes de VertiGo, quelle source je peux utiliser pour collecter des données ?  

En utilisant des outils d'analyse web, nous pouvons recueillir des données sur la manière dont les visiteurs interagissent avec le site internet. Ça inclut les pages les plus visitées, le temps passé sur chaque page et les taux de conversion pour les réservations de voyages. Ces données peuvent aider à identifier quels types de voyages attirent le plus et à quel point le processus de réservation est efficace pour convertir l'intérêt en achats réels.

Choisir les bonnes sources de données et s'assurer de leur qualité sont des étapes fondamentales pour la construction d'une étude robuste. La prochaine étape est de distinguer les types de données à collecter.

Distinguez les types de données

Il existe deux types de données que vous allez rencontrer dans ce cours, bien sûr, mais aussi lors de vos futures analyses :

Données quantitatives représentent les valeurs numériques, les éléments qui sont mesurables. Les données qualitatives sont descriptives comme du texte, un niveau de satisfaction.
Les données quantitatives et qualitatives
  • Les données quantitatives : ce sont des données numériques. Elles peuvent être utilisées pour quantifier des achats, un écart de temps en seconde, un panier, une tension en voltmètre. Pour simplifier c’est un nombre entier ou à virgule. Les données quantitatives facilitent la réalisation de comparaisons et la détection de modèles ou tendances.

  • Les données qualitatives : à l'inverse, les données qualitatives sont descriptives. Elles prennent le plus souvent la forme de mots mais ce n’est pas obligatoirement le cas. Ces données sont soit nominales (sans ordre intrinsèque) comme la couleur des yeux et d’autres sont ordinales (avec un ordre intrinsèque) comme les niveaux de satisfaction (très satisfait, satisfait…etc.). L'analyse de données qualitatives cherche à catégoriser les significations et les motivations derrière les comportements observés.

Et les dates, sont-elles des données qualitatives ou quantitatives ? 

C’est une excellente question ! Bien qu’elle puisse ressembler à une donnée quantitative de par ses caractéristiques, une date est toujours utilisée de manière qualitative. Le seul moyen d'utiliser une date de façon quantitative est de transformer la variable. Par exemple, les mois de l’année sont bien des données qualitatives mais si nous utilisons la différence entre deux dates d’achat, nous aurons une donnée en nombre de jours (et donc une donnée quantitative). Cependant, en transformant la variable, nous venons de créer une nouvelle variable (qu’on appelle “temps (j)” en général) et ce n’est donc pas la même chose que notre variable date du départ ! Pour simplifier, nous pouvons considérer une date comme une donnée qualitative. 

Toujours dans le but d’améliorer les ventes de VertiGo, sur quel type de données je peux baser mon analyse ?

Vous pouvez utiliser les données quantitatives issues des interactions des utilisateurs sur le site web comme le nombre de clics sur différents types de voyages ou le temps passé sur certaines pages. Pour ce qui est des données qualitatives, allez récolter les types de voyages, le statut marital des clients ou encore le pays de destination. Ce qui serait encore mieux, c’est de mixer les deux. Cette combinaison va vous permettre de quantifier l'engagement des utilisateurs et d'explorer les raisons sous-jacentes à cet engagement. Et tout ça, en croisant les analyses qualitatives et quantitatives. C’est une étape des tests statistiques qu’on verra plus tard.

Après avoir distingué les différents types de données à collecter, l'étape suivante consiste à sélectionner un échantillon représentatif de la population étudiée.

Échantillonnez de manière représentative

Avant de vous lancer dans un échantillonnage, il faut comprendre à quoi ça sert. On distingue deux cas d’utilisation assez fréquents pour l'échantillonnage.

  • Obtention d'un échantillon représentatif d’une large population. Imaginons qu’on souhaite connaître le niveau d’étude moyen de la population française en fonction des tranches d'âge. Pour avoir un résultat le plus objectif possible, il faudrait avoir un nombre de réponses égal à la totalité de la population en âge de répondre. Le problème, c’est que si je fais partir un questionnaire à 50 millions de personnes, rien ne m’indique que tout le monde va répondre. Certaines tranches ne vont répondre que partiellement et le résultat sera faux. Pire, nous allons devoir traiter plusieurs millions de réponses et nous allons potentiellement crouler sous la charge de travail ! Pour éviter ce genre de situations et pour faciliter notre travail, on peut faire un échantillonnage de 1500 personnes qui sera représentatif de la population française (en âge, découpage géographique, genre, etc). Ici, le défi est donc de collecter des données représentatives à grande échelle sans avoir à interroger tout le monde.

  • Réduction de la quantité des données déjà disponibles. Imaginons maintenant que nous travaillions dans la distribution. Nous souhaitons mener une étude sur les habitudes alimentaires des clients qui fréquentent nos magasins. Nous allons devoir étudier plusieurs millions de consommateurs. Ce nombre important de données va sûrement ralentir notre analyse et rendre le traitement des informations plus difficile. Pour simplifier cela, nous pouvons échantillonner nos consommateurs afin que nos échantillons soient représentatifs de notre clientèle. Ici, le défi est de gérer et analyser efficacement un grand volume de données déjà collectées.

Donc, en résumé, soit c’est trop compliqué d’obtenir l’information sur l’ensemble de la population, soit nous n’avons pas les moyens de traiter autant d’informations (et souvent…c’est les deux problèmes en même temps) !

Pour obtenir cet échantillon représentatif, nous utilisons différentes méthodes d'échantillonnage.

Diagramme montrant quatre types d'échantillonnage : aléatoire simple, systématique, stratifié et en grappes. Chacun est illustré par des groupes de personnages avec des carrés autour de certains individus, représentant les sélections.
Différents types d’échantillonnage
  • Aléatoire : chaque membre de la population a une chance égale d'être sélectionné pour l'échantillon. Cette méthode est idéale pour réduire les biais et assurer l'objectivité de la sélection. C’est également la plus rapide et la moins coûteuse en termes de ressources informatiques.

  • Stratifié : la population est divisée en strates ou groupes homogènes avant que l'échantillon ne soit tiré aléatoirement de chaque strate. Cette approche est utile pour garantir que tous les segments importants de la population sont représentés dans l'échantillon.

  • Systématique : à partir d'un point de départ aléatoire, les membres de l'échantillon sont sélectionnés à intervalles réguliers dans la liste de la population. Cette méthode simplifie le processus de sélection tout en maintenant une certaine forme de randomisation (c’est-à-dire, un mécanisme aléatoire).

  • En grappes : la population est divisée en grappes (ou “clusters” en anglais) qui sont ensuite sélectionnées. Des échantillons sont enfin prélevés au sein des grappes choisies. Tout cela est fait de façon aléatoire. C'est une méthode efficace lorsque la population est géographiquement dispersée.

Un échantillonnage représentatif assure que les conclusions tirées de l'analyse des données de l'échantillon peuvent être raisonnablement étendues à la population dans son ensemble. C’est crucial pour la validité externe de l'étude et ça permettra de prendre des décisions éclairées basées sur les résultats de l'analyse. Nous reviendrons sur cette idée dans la partie 2 du cours.

Quelle méthode d’échantillonnage est pertinente dans le cas de l’entreprise VertiGo ?

VertiGo opère dans plusieurs régions géographiques distinctes. Vous pourriez alors utiliser l'échantillonnage en grappe pour évaluer la satisfaction client. Chaque région serait considérée comme une grappe et quelques régions seraient sélectionnées aléatoirement pour l'analyse. Un échantillonnage par stratification est également discutable car la base de données VertiGo doit nécessairement contenir plusieurs segments de clientèle.

À vous de jouer

Contexte

Il est temps de continuer votre analyse dont l’objectif final est d’améliorer les ventes de VertiGo. Vous avez examiné le contexte de la collecte des données, défini vos variables et formulé une hypothèse. 

La base de données “Données clients de VertiGo” répertorie les éléments suivants sur les clients :

  • Âge

  • Genre

  • Type de voyage

  • Destination

  • Saison de voyage

  • Durée de voyage

  • Nombre de personnes

  • Prix total

  • Mode de paiement

  • Évaluation sur 5

  • Date de début du voyage

  • Date de fin du voyage

  • Période de voyage

  • Budget voyage annuel

  • Durée moyenne de voyage par an

Consignes

  1. Examinez la base de données et classez les données selon leur type : quantitatif ou qualitatif. 

  2. Afin d’en apprendre plus sur les habitudes de voyage des Français, June souhaite envoyer à la population un questionnaire. Pour ça il est crucial de réaliser un échantillonnage représentatif. Selon vous, quelle méthode d’échantillonnage serait la plus pertinente pour atteindre l’objectif ? Justifiez votre choix.

Livrable

Rédigez un rapport couvrant les deux étapes décrites ci-dessus (avec une introduction et une conclusion). 

En résumé

  • Les sources de données comprennent principalement les enquêtes, les bases de données, les capteurs et le web.

  • On distingue les données quantitatives, les données qualitatives et les données mixtes.

  • Un échantillon représentatif est sélectionné via des méthodes d'échantillonnage aléatoire, stratifié, systématique ou en grappe.

  • L'évaluation de la fiabilité et validité des sources est cruciale pour la qualité de l'analyse.

La prochaine étape vous aidera à préparer les données que vous venez de collecter.

Exemple de certificat de réussite
Exemple de certificat de réussite