• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 16/04/2024

Comprenez l’utilité d’une analyse descriptive

Félicitations, vous avez un jeu de données sans valeurs manquantes !

L’absence de données n’est pas la seule erreur que l’on peut trouver. Vous avez en effet déjà détecté qu’il manquait 16 710 lignes entre l’attendu – 101 départements mesurés tous les jours pendant 6 ans (221 190) – et l’observé (204 480). C’est l’analyse descriptive qui va vous permettre de comprendre quelles sont les lignes manquantes et pourquoi, mais aussi de vérifier qu’il n’y a pas d’autres erreurs telles que des fautes de frappe ou des valeurs erronées.

Définissez l’analyse descriptive

Avant de se lancer à partager les résultats, il faut commencer par vérifier qu’il n’y a pas d’erreur dans le jeu de données. Les erreurs peuvent être de différentes formes :

  • une donnée manquante ;

  • une donnée erronée : faute de frappe, mauvaise mesure… ;

  • une donnée non cohérente liée à un individu différent du reste de l’échantillon.

Pour pouvoir détecter les différences, il est nécessaire de réaliser une analyse descriptive complète, variable par variable puis en bivarié. En effet, l’analyse descriptive permet de détailler les caractéristiques des données grâce à des statistiques adaptées. Ces statistiques ne permettent pas de généraliser les observations à la population entière comme pourraient le faire les statistiques inférentielles liées aux lois de probabilité, ou de réaliser des prédictions comme avec les statistiques prédictives. Par contre, les statistiques descriptives sont indispensables pour comprendre la nature des données et détecter les valeurs ou modalités extrêmes.

Afin de vous permettre de mieux aborder les statistiques, voici quelques définitions qui vous seront utiles. Vous pourrez les retrouver dans le glossaire de fin de cours.

Afin de bien mener votre analyse descriptive, il est conseillé de commencer dès maintenant un nouveau document  Quarto  enrichi au fil des parties.

Commencez votre script d’analyse descriptive

Vous avez remplacé les données manquantes et enregistré les informations dans un nouveau fichier. C’est celui que vous allez appeler pour réaliser l’analyse descriptive dans un nouveau script.

Si besoin vous trouverez une version corrigée dans le "À vous de jouer".

Votre document  Quarto  doit vous permettre d’avoir un travail reproductible, répétable et réutilisable. Il faut donc penser à lui donner une architecture cohérente avec une partie d’import des packages puis l’import des données.

Pour importer les données sous la bonne forme, vous pouvez utiliser la fonction  read_delim()  du package  {readr}  , qui permet de lister le format de chaque variable via l’argument  col_types  .

donnees_temperature <- read_csv(
"donnees_temperature_completees.csv",
col_types = c("ffDnnnfnffnfn")
)

Que faire si le code ne fonctionne pas de mon côté ?

Si c’est le cas, lisez bien l’erreur renvoyée par RStudio, qui vous mettra sur la bonne piste. Parmi les erreurs courantes il y a :

  • impossible de trouver la fonction "read_csv"`  : Il faut penser à charger le package  {tidyverse}  dans l’environnement avec la fonction  library(tidyverse)  ;

  • does not exist in current working directory  qui peut être lié à plusieurs oublis : 

    • Il faut travailler sous forme de projet dans RStudio.

    • Le fichier de données doit être enregistré dans le dossier du projet.

    • Il faut faire attention à ne pas faire d’erreur dans le nom du fichier.

Une fois votre fichier chargé dans l’environnement, vous allez pouvoir vous attaquer à l’analyse univariée de vos données.

Anticipez les étapes de votre analyse descriptive

Vous êtes à la porte d’une grande aventure de manipulation et visualisation des données. Votre script  Quarto  est là pour vous accompagner, n’hésitez donc pas à prévoir dès maintenant les différentes actions à réaliser.

Vous savez que vous allez commencer par décrire une à une les variables en fonction de leur nature : variable quantitative, qualitative, temporelle ou spatiale.

Votre script peut donc prendre dès à présent cette structure :

---
title: "Analyse descriptive univariée"
author: "Marie Vaugoyeau"
date: "2024/01/21"
format:
pdf:
toc: true
toc-depth: 2
number-sections: true
editor: visual
---
 
# introduction
## import des packages
```{r}
library(tidyverse)
library(sf)
library(leaflet)

```
 
## import des données
```{r}
 
donnees_temperature <- read_csv(
"donnees_temperature_completees.csv",
col_types = c("ffDnnnfnffnfn")
)
 
summary(donnees_temperature)
```
 
# analyse descriptive univariée

## variables quantitatives
 
## variables qualitatives
 
## variables temporelles
 
## variables spatiales

À vous de jouer

Contexte

Le blueprint pour l’analyse de données a été validé par votre cheffe Camille et vos collègues Anna, Cara et Antoine. Vous avez créé votre premier script  Quarto  dans RStudio pour importer vos données et remplacer les valeurs manquantes.

Consignes

Camille vous demande de lui fournir un support contenant les analyses que vous allez réaliser, en intégrant les imports des packages nécessaires ainsi que des données.

En résumé

  • Il existe plusieurs types de statistiques, mais seules les statistiques descriptives seront vues dans ce cours.

  • Les statistiques descriptives sont très importantes pour détailler les variables et sont souvent négligées car sous-estimées.

  • Le type de données influence les statistiques à utiliser.

  • Il existe quatres types de données : 

    • Les données quantitatives.

    • Les données qualitatives.

    • Les données temporelles.

    • Les données spatiales.

Pas d’inquiétude, je vais vous accompagner à chaque étape !

Exemple de certificat de réussite
Exemple de certificat de réussite