• 12 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/11/2023

Utilisez les dataframes

Les dataframes sont des listes particulières dont les composantes sont de même longueur, mais les modes peuvent être différents. C’est d’ailleurs l’objet privilégié en analyse statistique : en effet, un tableau de données est constitué de variables quantitatives et/ou qualitatives mesurées sur les mêmes individus.

Création de dataframe

Les principales manières de créer un dataframe consistent à utiliser les fonctions :

  • data.frame  qui permet de concaténer des vecteurs de même taille et éventuellement de modes différents ;

  • read.table  qui permet d’importer un tableau de données provenant d’un fichier externe (csv, txt, etc.)

  • as.data.frame  pour la conversion explicite d’un objet à deux dimensions (comme une matrice).

Considérons les deux vecteurs  x  et  y  suivants :

x <- c("A","B","C","A")
y <- 1:4

On peut utiliser ces derniers pour créer un dataframe assemblant ces deux vecteurs :

mondf <- data.frame(x,y)
mondf
# x y
# 1 A 1
# 2 B 2
# 3 C 3
# 4 A 4
length(mondf)
# [1] 2
attributes(mondf)
# $names
# [1] "x" "y"
#
# $row.names
# [1] 1 2 3 4
#
# $class
# [1] "data.frame"

Il est possible de transformer une matrice en dataframe en utilisant la fonction  as.data.frame. Il est aussi possible de faire le contraire en utilisant la fonction  data.matrix.

Visualisation d’un dataframe

La fonction  str  permet d’avoir un résumé rapide de chaque colonne du dataframe, de son type, etc. :

str(mondf)
# 'data.frame': 4 obs. of 2 variables:
# $ x: Factor w/ 3 levels "A","B","C": 1 2 3 1
# $ y: int 1 2 3 4

Vous pouvez également avoir une visualisation un peu plus agréable de votre dataframe via la commande  View  :

View(mondf)
Visualisation d'un dataframe par la fonction View
Visualisation d’un dataframe par la fonction View

Cette visualisation permet également d’effectuer plusieurs opérations rapides sur le dataframe (qui n’impactent néanmoins pas le dataframe initial, elles modifient juste l’affichage de ce dernier dans la fenêtre  View  ) comme :

  • trier le dataframe selon une colonne définie ;

  • filtrer les valeurs d’une colonne définie.

En résumé

  • Vous pouvez créer un dataframe à partir d’un objet à deux dimensions déjà existant (comme une matrice) ou via l’importation d’un fichier externe (csv, txt, etc.).

  • Il est possible d’afficher un dataframe dans une fenêtre externe, pour faciliter sa visualisation.

Félicitation ! Vous connaissez à présent tous les objets natifs de R qui sont indispensables à l'analyse statistique. Nous allons voir à présent comment sélectionner concrètement au sein de ces objets dans la prochaine partie.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite