• 12 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 15/12/2020

Utilisez des fonctions spécifiques à l'analyse de données

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

 Nous avons vu un certain nombre de fonctions pour importer ou exporter des jeux de données (  read.table,  writeRDS, etc.), poser des questions pour déterminer le mode d’un objet (  is.numeric,  is.na, etc.), simuler des lois (  rnorm,   rt  , etc.). Il en existe bien d’autres, mais nous allons tenter d’en lister certaines qui vous seront indispensables lors de vos analyses de données.

Fonctions pratiques pour l’analyse statistique

La première de ces fonctions est la fonction  sample  . Cette dernière permet de faire  n  tirages aléatoires (avec  n  un entier positif) au sein d’un vecteur défini, avec la possibilité de définir si le tirage est fait avec ou sans remise (via l’argument replace).

Par exemple, voici comment tirer 3 valeurs entre 1 et 10, sans remise :

sample(1:10, 3, replace=F)

Voici par exemple comment l’utiliser pour créer un dataframe complet :

set.seed(1234)
df <- data.frame(nb = sample(1:10, 100, replace = TRUE),
LT = sample(LETTERS[1:3], 100, replace = TRUE),
lt = sample(letters[1:3], 100, replace = TRUE))
df[1:10,]
# nb LT lt
# 1 2 A b
# 2 7 B b
# 3 7 A a
# 4 7 A c
# 5 9 A b
# 6 7 A c
# 7 1 A a
# 8 3 A b
# 9 7 B a
# 10 6 A c

Vous la connaissez déjà, mais la fonction suivante est celle permettant d’avoir un compte-rendu précis sur chaque variable avec différentes statistiques descriptives sur un dataframe. Il s’agit de la fonction  summary  :

summary(df)
# nb LT lt
# Min. : 1.00 A:31 a:31
# 1st Qu.: 2.75 B:36 b:38
# Median : 4.00 C:33 c:31
# Mean : 4.95
# 3rd Qu.: 7.00
# Max. :10.00

La fonction  table  permet quant à elle d’avoir :

  • la distribution d’une variable, lorsque la fonction est utilisée sur une seule variable ;

  • un tableau croisé, lorsque la fonction est utilisée sur deux variables.

Voici quelques exemples d’utilisation :

table(df$lt)
# a b c
# 31 38 31
table(df$lt,df$LT)
# A B C
# a 12 10 9
# b 9 16 13
# c 10 10 11

Il existe ensuite de nombreuses fonctions permettant de dégager des statistiques descriptives. En voici quelques-unes :

  • mean  : pour la moyenne

  • sd  : pour l’écart-type

  • var  : pour la variance

  • min  ,  max  : pour le minimum et le maximum, respectivement

  • median  : pour la médiane

Ainsi, on peut par exemple faire :

mean(df[,1])
# [1] 4.95
min(df[,1])
# [1] 1

 La dernière fonction abordée est la fonction  sort   permettant de trier une variable par ordre croissant ou décroissant (via l’argument  decreasing).

sort(df[1:20,1], decreasing=T) #tri les 20 premières valeurs par ordre décroissant
# [1] 10 9 9 7 7 7 7 7 7 6 6 3 3 3 3 3 3 2 2 1

Nous avons vu de nombreuses fonctions au sein de ce cours et il en existe encore bien d’autres ! Mais toutes ces fonctions sont disponibles de base sous R, c’est-à-dire que n’importe quel utilisateur de R aura accès à ces fonctions. Mais vous allez forcément être confronté à un moment ou à un autre au fait de devoir utiliser une fonction que vous n’avez pas à disposition. Vous pourriez bien prendre le temps de l’écrire vous-même, mais hey, il y a surement eu un tas de personnes qui ont déjà été confrontées à cette problématique. Et devinez quoi ? Il y en a certainement l’une d’elles qui l’a stockée dans un package.

Les packages dans l’analyse de données

Les packages sont omniprésents dans l’analyse de données avec R. En effet, de nombreux packages ont été créés spécifiquement pour répondre aux problématiques du domaine. Au fur et à mesure de votre parcours, vous allez être amené à :

  • manipuler vos données pour en faciliter l’analyse ;

  • réaliser différents graphiques pertinents représentant le comportement de vos données ;

  • utiliser des méthodes statistiques ;

  • faire tourner des algorithmes de machine learning plus ou moins compliqués ;

  • etc.

Et pour réaliser tout cela, il vous sera indispensable de maîtriser les différents objets et fonctions issus des packages correspondants.

En résumé

  • Il existe de nombreuses fonctions utiles qu’il est indispensable de connaître pour mener à bien une analyse statistique sur un dataframe.

  • Et il en existe bien plus encore, via l’utilisation des packages.

Exemple de certificat de réussite
Exemple de certificat de réussite