Nous avons vu un certain nombre de fonctions pour importer ou exporter des jeux de données ( read.table
, writeRDS
, etc.), poser des questions pour déterminer le mode d’un objet ( is.numeric
, is.na
, etc.), simuler des lois ( rnorm
, rt
, etc.). Il en existe bien d’autres, mais nous allons tenter d’en lister certaines qui vous seront indispensables lors de vos analyses de données.
Fonctions pratiques pour l’analyse statistique
La première de ces fonctions est la fonction sample
. Cette dernière permet de faire n
tirages aléatoires (avec n
un entier positif) au sein d’un vecteur défini, avec la possibilité de définir si le tirage est fait avec ou sans remise (via l’argument replace
).
Par exemple, voici comment tirer 3 valeurs entre 1 et 10, sans remise :
sample(1:10, 3, replace=F)
Voici par exemple comment l’utiliser pour créer un dataframe complet :
set.seed(1234)
df <- data.frame(nb = sample(1:10, 100, replace = TRUE),
LT = sample(LETTERS[1:3], 100, replace = TRUE),
lt = sample(letters[1:3], 100, replace = TRUE))
df[1:10,]
# nb LT lt
# 1 2 A b
# 2 7 B b
# 3 7 A a
# 4 7 A c
# 5 9 A b
# 6 7 A c
# 7 1 A a
# 8 3 A b
# 9 7 B a
# 10 6 A c
Vous la connaissez déjà, mais la fonction suivante est celle permettant d’avoir un compte-rendu précis sur chaque variable avec différentes statistiques descriptives sur un dataframe. Il s’agit de la fonction summary
:
summary(df)
# nb LT lt
# Min. : 1.00 A:31 a:31
# 1st Qu.: 2.75 B:36 b:38
# Median : 4.00 C:33 c:31
# Mean : 4.95
# 3rd Qu.: 7.00
# Max. :10.00
La fonction table
permet quant à elle d’avoir :
la distribution d’une variable, lorsque la fonction est utilisée sur une seule variable ;
un tableau croisé, lorsque la fonction est utilisée sur deux variables.
Voici quelques exemples d’utilisation :
table(df$lt)
# a b c
# 31 38 31
table(df$lt,df$LT)
# A B C
# a 12 10 9
# b 9 16 13
# c 10 10 11
Il existe ensuite de nombreuses fonctions permettant de dégager des statistiques descriptives. En voici quelques-unes :
mean
: pour la moyennesd
: pour l’écart-typevar
: pour la variancemin
,max
: pour le minimum et le maximum, respectivementmedian
: pour la médiane
Ainsi, on peut par exemple faire :
mean(df[,1])
# [1] 4.95
min(df[,1])
# [1] 1
La dernière fonction abordée est la fonction sort
permettant de trier une variable par ordre croissant ou décroissant (via l’argument decreasing
).
sort(df[1:20,1], decreasing=T) #tri les 20 premières valeurs par ordre décroissant
# [1] 10 9 9 7 7 7 7 7 7 6 6 3 3 3 3 3 3 2 2 1
Nous avons vu de nombreuses fonctions au sein de ce cours et il en existe encore bien d’autres ! Mais toutes ces fonctions sont disponibles de base sous R, c’est-à-dire que n’importe quel utilisateur de R aura accès à ces fonctions. Mais vous allez forcément être confronté à un moment ou à un autre au fait de devoir utiliser une fonction que vous n’avez pas à disposition. Vous pourriez bien prendre le temps de l’écrire vous-même, mais hey, il y a surement eu un tas de personnes qui ont déjà été confrontées à cette problématique. Et devinez quoi ? Il y en a certainement l’une d’elles qui l’a stockée dans un package.
Les packages dans l’analyse de données
Les packages sont omniprésents dans l’analyse de données avec R. En effet, de nombreux packages ont été créés spécifiquement pour répondre aux problématiques du domaine. Au fur et à mesure de votre parcours, vous allez être amené à :
manipuler vos données pour en faciliter l’analyse ;
réaliser différents graphiques pertinents représentant le comportement de vos données ;
utiliser des méthodes statistiques ;
faire tourner des algorithmes de machine learning plus ou moins compliqués ;
etc.
Et pour réaliser tout cela, il vous sera indispensable de maîtriser les différents objets et fonctions issus des packages correspondants.
En résumé
Il existe de nombreuses fonctions utiles qu’il est indispensable de connaître pour mener à bien une analyse statistique sur un dataframe.
Et il en existe bien plus encore, via l’utilisation des packages.