Utilisez les projets dans RStudio
Un projet centralise les éléments de travail et facilite la compréhension et la réutilisation du code.
Lors de la création d’un projet, vous allez choisir son emplacement ainsi que certaines spécificités décrites dans la section suivante. Lors de la fermeture du projet, RStudio va vous rappeler d’enregistrer les fichiers ouverts et non enregistrés ou si votre session plante, il va automatiquement sauvegarder la dernière version disponible si possible.
Si possible, c’est-à-dire ?
Eh bien, si la session est un gros plantage, il est possible que la version sauvegardée ne prenne pas les dernières modifications en compte. D’un point de vue bonne pratique, il est conseillé de sauvegarder régulièrement comme sur n’importe quel logiciel.
Par défaut, lorsque vous commencez une nouvelle session, les fichiers disponibles à la fermeture de la session précédente seront à nouveau présents. Imaginez que vous peignez dans la salle de bains, puis pendant que la peinture sèche, vous allez finir le parquet dans la chambre. Eh bien comme par magie tous vos outils sont déjà là, pas besoin de courir chercher la scie ou le mètre, vous avez juste à vous y remettre et non à tout réinstaller.
Conseil n° 1 pour éviter les erreurs : Ne pas enregistrer les données dans un fichier .RData à la fermeture d’une session.
Par défaut, les données et l’historique des commandes sont automatiquement enregistrés. Il est déconseillé de laisser ces paramètres par défaut pour les personnes qui débutent, car vous pouvez oublier les modifications déjà réalisées sur les données.
Une bonne pratique : relancer les scripts à chaque ouverture de RStudio afin d’être sûr des modifications réalisées sur les données.
Pour changer ces paramètres, il faut dans
Tools > Global options > General > Basic > Workspace
décocher Restore .RData into workspace at startup et sélectionner Never pour Save workspace to .RData on exit.
Mais réellement, c’est quoi un projet dans RStudio ?
Un projet, c’est une manière de travailler qui va vous permettre d’écrire du code, mais pas que. En effet, un projet RStudio est globalement un dossier informatique dans lequel se trouvent des données, des scripts mais aussi de la documentation, des images et tout ce qu’il vous faut pour travailler.
Travailler sous la forme d’un projet permet d’assurer de meilleures reproductibilité, réutilisation, mais aussi transmission et portabilité du code.
Dans un projet vous allez sauvegarder les sources d’information (fichiers de données, documentation…) et les sorties de codes (image, graphiques, sortie de modèle) ensemble dans le même dossier.
Je comprends à peu près comment ça fonctionne, mais pourquoi travailler sous la forme de projet ?
Les projets permettent de rendre le code répétable, réutilisable et transmissible, car un projet :
enracine le code à l’intérieur ;
empêche les interconnections involontaires dans le code développé ;
assure un versionnage des modification avec Git.
Git ? C’est quoi ?
Git est une manière d'enregistrer les fichiers pour en assurer le suivi sans avoir à changer de nom.
Je vous montrerai au fil de ce chapitre comment l’utiliser dans RStudio, mais sachez déjà qu’il suffit de le spécifier dans Tools > Global Options > Git/SVN
pour versionner facilement avec Git dans RStudio.
Découvrez le fonctionnement sous forme de projet
L'énorme avantage d’un projet, c’est que les liens sont directement liés à la racine du projet. Donc même sur un autre ordinateur, les liens d’import et d’export ne sont pas dépendants de l’arborescence. Donc vous pouvez oublier le chemin habituel qui spécifie toute l’arborescence
read.csv(“chemin/sur/ordinateur/marie/fichier_de_donnees.csv”)
au profit d’un
read.csv(“fichier_de_donnees.csv”)
Conseil n° 2 pour éviter les erreurs : Maintenir les packages, R et Rstudio à jour.
Les packages peuvent être mis à jour dans l’onglet Packages puis en cliquant sur Update ou dans le menuTools > Check for Package Update
. À faire au moins une fois par mois.Lorsqu’une nouvelle version de R est disponible, il est conseillé de la télécharger dans un nouveau dossier à part (ce qui est fait par défaut). Il n’y a aucun problème à avoir plusieurs versions de R sur son ordinateur, il faut par contre vérifier que la bonne est bien utilisée (premier texte affiché dans la console ou
sessionInfo()
ouTools > Global Options > R general > R version
).Enfin, RStudio informe quand une nouvelle mise à jour est disponible.
Lorsqu’on travaille sous forme de projet, il n’y a pas d'interaction involontaire entre les codes de différents projets.
Difficile pour le moment de vous en rendre compte, alors réutilisons la métaphore de la maison en travaux. Lorsque vous repeignez la cuisine, cela n’influence pas les couleurs présentes dans la salle de bains. Eh bien c’est la même chose, le code développé dans un projet n'influence pas le code développé dans un autre.
De la même manière, les options d’un projet ne seront pas nécessairement les mêmes que celles des autres projets.
En plus, les codes seront sauvegardés dans des scripts Quarto qui fait la part belle au texte et permet de mieux documenter les analyses réalisées. Pas d'inquiétude, nous verrons ensemble Quarto dans le chapitre suivant.
Et si je travaille sur deux ordinateurs en même temps ?
Si vous avez besoin de changer d’ordinateur ou de transmettre votre travail, vous pouvez zipper le dossier et l’envoyer. Dans ce cas, il est fortement recommandé d’utiliser Git.
Et donc je mets tout dans le même dossier et ça fonctionne comme par magie ?
Presque ; comme pour bricoler il vaut mieux ranger les outils pour pouvoir les retrouver, vous allez donc ranger par grande catégorie. Il est conseillé d’avoir des sous-dossiers data_raw
(si nécessaire), data
, doc
et img
.
Lors de la création d’un projet, le dossier ne contient que le fichier .Rproj
, c’est le projet.
Lorsque vous êtes dans un projet, les fichiers présents dans le dossier peuvent être vus dans l’onglet Files. Il est conseillé de créer au moins 3 voire 4 sous-dossiers dans votre projet :
data
et éventuellementdata_raw
. Les données d’origine seront enregistrées dans le sous-dossierdata_raw
. Il ne faut jamais réenregistrer dessus, les données doivent être conservées telles quelles. Les données modifiées seront enregistrées dans le sous-dossierdata
.img
permet d’enregistrer au même endroit tous les graphiques ou images générés.doc
pour conserver la documentation, les rapports générés…
Pour voir l’infrastructure de votre projet, il faut que celui-ci soit bien ouvert dans RStudio. Vous pouvez le vérifier en haut à droite de votre fenêtre. Il faut aussi que vous soyez au niveau de l’onglet Files.
Pour revenir facilement au dossier projet, cliquez sur le cube bleu.
L’adresse d’un fichier s’enracine dans le projet donc par défaut, un fichier de données compris dans le répertoire data
aura pour adresse data/nom_du_fichier_de_donnees.csv
, tout simplement.
Pour enregistrer un graphique généré, vous pourrez utiliser ggsave(“img/mon_super_graphique.png”)
.
Il sera automatiquement enregistré dans le bon sous-dossier.
Créez votre premier projet
Installez une version contrôle d’un projet
La version contrôle d’un projet permet de partager facilement votre travail avec d’autres personnes ou de le changer d’ordinateur.
Dans cette section, vous allez installer la version contrôle que je vous fournis.
Cette version contrôle a déjà l’infrastructure de dossier conseillé, ainsi qu’un readme et trois scripts Quarto que vous pourrez compléter dans la seconde partie de ce cours.
Bien, maintenant que vous avez les informations sur ce que vous allez y trouver, ouvrons-le ensemble.
Pour l’ouvrir, le plus simple est de créer un nouveau projet en utilisant la version contrôle.
Sélectionnez Git puis donnez l’URL du projet dans Repository URL: :https://github.com/Vaugoyeau/projet_version_controle
.
Vous pouvez laisser le nom d’origine ou donner un nom personnalisé, comme par exemple projet_oc
.
Passez un peu de temps à l’explorer, vous pouvez ouvrir le readme par exemple ou les scripts à remplir.
Si la lecture des scripts vous paraît pour le moment obscure, c’est normal, suivez le chapitre suivant pour apprendre à lire les fichiers Quarto .qmd
.
À vous de jouer
Si vous ne l’avez pas fait dans la section précédente, créez votre premier projet et les sous-dossiers data
, doc
et img
, comme dans la vidéo de démonstration de ce chapitre.
Vous devez obtenir un projet vide sous cette forme :
Mon projet est un peu différent, j’ai un fichier similaire appelé .gitignore
, c’est normal ?
Cela signifie que vous avez choisi de versionner avec Git et c’est très bien.
Dans ce cas, n'oubliez pas de suivre les modifications en cochant les fichiers modifiés dans l’onglet Git et en faisant un commit comme montré sur la vidéo.
Conseil n° 3 pour éviter les erreurs : Apprenez à bien gérer Git avec RStudio.
Pour apprendre à gérer parfaitement Git et RStudio, je vous recommande de lire les ressources :
Utiliser Git avec RStudio du projet
{utilitR}
de l'Insee.Utiliser GIT avec R de Lino GALIANA, extrait de Travail collaboratif avec R.
L’article Travailler avec Git via RStudio et versionner son code du blog de ThinkR par Elena SALETTE.
En résumé
Les projet RStudio sont très utiles pour réutiliser et cloisonner son travail.
Git fait partie des bonnes pratiques à connaître pour versionner son code.
Les codes d’un projet n’impactent pas les codes d’un autre projet.
Lors de l’ouverture, les fichiers laissés ouverts à la fermeture s’ouvriront automatiquement.
Avec tout ce que vous avez vu, il ne vous reste plus qu'à apprendre à utiliser Quarto pour être opérationnel en RStudio !