• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/01/2020

Déployez votre premier algorithme d'apprentissage via Gym

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Dans ce chapitre, nous allons voir comment implémenter sous Python3 votre premier algorithme d'apprentissage par renforcement et le tester sous Gym.

Accédez à l'environnement CartPole-v1

Afin d'accéder à l'environnement choisi pour tester votre premier algorithme, procédez comme suit :

  1. accéder à https://gym.openai.com 

  2. cliquer sur l'onglet « environments »

  3. identifier l'environnement CartPole

Par la suite, nous présentons un code minimal, permettant de simuler un processus d’apprentissage sur l'environnement CartPole. Nous allons détailler ce code.

Décrivez les principales étapes du code minimal

(ouvrez un éditeur de texte ou via un terminal pour éditer tout en expliquant le code minimal)

Munissez-vous d'un éditeur de texte et procédez comme suit :

  1.  D’abord, il nous faut ouvrir un nouveau document, que nous appellerons exemple.py .

  2.  Ensuite, il nous faut importer la plateforme de test Gym, via la commande « import gym ».

  3.  Puis, importez l’environnement de votre choix, par exemple « CartPole-v0 », via la commande « env = gym.make(‘CortPole-v0’) ».

  4. Notez que le code d’interaction avec cet environnement doit être précédé de la réinitialisation de l’environnement de test, via « env.reset() »), et terminer par la fermeture de cet environnement, via « env.close() ». 

L’interaction avec cet environnement peut être guidé par un algorithme d’apprentissage par renforcement ou un algorithme complètement aléatoire. Considérons d’abord l’algorithme aléatoire, dans lequel les actions seront tirées aléatoirement sur une période de 1000 pas de décisions — voir les lignes 4 à 6 du code suivant :

Code minimal d'un algorithme
Code minimal d'un algorithme d'apprentissage par renforcement

Vous pouvez visualiser le rendu de ce code minimal en cliquant ici.

Lancez l’exécution de votre code minimal

Pour illustrer le fonctionnement de votre code minimal, il vous reste à lancer son exécution. Et voilà le travail, on observe que le pendule exécute des actions aléatoirement, ce qui n’est pas idéal pour le maintien du pendule à une position stable !

Par la suite, nous allons remplacer notre algorithme aléatoire par un algorithme d’apprentissage par renforcement.

Exemple de certificat de réussite
Exemple de certificat de réussite