• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/01/2020

Formalisez la prise de décision autonome par un drone

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Vous souhaitez savoir quelles sont les méthodes d'apprentissage par renforcement utiles pour le contrôle de drones ? Avant de les présenter, nous allons d'abord décrire les principales caractéristiques d'un problème d'apprentissage par renforcement.

Caractérisez l'apprentissage par renforcement

Mais qu'est-ce qui distingue l'apprentissage par renforcement des deux autres paradigmes d'apprentissage machine ?

Les quatre caractéristiques qui distinguent l'apprentissage par renforcement des autres paradigmes sont :

  • le manque de superviseurs ;

  • les effets retardés ;

  • les données non i.i.d ;

  • la sélection des données.

Pas de superviseurs !

Contrairement à l'apprentissage supervisé, en apprentissage par renforcement, il n'y a pas de superviseur — c'est-à-dire toute autorité capable de valider ou invalider, à chaque instant, toute  décision de l'intelligence artificielle (on parlera également d'agent). Seules deux informations sont accessibles au terme de l'exécution d'une décision :

  • un signal de récompense, indiquant l'intérêt instantané de la décision prise ;

  • un signal d'observation sur l'environnement (nous y reviendrons plus tard).

Le signal de récompense n'est malheureusement pas suffisamment informatif pour servir de superviseur, car les effets d'une décision sont souvent retardés.

Effets retardés !

Une autre des caractéristiques de l'apprentissage par renforcement est le délai, parfois considérable, qui existe entre l'instant de prise de décision et l'instant auquel on perçoit l'effet définitif de cette décision. On parle souvent d'effets retardés. Dans le pire des cas, l'effet n'est perceptible qu'au terme du processus de prise de décision.

Dans le cadre du jeu d'échec par exemple, les conséquences d'un coup ne se mesurent complètement qu'à l'aune du statut du jeu au terme de la partie. Dans certains cas, le signal de récompense immédiat à l'issue d'une décision est positif ou neutre, tandis que les effets à terme sont négatifs, et vice versa.

Données non i.i.d.

L'apprentissage par renforcement est un problème de prise de décisions séquentielles. À chaque instant, notre drone devra prendre une décision, de laquelle découlera une récompense immédiate, puis une autre décision suivie d'une autre récompense immédiate et ainsi de suite jusqu'à la fin du processus.

Données choisies !

C'est peut-être la caractéristique la plus importante de l'apprentissage par renforcement, à savoir la capacité de prendre des décisions qui auront par la suite un effet sur les données de l'apprentissage. Notre drone peut ainsi influencer les données d'apprentissage en prenant une décision plutôt qu'une autre.

Par la suite, nous allons voir les principales composantes d'un algorithme d'apprentissage par renforcement.

Définissez les signaux de récompense

L'une des plus importantes quantités en apprentissage par renforcement est le concept de récompense

Vous vous demandez probablement ce que signifie ce concept. Quel rôle joue-t-il véritablement dans un processus d'apprentissage par renforcement ?

 Un signal de récompense est tout simplement un nombre réel. Il s'agit, plus précisément, d'une variable aléatoire dont les réalisations prennent leurs valeurs dans l'ensemble des réels. Pour y faire référence, nous adopterons les notations suivantes :

  •  rt s'il s'agit d'une réalisation à l'instant t du signal de récompense ;

  •  Rt s'il s'agit d'une variable aléatoire à l'instant t du signal de récompense.

Ces quantités définissent combien est apprécié la décision prise à l'instant t.

L'objectif d'un agent en phase d'apprentissage par renforcement est alors de rechercher un comportement capable de cumuler le maximum de ces récompenses. Une question reste cependant ouverte :

Est-il possible de définir tout problème de prise de décision séquentielle selon l'objectif de l'agent tel que nous venons de le décrire ? Autrement dit, est-il toujours possible de décrire les objectifs considérés dans le cadre de l'apprentissage par renforcement en fonction des signaux de récompense et de la maximisation de leur cumul ?

Dans le cadre du contrôle de drone, par exemple, les signaux de récompense peuvent prendre diverses formes :

  1. un réel positif (récompense), si le drone reste assez proche de la trajectoire désirée ;

  2. un réel négatif (pénalité), si le drone vient à crasher.

Nous avons désormais une bonne compréhension du concept de récompense. Prochainement, nous verrons comment ce concept est mobilisé lors de l'apprentissage par renforcement.

Définissez un processus d'apprentissage par renforcement

Nous sommes désormais prêts à définir le schéma d'interaction entre notre intelligence artificielle (on parlera également d'agent) et son environnement, permettant à terme un apprentissage d'un comportement rationnel. Dans le cadre du contrôle d'un drone, l'idée de l'apprentissage par renforcement est de concevoir un agent implanté au sein de notre drone et dictant à ce dernier les décisions rationnelles à prendre dans chacune des situations rencontrées.

À chaque instant, ces décisions seront prises selon les informations disponibles sur l'environnement : le signal de perception sur l'environnement et le signal de récompense. En intégrant l'environnement dans notre schéma, il apparaît que nous avons décrit une boucle d'interaction entre, d'une part, l'agent et, d'autre part, l'environnement dans lequel évolue l'agent.

Processus de génération des données d'apprentissage.
Processus de génération des données d'apprentissage

Ainsi, à chaque instant, l'agent exécute une décision, laquelle influence les informations (signaux de perception et de récompense) transmises à l'agent par le biais de l'environnement. Ce processus se répète encore et encore. Cette boucle d'interactions définit une série temporelle, composée de :

  • décisions (ou actions), notées At ;

  • signaux de perception (ou observations), notées Zt ;

  • signaux de récompense (ou récompense), notées Rt .

C'est cette série qui engendre nos données d'apprentissage. Par la suite, nous allons définir de façon plus rigoureuse le problème qui sous-tend ce processus.

Exemple de certificat de réussite
Exemple de certificat de réussite