• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/01/2020

Décrivez le processus stochastique à contrôler

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Vous vous demandez sans doute sur quels modèles formels, sur quelles représentations de l'environnement s’appuie un agent afin qu’un drone autonome puisse interpréter une scène complexe et y agir de façon rationnelle.

Nous allons définir formellement le problème d'apprentissage par renforcement pour un drone autonome, en introduisant progressivement les composantes d'un PDM, à savoir : l'état, la fonction de transition et plus tard l'action.

État d'un processus de Markov

Pour rappel, la boucle d'interactions entre un agent et son environnement produit deux signaux : un signal de récompense et une observation. Si l'observation contient toutes les données sur le système (composé de l'environnement et l'agent) nécessaires et suffisantes pour décrire l'évolution future de celui-ci, alors l'observation décrit parfaitement l'état du système et nulle autre information n'est nécessaire pour son contrôle. Cette propriété est appelée observation complète de l'état. Un système doté d'une telle propriété est dit totalement observable

Un état est la totalité de l'information nécessaire et suffisante pour prédire l'évolution future d'un système. Il s'agit, plus précisément, d'une variable aléatoire dont les réalisations prennent leurs valeurs dans un ensemble quelconque. Pour y faire référence, nous adopterons les notations suivantes :

  •   st s'il s'agit d'une réalisation à l'instant t de l'état du système ;

  •   St s'il s'agit d'une variable aléatoire à l'instant t de l'état du système.

Maintenant que nous avons cerné le concept d'état d'un PDM, nous sommes maintenant prêts à comprendre les hypothèses qui dictent la dynamique de ces états. En particulier, les PDM sont munis d'une hypothèse importante appelée propriété de Markov

De la propriété de Markov, on peut déduire que si le système débute dans un certain état initial « St=s » et qu’il souhaite se rendre dans un état successeur « St+1=s », alors il est possible de définir la probabilité que cet évènement se réalise. Cette probabilité conditionnelle P(S_{t+1} = s' | S_t = s)  est appelée la probabilité de transition de l'état « s » à « s ». 

Matrice de transition d'une chaîne de Markov

Étant donné le concept de probabilité de transition d’un état à un autre, il est aisé de définir le concept de matrice de transition d’un processus de Markov, lorsque celui-ci comprend un nombre fini « n »  d’états, identifiés de façon unique par les indexes  1,2,,n. Par la suite, on note S cet ensemble fini d’états.

P11

P12

P1n

Pn1

Pn2

Pnn 

Chaque ligne d’une matrice de transition traduit la probabilité de passer d’un certain état initial à n’importe quel état successeur. Ainsi, si le processus démarre de l’état « 1 », cette matrice fourni la probabilité de passer à l’état « 1 » ou à l’état « 2 », ainsi de suite jusqu’à l’état « n ». La matrice tout entière structure les règles de transition d’un état à n’importe quel autre état du processus. La matrice induit une loi de transition, qui peut-être utilisée pour générer une séquence d’états. On note P la matrice de transition. Ce modèle permet de décrire complètement la dynamique d'un drone dans un espace d'états fini.

Comment un drone passe t-il d’un état à un autre ? 

Vous aurez noté que rien dans la définition d’un processus de Markov ne permet de commander un drone. En effet, on peut tout au plus suivre l’évolution de celui-ci au travers des états dans lesquels il passera. Le contrôle d’un processus de Markov requiert l’introduction de la notion d'actions. Nous aborderons cette question par la suite.

Actions d'un PDM

Jusqu'ici, nous avons défini une chaîne de Markov comme un modèle capable de décrire la dynamique d'un système non contrôlé. Pour permettre la commande d'un système, nous allons ajouter à une chaîne de Markov un ensemble d'actions.

 Vous aurez remarqué que la fonction de transition d'un PDM contient autant de matrices de transition qu'il y a d'actions. Cela signifie que l'état successeur St+1=s dépend de l'état courant  St=s mais aussi de l'action courante At=a à travers la probabilité conditionnelle P(s,a,s)=Pa(s|s) .  

Exemple de PDM

Grille de navigation d'un drone
Grille de navigation d'un drone

Prenons un exemple trivial afin d'illustrer un PDM. Considérons un drone déployé dans une grille 3×3. Initialement, en bas à gauche de la grille, le drone souhaite se rendre en haut à droite de celle-ci. Il dispose pour cela de 4 actions : gauche, droite, bas et haut. L'action haut réussit avec une probabilité de 0,8 et échoue en allant soit à gauche soit à droite avec probabilité 0,1. 

Quel est la séquence d'actions qui offre la probabilité d'être en haut à droite ?

  1. Si les actions sont déterministes, leurs effets sont prédictibles avec certitude, alors la séquence recherchée est celle dont le chemin, allant de la cellule en bas à gauche jusqu'à la cellule en haut à droite, est le plus court, par exemple haut, haut, gauche, gauche.

  2. Si au contraire les actions sont stochastiques, leurs effets sont tirés suivant une loi de probabilité ; alors la séquence haut, haut, gauche, gauche est peut-être l'une de celles recherchées.

Exemple de certificat de réussite
Exemple de certificat de réussite