• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/01/2020

Spécifiez les lois de contrôle, les mesures d'information, et les indicateurs de performance

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Reliez fonctions de valeur et politiques

Précédemment, nous avons défini un PDM récompensé. En bref, résoudre ce problème revient à rechercher un comportement pour l'agent — appelé politique — capable d'optimiser un critère objectif donné. 

Mais comment relier les fonctions de valeur aux politiques ?

Politiques optimales

Nous avons parlé précédemment de fonction de valeur optimale, mais résoudre un PDM récompensé consiste à déterminer une politique optimale. Pour comprendre ce que signifie une politique optimale, nous devons introduire la notion d'ordre entre politiques.

Autrement dit, quand est-ce qu'on considère qu'une politique est meilleure qu'une autre?

Pour cela, nous allons définir une relation d'ordre partielle sur l'ensemble des politiques comme suit.

De cet ordre partiel sur l'ensemble des politiques, il est possible d'établir le théorème suivant :

Nous sommes désormais prêts à extraire une politique optimale de toute fonction de valeur optimale.

Reliez V et π

Pour déterminer une fonction de valeur optimale dépendant des états, V:SR, nous disposons des équations d'optimalité de Bellman :

V(s)=maxaAsSP(s,a,s)(R(s,a,s)+αV(s)),sS.

La solution de cette équation est la fonction de valeur optimale suivant une politique optimaleπ:SA. Cette dernière est donnée par l'équation suivante :

π(s)=argmaxaA sSP(s,a,s)(R(s,a,s)+αV(s)),sS.

Vous remarquerez que la politique optimale ainsi construite est déterministe, conformément à la propriété d'existence d'une politique déterministe optimale.

Reliez Q  et π

De façon similaire à la fonction de valeur V:SR , la fonction de valeur Q:S×AR associe à toute paire état-action une valeur réelle. Cette valeur Q(s,a) correspond à la valeur maximale accumulée à long terme, lorsque l'agent part d'un certain état s , prend l'action a , puis suit les prescriptions de la politique optimale, π:SA. Les équations d'optimalité de Bellman s'écrivent comme suit :

Q(s,a)=sSP(s,a,s)(R(s,a,s)+αmaxaAQ(s,a)),sS.

En connaissance de la fonction de valeur dépendant de l'état et de l'action, Q, le PDM récompensé est résolu :

  1. Les préférences de l'agent concernant l'ensemble des actions pour chacun des états sont connues.

  2. Une politique optimale, π, induite par la fonction de valeur dépendant de l'état et de l'action est donnée par 

    π(s)=argmaxaAQ(s,a),sS.

Faites face au fléau de la dimension

Jusqu'ici nous avons considéré que nous étions toujours capable de représenter les fonctions de valeur et les politiques de façon explicite, c'est-à-dire en utilisant une représentation tabulaire, où une politique et une fonction de valeur sont des tableaux de dimension donnée par le nombre fini n d'états ou le nombre fini nm de paires état-action. À chaque état, ces tableaux associent tantôt une action pour les politiques, tantôt un réel pour les fonctions de valeur dépendant de l'état, ou une paire action-réel pour les fonctions de valeur dépendant de l'état et de l'action :

  •   V:SR

  •  Q:(S,A)R

  •  π:(S,A)[0,1] .

Mais que faire lorsque le nombre n d'états (resp. le nombre m d'actions) est beaucoup trop grand ?

Pour le contrôle d'un drone par exemple, nous devons considérer des états et actions continus. Dans ce cas, il est impossible d'utiliser une représentation tabulaire.

La solution à ce problème est l'approximation de fonctions de valeur et des politiques.

Utilisez des approximations des fonctions de valeur

En ce qui concerne l'approximation des fonctions de valeur, nous allons recourir à une représentation paramétrique, de paramètre un vecteur, ww , capable d'approcher la fonction valeur recherchée en n'importe quel état ou paire état-action :

  •   Vπ(S)ˆV(S;ww)

  •   Qπ(S,A)ˆQ(S,A;ww) .

Le vecteur de paramètres ww peut correspondre aux poids :

  • d'une architecture de réseaux de neurones profonds ;

  • d'une architecture d'approximation linéaire ;

  •  

Utilisez des approximations des politiques

De façon similaire à l'approximation des fonctions de valeur, pour les approximations des politiques nous allons utiliser une représentation paramétrique, de paramètre un vecteur, θθ , capable d'assigner une action à n'importe quel état du système :

  •  π(A|S)ˆπ(A|S;θθ) .

Encore une fois, le vecteur de paramètre θθ peut correspondre aux poids :

  • d'une architecture de réseaux de neurones profonds ;

  • d'une architecture d'approximation linéaire ;

  •  

Faites face à l'observabilité partielle

Jusqu'ici, nous avons considéré exclusivement les systèmes dits totalement observables. C'est-à-dire des systèmes où l'agent a un accès direct à l'état du système à travers ses capteurs. Or, l'accès direct à l'état d'un système n'est pas toujours possible. Dans le cadre du contrôle d'un drone autonome par exemple, les signaux de perception sont fournis par les capteurs embarqués. Malheureusement, ces capteurs sont très bruités, ce qui rend difficile l'accès à l'état du système. 

PDM partiellement observable

Un PDM muni est dit partiellement observable lorsque l'observation ne donne pas accès à l'état du système.

Interaction d'un drone muni de capteurs bruités.
Interaction d'un drone muni de capteurs bruités

État interne

Pour faire face au problème d'observabilité partielle, nous allons utiliser le concept d'état interne, noté {ςt}t0 . À la différence de l'état du système, l'état interne est la synthèse de tout historique des actions et observations passées, noté (A0:t1,Z1:t) , dont dispose l'agent pour contrôler le système jusqu'à l'instant t :

  •   ςt=ϕ(A0:t1,Z1:t;yy)

  •  ϕ est une fonction de compression avec pour paramètre le vecteur yy .

Malheureusement, l'historique croît avec le temps. L'objectif de la fonction ϕ est alors de trouver une représentation suffisamment concise de l'historique sans pour autant sacrifier trop d'information utile pour le contrôle du système. L'état interne peut également être vu comme une classe d'équivalence paramétrique, où le vecteur de paramètre yy définit la relation d'équivalence qui permet de fractionner l'espace d'historiques en clusters d'historiques, un cluster par état interne. Dans ce cas, il est possible d'apprendre le vecteur de paramètres yy capable d'associer à tout historique sa classe d'équivalence.

En connaissance de l'état interne, la politique de l'agent s'écrit comme une distribution de probabilités sur les actions possibles sachant l'état interne :

π(ς,a)=P(a|ς),ς,aA.

État interne d'un PDMPO

Lorsque nous avons accès au modèle PDMPO du système à contrôler, l'état interne peut être calculé suivant différentes méthodes d'estimation ou de filtrage :

  • filtrage Bayésien ;

  • filtrage de Kalman, cas particulier du filtrage Bayésien ;

  • filtrage à particules ;

  •  

Dans le contexte du filtrage Bayésien, l'état interne est appelé une croyance et défini comme la distribution de probabilités sur l'ensemble fini d'états conditionné par l'historique courant :

ςt+1=P(St+1|A0:t,Z1:t+1,ς0)=ηt+1sSP(St1=s|A0:t1,Z1:t,ς0)P(St,At,St+1)O(At,St+1,Zt+1)=ηt+1sSςt(s)P(s,At,St+1)O(At,St+1,Zt+1),

ς0 désigne la distribution initiale de probabilités sur l'ensemble fini d'états et le symbole ηt+1 est le facteur de normalisation associé à l'historique : 

ηt+1=sSςt(s)sSP(s,a,s)O(a,s,Zt+1).

Lorsque le nombre d'états devient trop grand, il est nécessaire d'utiliser d'autres méthodes d'estimation de l'état du système.

Nous discuterons des architectures de réseaux de neurones profonds nécessaires pour encoder les états internes du drone ainsi que les politiques et les fonctions de valeur par la suite.

Exemple de certificat de réussite
Exemple de certificat de réussite