Poly

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 113

Promotion X2017

Année 2
MAP434

Contrôle de modèles dynamiques

Alexandre Ern

version du 28 mai 2019

Édition 2019
Table des matières

Avant-propos iii

1 Contrôlabilité des systèmes linéaires 1


1.1 Systèmes de contrôle linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cas sans contraintes : critère de Kalman . . . . . . . . . . . . . . . . . . . . . 3
1.3 Cas avec contraintes : ensemble atteignable . . . . . . . . . . . . . . . . . . . . 8

2 Contrôlabilité des systèmes non-linéaires 13


2.1 Théorème de Cauchy–Lipschitz . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Ensemble atteignable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Contrôlabilité locale des systèmes non-linéaires . . . . . . . . . . . . . . . . . . 19
2.4 Rappels/compléments : topologie faible, différentielle, sélection mesurable . . . 22

3 Optimisation dans les espaces de Hilbert 27


3.1 Contrôle optimal sous critère quadratique . . . . . . . . . . . . . . . . . . . . . 27
3.2 Minimisation de fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Exemple : temps-optimalité (cas linéaire) . . . . . . . . . . . . . . . . . . . . . 37

4 Le système linéaire-quadratique (LQ) 43


4.1 Présentation du système LQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Différentielle du critère : état adjoint . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Principe du minimum : Hamiltonien . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Équation de Riccati : feedback . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Principe du minimum de Pontryaguine (PMP) 55


5.1 Systèmes de contrôle non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 PMP : énoncé et commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Application au système LQ avec contraintes . . . . . . . . . . . . . . . . . . . 61
5.4 Exemple non-linéaire : ruche d’abeilles . . . . . . . . . . . . . . . . . . . . . . 64

6 PMP : preuve, extensions, application 69


6.1 PMP : esquisse de preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Extensions du PMP : atteinte de cible . . . . . . . . . . . . . . . . . . . . . . 73
6.3 Application : problème de Zermelo . . . . . . . . . . . . . . . . . . . . . . . . 76

i
Table des matières

6.4 Résolution numérique : méthode de tir . . . . . . . . . . . . . . . . . . . . . . 80

7 Programmation dynamique en temps discret 81


7.1 Contrôle optimal en temps discret . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Fonction valeur et programmation dynamique . . . . . . . . . . . . . . . . . . 83
7.3 Application : système LQ en temps discret . . . . . . . . . . . . . . . . . . . . 84
7.4 Optimisation combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

8 Équation de Hamilton–Jacobi–Bellman (HJB) 91


8.1 Fonction valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.2 Application au système LQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.3 Bilan : PMP ou HJB ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

A Stabilité des systèmes dynamiques 99


A.1 Notions de stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.2 Fonction de Lyapunov et principe d’invariance de LaSalle . . . . . . . . . . . . 101
A.3 Stabilisation par retour d’état . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Bibliographie 107

ii
Avant-propos

Ce cours est consacré à l’étude des systèmes commandés, c’est-à-dire des systèmes dyna-
miques sur lesquels on peut agir au moyen d’une commande ou d’un contrôle. Un premier
objectif peut être d’amener le système d’un état initial donné à un état final (une cible), en
respectant éventuellement certaines contraintes (par exemple, la valeur du contrôle ne peut
être trop grande ou bien l’état du système doit respecter certaines contraintes). Il s’agit du
problème de la contrôlabilité. Un deuxième objectif peut être celui de déterminer un contrôle
optimal, c’est-à-dire minimisant un certain critère dépendant du contrôle et de la trajectoire
résultant de ce contrôle. Il s’agit du problème de contrôle optimal. Nous aborderons ces deux
problèmes dans ce cours. Le champ d’applications est très vaste. On rencontre des problèmes
de contrôlabilité et de contrôle optimal dans des domaines très variés, comme l’aéronautique,
l’électronique, le génie des procédés, la médecine, l’économie et la finance, internet et les
communications, etc.
Ce cours se plaçant à un niveau introductif, nous nous restreindrons pour simplifier à
des systèmes dynamiques dont l’état peut être décrit par un nombre fini de variables. De
plus, nous considérerons uniquement des systèmes dépendant du temps et non pas du temps
et de l’espace ; en d’autres termes, nous considérerons uniquement le contrôle de systèmes
différentiels et non pas d’équations aux dérivées partielles. L’horizon temporel pourra être
fixé ou non, mais il sera toujours fini. Un exemple important où cet horizon n’est pas fixé
est celui de la temps-optimalité consistant à chercher un contrôle permettant d’atteindre une
cible (atteignable) en temps minimum. Enfin, nous considérerons uniquement des systèmes
déterministes et n’aborderons pas ici le cas (très important en pratique) des systèmes sto-
chastiques comme les systèmes avec bruit.
Afin de fixer les idées, donnons un exemple simple de système de contrôle, celui du contrôle
d’un aspirateur robot. On note t ∈ [0,T ] le temps où T > 0 est l’horizon temporel fixé. L’état
du système est décrit par le triplet (x, y, θ) : [0,T ] → R3 . Le couple (x, y) repère la position
de l’aspirateur dans le plan et θ l’angle des roues par rapport à l’axe des x. L’action sur le
système s’exerce par le biais d’une fonction u : [0,T ] → R qui prescrit la vitesse angulaire de
l’axe des roues. La dynamique du système est régie par le système différentiel suivant (qu’on
appelle système de Dubbins) :

ẋ(t) = v cos(θ(t)),

ẏ(t) = v sin(θ(t)),

θ̇(t) = u(t), ← action sur le système

iii
Avant-propos

où v est la vitesse de l’aspirateur, supposée constante pour simplifier. De manière plus générale,
nous considérerons des systèmes de contrôle sous la forme

ẋ(t) = f (t, x(t), u(t)), ∀t ∈ [0,T ],

où la fonction x : [0,T ] → Rd , d ≥ 1, décrit l’état du système, u : [0,T ] → Rk , k ≥ 1, est


le contrôle, et f : [0,T ] × Rd × Rk → Rd décrit la dynamique du système. En général, une
condition initiale x(0) = x0 ∈ Rd est également prescrite.
Ce cours est organisé en trois parties. La première, composée des chapitres 1 et 2, aborde le
problème de la contrôlabilité. Le résultat phare est le critère de Kalman sur la contrôlabilité
des systèmes linéaires autonomes et son extension à la contrôlabilité locale des systèmes non-
linéaires. La deuxième partie, composée des chapitres 3 à 6, aborde le problème du contrôle
optimal par le biais du principe du minimum de Pontryaguine (PMP). Dans les cha-
pitres 3 et 4, nous commencerons par l’étude du système linéaire-quadratique (dit système
LQ) qui consiste à minimiser un critère quadratique pour un système de contrôle linéaire. Le
système LQ étant particulièrement simple, il nous sera possible de mener une analyse complète
du problème. Celle-ci repose sur diverses idées importantes, comme la notion d’état adjoint,
de Hamiltonien et de feedback grâce à l’équation de Riccati. Puis, dans les chapitres 5 et 6,
nous aborderons le cas général du contrôle optimal de systèmes non-linéaires ; nous énoncerons
le PMP, en esquisserons la preuve et en donnerons quelques exemples d’applications. Enfin,
la troisième partie, composée des chapitres 7 et 8, est toujours consacrée aux problèmes de
contrôle optimal, mais propose de les aborder sous un angle nouveau : celui de la programma-
tion dynamique, d’abord en temps discret puis en temps continu. L’idée fondamentale est le
principe d’optimalité de Bellman, conduisant à l’équation de Hamilton–Jacobi–Bellman.
Ce cours a été initié en 2014 par Pierre-Louis Lions [8], et la version actuelle du cours,
même si elle a fait intégralement l’objet d’une nouvelle rédaction, lui doit énormément, tant sur
le choix du périmètre conceptuel que sur l’exposition des principales notions mathématiques.
Toutefois, la trame actuelle du cours a été revue, surtout pour les premiers chapitres, afin d’une
part de faire émerger une première partie sur la contrôlabilité des systèmes linéaires et non-
linéaires et d’autre part d’entrelacer la revue des principaux résultats sur l’optimisation dans
les espaces de Hilbert (qui est aride mais incontournable !) avec l’étude du système LQ. En
outre, plusieurs exemples ont été ajoutés pour illustrer le PMP, tout en insistant un peu moins
sur certaines preuves. Par ailleurs, le contenu de ce cours s’est également inspiré, avec grand
profit, du cours d’Emmanuel Trélat sur le contrôle optimal dispensé à l’Université Pierre et
Marie Curie, et on ne saurait trop recommander la lecture de l’ouvrage [11] (rédigé en français).
Le lecteur désireux d’aller encore plus loin pourra par exemple consulter des ouvrages plus
spécialisés et exhaustifs (en anglais) comme ceux de Aubin [1], Bardi et Capuzzo-Dolcetta [2],
Fletcher [4], Isidori [6], Lee et Markus [7], Rockafellar et Wets [9], Sontag [10] ou Vinter [12].

Alexandre Ern
Paris, janvier 2019

iv
Chapitre 1

Contrôlabilité des systèmes linéaires

Ce chapitre est consacré à la contrôlabilité des systèmes linéaires. Le principal résultat est
le critère de Kalman qui fournit une condition nécessaire et suffisante pour la contrôlabilité
d’un système linéaire autonome. De manière tout à fait remarquable, ce critère se formule
de manière purement algébrique, et la condition à vérifier est indépendante de la condition
initiale et de l’horizon temporel. Dans un deuxième temps, nous considérons des systèmes de
contrôle linéaires avec des bornes sur le contrôle. Cela nous conduit à introduire la notion
importante d’ensemble atteignable.

1.1 Systèmes de contrôle linéaires


Soit T > 0 un horizon temporel fixé. On considère un système dynamique dont l’état
x(t) ∈ Rd pour tout t ∈ [0,T ] est régi par le système différentiel

ẋ(t) = Ax(t) + Bu(t), ∀t ∈ [0,T ], x(0) = x0 ∈ Rd , (1.1)

avec des matrices A ∈ Rd×d , B ∈ Rd×k , où d ≥ 1 et k ≥ 1. La fonction temporelle

u : [0,T ] → Rk (1.2)

nous permet d’agir sur le système afin d’en modifier l’état. On dit que u est le contrôle. Une
fois le contrôle u fixé, (1.1) est un problème de Cauchy. Afin d’expliciter le fait que la
trajectoire x, solution de (1.1), dépend du contrôle u, nous la noterons souvent xu , et nous
écrirons (1.1) sous la forme

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ [0,T ], xu (0) = x0 ∈ Rd . (1.3)

Par la suite, nous supposerons que

u ∈ L1 ([0,T ]; Rk ), (1.4)

et nous serons parfois amenés à faire des hypothèses un peu plus fortes sur le contrôle, comme
par exemple que u prend ses valeurs dans un sous-ensemble fermé non-vide de Rk , ce que

1
Chapitre 1. Contrôlabilité des systèmes linéaires

nous noterons u ∈ L1 ([0,T ]; U ) ; nous ferons parfois des hypothèses d’intégrabilité plus forte
en temps, comme par exemple L2 ([0,T ]; U ) ou L∞ ([0,T ]; U ). Rappelons à toutes fins utiles que
l’espace L1 ([0,T ]; Rk ) est équipé de la norme
Z T
kukL1 ([0,T ];Rk ) = |u(s)|Rk ds, (1.5)
0

où |·|Rk désigne la norme euclidienne sur Rk . (On peut remplacer la norme euclidienne par toute
autre norme sur Rk .) Dans ce cours, on utilisera la notation † pour désigner la transposition
des vecteurs ou des matrices ; on écrira donc x† y pour le produit scalaire entre deux vecteurs
et Z † pour la transposée de la matrice Z.

Définition 1.1 (Systèmes de contrôle linéaires). On dit que (1.3) est un système de contrôle
linéaire. On dit que ce système est autonome (ou stationnaire) lorsque les matrices A et
B ne dépendent pas du temps. Plus généralement, on dit que le système de contrôle linéaire
est instationnaire lorsqu’il s’écrit sous la forme

ẋu (t) = A(t)xu (t) + B(t)u(t), ∀t ∈ [0,T ], xu (0) = x0 , (1.6)

avec A ∈ L1 ([0,T ]; Rd×d ) et B ∈ L1 ([0,T ]; Rd×k ). Enfin, on dit que le système de contrôle
linéaire a un terme de dérive lorsqu’il s’écrit sous la forme

ẋu (t) = Axu (t) + Bu(t) + f (t), ∀t ∈ [0,T ], xu (0) = x0 , (1.7)

avec f ∈ L1 ([0,T ]; Rd ), les matrices A et B pouvant ou non dépendre du temps.

Dans cette section, nous allons considérer le système de contrôle linéaire autonome (1.1).
La première question à se poser est si, pour tout contrôle u ∈ L1 ([0,T ]; Rk ) fixé, il existe une
unique trajectoire x : [0,T ] → Rd associée à ce contrôle, solution du problème de Cauchy (1.1).
Comme le contrôle u n’est a priori pas une fonction continue du temps, on ne peut pas chercher
une trajectoire de classe C 1 ([0,T ]; Rd ). Un bon cadre fonctionnel pour la trajectoire est celui
des fonctions absolument continues sur [0,T ], dont on rappelle la définition.

Définition 1.2 (Fonction absolument continue). On dit qu’une fonction F : [0,T ] → Rd est
absolument continue sur [0,T ] et on écrit F ∈ AC([0,T ]; Rd ) s’il existe f ∈ L1 ([0,T ]; Rd ) telle
que
Z t
F (t) − F (0) = f (s) ds, ∀t ∈ [0,T ]. (1.8)
0

Si une fonction F est absolument continue sur [0,T ], alors elle est continue sur [0,T ] et elle
est dérivable presque partout, de dérivée égale à f .

Proposition 1.3 (Formule de Duhamel). Pour tout contrôle u ∈ L1 ([0,T ]; Rk ), il existe une
unique trajectoire
xu ∈ AC([0,T ]; Rd ) (1.9)

2
1.2 Cas sans contraintes : critère de Kalman

solution de (1.1) au sens où cette trajectoire vérifie la condition initiale xu (0) = 0 et le système
différentiel ẋu (t) = Axu (t)+Bu(t) presque partout (p.p.) sur [0,T ]. Cette trajectoire est donnée
par la formule de Duhamel
Z t
tA
xu (t) = e x0 + e(t−s)A Bu(s) ds, ∀t ∈ [0,T ]. (1.10)
0

On notera que cette expression a bien un sens pour u ∈ L1 ([0,T ]; Rk ) car la fonction s 7→ e(t−s)A
est bornée sur [0,T ].

Remarque 1.4. [Exponentielle de matrice] On rappelle que eA = n≥0 n!1 An , dtd etA = AetA =
P

etA A, et que si A1 , A2 commutent (A1 A2 − A2 A1 = 0), alors eA1 eA2 = eA2 eA1 = eA1 +A2 .

Remarque 1.5. [Fonction dérivable presque partout] Attention, si une fonction F : [0,T ] → R
est continue sur [0,T ] et dérivable p.p. sur [0,T ], elle peut ne pas être égale à l’intégrale de
sa dérivée (même si celle-ci est L1 ). Un contre-exemple est fourni par l’escalier de Cantor (ou
escalier du diable) illustré à la figure 1.1 ; cette fonction n’est donc pas absolument continue.

Figure 1.1 – L’escalier de Cantor : fonction continue et dérivable presque partout qui n’est
pas égale à l’intégrale de sa dérivée.

1.2 Cas sans contraintes : critère de Kalman


On considère le système de contrôle linéaire autonome

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ [0,T ], xu (0) = x0 ∈ Rd . (1.11)

Définition 1.6 (Contrôlabilité). On dit que le système (1.11) est contrôlable en temps T à
partir de x0 si
∀x1 ∈ Rd , ∃u ∈ L∞ ([0,T ]; Rk ), xu (T ) = x1 . (1.12)
On cherche donc à atteindre la cible x1 au temps T à partir de x0 .

Remarque 1.7. [Intégrabilité] On pourrait aussi chercher u ∈ L1 ([0,T ]; Rk ).

3
Chapitre 1. Contrôlabilité des systèmes linéaires

En posant x2 = x1 − eT A x0 , la contrôlabilité en T à partir de x0 équivaut à


Z T

∀x2 ∈ R ,d
∃u ∈ L ([0,T ]; R ), k
x2 = e(T −s)A Bu(s) ds, (1.13)
0

i.e., à la surjectivité de l’application


Z T
∞ k
Φ : L ([0,T ]; R ) → R , d
Φ(u) = e(T −s)A Bu(s) ds. (1.14)
0

Un résultat remarquable, dû à Kalman, permet de caractériser la surjectivité de cette appli-


cation à partir d’une condition purement algébrique ne faisant intervenir que les matrices
A et B. On introduit la matrice de Kalman C ∈ Rd×dk telle que

C = B, AB, · · · , Ad−1 B .

(1.15)

Théorème 1.8 (Critère de Kalman). Le système linéaire autonome ẋu (t) = Axu (t) + Bu(t)
est contrôlable pour tout T > 0 et pour tout x0 ∈ Rd si et seulement si

rang(C) = d, (1.16)

ce qui signifie que la matrice C est de rang maximal.

Remarque 1.9. [Condition (1.16)] La condition de Kalman (1.16) est indépendante de


l’horizon temporel T > 0 et de la donnée initiale x0 ∈ Rd . La contrôlabilité d’un système
linéaire autonome est donc indépendante de ces deux paramètres. Cela signifie en particulier
que lorsqu’un système de contrôle linéaire autonome est contrôlable, on peut atteindre à partir
d’une donnée initiale toute cible, même très lointaine, en un horizon temporel même très court.
Ce n’est pas très surprenant dans la mesure où on ne s’est pas imposé de bornes sur la valeur
du contrôle ; celui-ci peut donc prendre des valeurs très grandes si nécessaire.

Remarque 1.10. [Changement de base] On vérifie facilement que la condition de Kalman


est invariante par changement de base. En effet, soit P ∈ Rd×d une matrice inversible de
changement de base. On considère le système linéaire autonome ẋ(t) = Ax(t) + Bu(t). Dans
la nouvelle base, ce système s’écrit

ẏ(t) = Ay(t)
e + Bu(t),
e

avec y(t) = P −1 x(t), A


e = P −1 AP , B
e = P −1 B, si bien que
 
C
e = B,
e A
eB, e = P −1 C.
ed−1 B
e ··· ,A

Par conséquent, rang(C) = rang(C).


e

4
1.2 Cas sans contraintes : critère de Kalman

Démonstration. (1) Supposons d’abord que rang(C) < d. Il existe donc un vecteur Ψ ∈ Rd ,
Ψ 6= 0, tel que
Ψ† B = Ψ† AB = · · · = Ψ† Ad−1 B = 0 (∈ Rk ),
où Ψ† désigne le transposé de Ψ (Ψ† est un vecteur ligne). D’après le théorème d’Hamilton–
Cayley, il existe des réels s0 , · · · , sd−1 tels que

Ad = s0 Id + · · · + sd−1 Ad−1 ,

où Id est la matrice identité dans Rd×d . On en déduit par récurrence que Ψ† Ak B = 0 pour
tout k ∈ N, puis que Ψ† etA B = 0 pour tout t ∈ [0,T ]. Par conséquent, Ψ† Φ(u) = 0 pour tout
contrôle u, i.e., l’application Φ ne peut être surjective.
(2) Réciproquement, si l’application Φ n’est pas surjective, il existe un vecteur Ψ ∈ Rd , Ψ 6= 0,
tel que
Z T

Ψ e(T −s)A Bu(s) ds = 0, ∀u ∈ L∞ ([0,T ]; Rk ).
0

En choisissant le contrôle u(s) = B † e(T −s)A Ψ, qui est bien dans L∞ ([0,T ]; Rk ), on en déduit
que
Ψ† etA B = 0 (∈ Rk ), ∀t ∈ [0,T ].
En t = 0, il vient Ψ† B = 0, puis en dérivant par rapport à t, il vient Ψ† AB = 0 et ainsi de
suite ; d’où
Ψ† B = Ψ† AB = · · · = Ψ† Ad−1 B = 0 (∈ Rk ).
La matrice C ne peut donc être de rang maximal.

Exemple 1.11. [Contrôle d’un tram] L’état du tram (supposé de masse unité) est décrit par
sa position x(t) et sa vitesse v(t) le long d’un axe unidirectionnel et on contrôle l’accélération
du tram sous la forme
ẍ(t) = u(t), ∀t ∈ [0,T ].
Cette équation différentielle du second ordre en temps se récrit comme un système d’ordre un
en temps (avec d = 2, k = 1) :
     
0 1 0 x(t)
Ẋ(t) = X(t) + u(t), X(t) = .
0 0 1 ẋ(t)

La matrice de Kalman C ∈ R2×2 est


 
0 1
C= , rang(C) = 2.
1 0

Le tram est donc contrôlable en tout temps T à partir de tout X0 = (x0 , v0 )† (position et
vitesse initiales) : cela signifie que quel que soit X1 = (x1 , v1 )† (position et vitesse cibles en
T ), il existe un contrôle u ∈ L∞ ([0,T ]; R) amenant le tram de X0 en X1 au temps T .

5
Chapitre 1. Contrôlabilité des systèmes linéaires

Exemple 1.12. [Circuit RLC] Considérons maintenant un exemple issu de l’électronique : le


circuit RLC. Ici, x (l’état) représente la charge du circuit et u (le contrôle) la tension appliquée

u(t) = Lẍ(t) + Rẋ(t) + C −1 x(t),

ou encore ẍ(t) = − R
L
ẋ(t) − LC1
x(t) + L1 u(t) On obtient le système de contrôle linéaire (avec
d = 2, k = 1) sous la forme
     
0 1 0 x(t)
Ẋ(t) = −1 −R X(t) + 1 u(t), X(t) = .
LC L L
ẋ(t)

La matrice de Kalman C ∈ R2×2 est


1
 
0 L
C= 1 −R , rang(C) = 2,
L L2

ce qui montre que le circuit RLC est contrôlable.


Il est intéressant de considérer une reformulation du critère de Kalman. On introduit la
matrice GT ∈ Rd×d telle que
Z T

GT = e(T −s)A BB † e(T −s)A ds. (1.17)
0

Il est clair que la matrice


R T G† T (Test symétrique, et on vérifie facilement qu’elle est semi-définie
† −s)A† 2
positive car y GT y = 0 |B e y|Rk ds ≥ 0 pour tout vecteur y ∈ Rd .
Lemme 1.13 (Reformulation du critère de Kalman). Le système linéaire autonome ẋ(t) =
Ax(t) + Bu(t) est contrôlable pour tout T > 0 et pour tout x0 ∈ Rd si et seulement si la
matrice GT est inversible.
Démonstration. (1) Soit x1 ∈ Rd . Supposons la matrice GT inversible et posons

u(t) = B † e(T −s)A y où y = G−1
T (x1 − e
TA
x0 ).

Par la formule de Duhamel, on voit que


Z T
TA
xu (T ) = e x0 + e(T −s)A Bu(s) ds = eT A x0 + GT y = x1 .
0

Ceci montre que le système est contrôlable.


(2) Supposons qu’il existe Ψ ∈ Rd , Ψ 6= 0, dans ker(GT ). Il vient
Z T
† †
0 = Ψ GT Ψ = |B † e(T −s)A Ψ|2Rk ds,
0

si bien que Ψ† e(T −s)A B = 0 pour tout s ∈ [0,T ]. Par la formule de Duhamel, on obtient
Ψ† (xu (T )−eT A x0 ) = 0, ce qui montre que xu (T ) est dans un hyperplan affine. Par conséquent,
le système n’est pas contrôlable.

6
1.2 Cas sans contraintes : critère de Kalman

Remarque 1.14. [Matrice GT ] Le critère de Kalman rang(C) = d étant indépendant de T ,


on en déduit que l’inversibilité de la matrice GT est donc, elle aussi, indépendante de T . Dans
le cas des systèmes de contrôle linéaires autonomes, le critère de Kalman est plus simple à
vérifier que l’inversibilité de GT . Toutefois, la matrice GT nous sera utile dans le chapitre 3
lorsque nous étudierons la synthèse d’un contrôle optimal pour la minimisation d’un critère
quadratique.
Concluons cette section par une extension du critère de Kalman au cas de la contrôlabilité
des systèmes linéaires instationnaires, i.e., de la forme
ẋu (t) = A(t)xu (t) + B(t)u(t), ∀t ∈ [0,T ], xu (0) = x0 , (1.18)
avec A ∈ L1 ([0,T ]; Rd×d ) et B ∈ L1 ([0,T ]; Rd×k ). Pour de tels systèmes, la formule de Duhamel
n’est plus valable. On utilise la notion de résolvante R : [0,T ] → Rd×d telle que
Ṙ(t) = A(t)R(t), R(0) = I, (1.19)
où I est la matrice identité de Rd×d . On notera que
A ∈ L1 ([0,T ]; Rd×d ) =⇒ R ∈ AC([0,T ]; Rd×d ), (1.20a)
A ∈ C 0 ([0,T ]; Rd×d ) =⇒ R ∈ C 1 ([0,T ]; Rd×d ). (1.20b)

Comme dtd det(R(t)) = tr(A(t)) det(R(t)) et det(R(0)) = 1, la matrice R(t) est inversible à
tout temps (la quantité det(R(t)) s’appelle le Wronskien au temps t). On notera également
que, dans le cas autonome où A(t) = A, on a R(t) = etA . On vérifie sans peine que la solution
du système différentiel instationnaire (1.18) est
Z t
xu (t) = R(t)x0 + R(t) R(s)−1 B(s)u(s) ds, ∀t ∈ [0,T ]. (1.21)
0

Lemme 1.15 (Critère de contrôlabilité, cas instationnaire). Le système instationnaire (1.18)


est contrôlable en temps T à partir de x0 si et seulement si la matrice de contrôlabilité
Z T
KT := R(s)−1 B(s)B(s)† (R(s)−1 )† ds ∈ Rd×d (1.22)
0

est inversible.
Démonstration. Identique au cas autonome.
Remarque 1.16. [Matrice KT ] La condition (1.22) dépend de T , mais pas de x0 . Ainsi, la
contrôlabilité en temps T à partir de x0 implique la contrôlabilité en temps T à partir de tout
point ; en revanche, on ne peut s’affranchir de la dépendance en T . On notera également que
dans le cas autonome, on a R(s) = esA et B(s) = B, si bien que
Z T 
−T A (T −s)A † (T −s)A† † †
KT = e e BB e ds e−T A = e−T A GT e−T A
0

On retrouve donc le critère du lemme 1.13 sur la matrice GT .

7
Chapitre 1. Contrôlabilité des systèmes linéaires

Contre-exemple 1.17. [Non-contrôlabilité] On considère le système de contrôle linéaire ins-


tationnaire    
0 −1 cos(t)
Ẋu (t) = Xu (t) + u(t). (1.23)
1 0 sin(t)
 
sA cos(s) − sin(s)
On vérifie facilement que R(s) = e = sin(s) cos(s) , d’où

   
−1 1 1 0
R(s) B(s) = =⇒ KT = .
0 0 0

La matrice KT n’est donc pas inversible, si bien que le système (1.23) n’est pas contrôlable.
Le problème vient du fait que la matrice R(s)−1 B(s) est indépendante de s. En revanche, si le
vecteur B était constant (et non-nul), le système serait contrôlable car B et AB seraient alors
des vecteurs orthogonaux non-nuls, si bien que la matrice de Kalman C = (B, AB) serait de
rang plein.

1.3 Cas avec contraintes : ensemble atteignable


On considère le système de contrôle linéaire autonome

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ [0,T ], xu (0) = x0 . (1.24)

Comme ci-dessus, l’horizon temporel T > 0 et la condition initiale x0 ∈ Rd sont fixés. Les
résultats de cette section s’étendent au cas instationnaire avec terme de dérive, mais pour
simplifier, nous ne traiterons pas ce cas plus général.
Dans cette section, nous suppose le contrôle à valeurs dans un sous-ensemble compact
non-vide
U ⊂ Rk . (1.25)

En particulier, le contrôle u(t) est borné pour tout t ∈ [0,T ]. On a donc u ∈ L∞ ([0,T ]; U ). (On
notera que L1 ([0,T ]; U ) = L∞ ([0,T ]; U ) lorsque l’ensemble U est borné.)

Définition 1.18 (Ensemble atteignable). Pour tout t ∈ [0,T ] et tout x0 ∈ Rd , l’ensemble


atteignable en temps t à partir de x0 est défini comme suit :

A(t, x0 ) = {x1 ∈ Rd | ∃u ∈ L∞ ([0,t]; U ) tel que xu (t) = x1 }. (1.26)

Théorème 1.19 (Propriétés de l’ensemble atteignable). Pour tout t ∈ [0,T ], l’ensemble attei-
gnable A(t, x0 ) est compact, convexe, et varie continûment en t. La continuité en temps
est uniforme, i.e., pour tout  > 0, il existe δ > 0 tel que

∀t1 , t2 ∈ [0,T ], |t1 − t2 | ≤ δ =⇒ d(A(t1 , x0 ), A(t2 , x0 )) ≤ , (1.27)

8
1.3 Cas avec contraintes : ensemble atteignable

où la distance de Hausdorff entre deux sous-ensembles A1 et A2 de Rd est définie comme suit
(cf. la figure 1.2) :
 
d(A1 , A2 ) := max sup d(x1 , A2 ), sup d(x2 , A1 )
x ∈A x2 ∈A2
 1 1 
= max sup inf |x1 − y2 |Rd , sup inf |x2 − y1 |Rd . (1.28)
x1 ∈A1 y2 ∈A2 x2 ∈A2 y1 ∈A1

A1 A2
d(x1, A2)
x1
d(x2, A1)
x2

Figure 1.2 – Distance de Hausdorff entre deux sous-ensembles A1 et A2 de Rd .

Démonstration. Nous verrons les preuves de variation continue en temps et de compacité au


chapitre 2 dans le cas plus général des systèmes de contrôle non-linéaires. Nous nous contentons
ici de prouver la convexité de l’ensemble atteignable A(t, x0 ), propriété qui est, quant à elle,
spécifique au cas linéaire.
(1) Cas où le sous-ensemble U est convexe. Dans ce cas, la preuve de convexité de l’ensemble
atteignable A(t, x0 ) est élémentaire. Soit x1 , x2 ∈ A(t, x0 ), soit θ ∈ [0, 1] et montrons que
θx1 + (1 − θ)x2 ∈ A(t, x0 ). Par définition, il existe des contrôles ui ∈ L∞ ([0,t]; U ), i ∈ {1, 2},
tels que Z t
xi = etA x0 + e(t−s)A Bui (s) ds,
0
où xi est la trajectoire associée au contrôle ui , i ∈ {1, 2}. Posons u(s) = θu1 (s) + (1 − θ)u2 (s),
pour tout s ∈ [0,t]. La fonction u est mesurable et cette fonction est à valeurs dans U grâce à
la convexité du sous-ensemble U . De plus, par linéarité, la trajectoire xu associée au contrôle
u vérifie
Z t
tA
xu (t) = e x0 + e(t−s)A Bu(s) ds
0
Z t Z t
tA (t−s)A
= e x0 + θ e Bu1 (s) ds + (1 − θ) e(t−s)A Bu2 (s) ds
0 0
= θx1 + (1 − θ)x2 ,
ce qui montre que θx1 + (1 − θ)x2 ∈ A(t, x0 ).
(2) Cas général pour U . Dans ce cas, on invoque le Lemme de Lyapunov 1.20 rappelé ci-
dessous (pour la preuve, voir par exemple la référence [5]). Soit x1 , x2 ∈ A(t, x0 ), soit θ ∈ [0, 1]

9
Chapitre 1. Contrôlabilité des systèmes linéaires

et montrons à nouveau que θx1 + (1 − θ)x2 = x(t) ∈ A(t, x0 ). Par définition, il existe des
R t (t−s)A
∞ tA
contrôles ui ∈ L ([0,t]; U ), i ∈ {1, 2}, tels que xi = e x0 + 0 e Bui (s) ds. Posons
yi = xi − etA x0 et considérons la fonction f ∈ L1 ([0,t]; R2d ) telle que
 (t−s)A 
e Bu1 (s)
f (s) = (t−s)A ∈ R2d .
e Bu2 (s)

On a {0} f (s) ds = (0, 0)† et [0,t] f (s) ds = (y1 , y2 )† . En invoquant le lemme de Lyapunov, on
R R

en déduit qu’il existe un sous-ensemble mesurable E ⊂ [0,t] tel que


Z  
θy1
f (s) ds = .
E θy2

En notant E c le complémentaire de E dans [0,t], on a


Z Z Z  
(1 − θ)y1
f (s) ds = f (s) ds − f (s) ds = .
Ec [0,t] E (1 − θ)y2

Finalement, on pose (
u1 (s) si s ∈ E,
u(s) =
u2 (s) si s ∈ E c .
Le contrôle ainsi défini est bien une fonction mesurable de [0,t] dans U car les ensembles E et
E c sont mesurables. De plus, la trajectoire xu associée à ce contrôle satisfait
Z
tA
xu (t) − e x0 = e(t−s)A Bu(s) ds
[0,t]
Z Z
(t−s)A
= e Bu1 (s) ds + e(t−s)A Bu2 (s) ds = θy1 + (1 − θ)y2 ,
E Ec

ce qui montre que θx1 + (1 − θ)x2 = xu (t) ∈ A(t, x0 ).


Lemme 1.20 (Lyapunov). Soit t > 0 et un entier n ≥ 1. Soit une fonction f ∈ L1 ([0,t]; Rn ).
Alors, le sous-ensemble Z 
f (s) ds | E ⊂ [0,t] mesurable (1.29)
E
est un sous-ensemble convexe de Rn .
Remarque 1.21. [Atteignabilité avec U et conv(U )] On peut montrer que l’ensemble attei-
gnable pour des contrôles à valeurs dans U est le même que pour des contrôles à valeurs dans
conv(U ) (l’enveloppe convexe de U ).
Exemple 1.22. [Mouvement d’un point matériel] On considère un point matériel en mouve-
ment rectiligne. On contrôle la vitesse de ce point par un contrôle à valeurs dans l’intervalle
borné U := [−1, 1] :

ẋ(t) = u(t), ∀t ∈ [0,T ], x(0) = 0, u(t) ∈ U = [−1, 1],

10
1.3 Cas avec contraintes : ensemble atteignable

où on a fixé l’origine à la position initiale du point matériel. L’ensemble atteignable est
A(t, 0) = [−t, t] (qui est bien compact, convexe et varie continûment en t). On constate
qu’on obtient le même ensemble atteignable en se restreignant à des contrôles à valeurs dans
∂U = {−1, 1}. De tels contrôles sont appelés des contrôles bang-bang car ils ne prennent
que des valeurs extrémales dans ∂U . Une illustration est présentée à la figure 1.3.

x
u ≡ +1
x(t) ∈ A[−1,1](t, x0) = A{−1,1}(t, x0)
x0 t

u ≡ −1

Figure 1.3 – Ensemble atteignable par un point matériel dont on contrôle la vitesse dans
U = [−1, 1].

11
Chapitre 1. Contrôlabilité des systèmes linéaires

12
Chapitre 2

Contrôlabilité des systèmes


non-linéaires

Ce chapitre est consacré à la contrôlabilité des systèmes de contrôle non-linéaires. Comme


au chapitre précédent, la notion d’ensemble atteignable joue un rôle important. Le résultat
principal de ce chapitre est un critère de contrôlabilité locale au voisinage d’une cible
située dans l’ensemble atteignable, ce critère se formulant à l’aide de la contrôlabilité du
système linéarisé. Afin d’établir ce résultat, nous montrerons que, sous certaines hypothèses,
la différentielle de l’application entrée-sortie (qui à un contrôle associe l’état du système au
temps final) est différentiable et que sa différentielle est l’application entrée-sortie du système
linéarisé. Ce chapitre sera aussi l’occasion de voir ou revoir certains outils mathématiques
importants : théorème de Cauchy–Lipschitz pour les systèmes différentiels avec fonctions me-
surables, topologie faible dans les espaces de Hilbert et différentielle de Fréchet.

2.1 Théorème de Cauchy–Lipschitz


On fixe un horizon temporel T > 0 et une condition initiale x0 ∈ Rd . On considère le
problème de Cauchy qui consiste à chercher une fonction x : [0,T ] → Rd telle que
ẋ(t) = F (t, x(t)), ∀t ∈ [0,T ], x(0) = x0 , (2.1)
pour une application donnée F : [0,T ] × Rd → Rd . Commençons par rappeler un résultat bien
connu.
Théorème 2.1 (Cauchy–Lipschitz, cas continu et Lipschitz global). On suppose que :
(i) L’application F est continue en t et en x, i.e., F ∈ C 0 ([0,T ] × Rd ; Rd ) ;
(ii) L’application F est globalement lipschitzienne en x, i.e.,
∃C0 ∈ R+ , ∀t ∈ [0,T ], ∀x1 , x2 ∈ Rd , |F (t, x1 ) − F (t, x2 )|Rd ≤ C0 |x1 − x2 |Rd . (2.2)
Alors, il existe une unique solution au problème de Cauchy telle que
x ∈ C 1 ([0,T ]; Rd ). (2.3)
Cette solution satisfait donc le système différentiel (2.1) pour tout t ∈ [0,T ].

13
Chapitre 2. Contrôlabilité des systèmes non-linéaires

Démonstration. Le principe de la preuve consiste à observer que x est solution du problème


de Cauchy (2.1) si et seulement si
Z t
x(t) = x0 + F (s, x(s)) ds, ∀t ∈ [0,T ].
0

On introduit l’espace Y = C 0 ([0,T ]; Rd ) ; il s’agit d’un espace de Banach (espace vectoriel


normé complet) équipé de la norme de la convergence uniforme kykY = supt∈[0,T ] |y(t)|Rd pour
tout y ∈ Y . Résoudre le problème de Cauchy revient à chercher un point fixe de l’application
Φ : Y → Y où pour tout y ∈ Y , Φ(y) est tel que
Z t
Φ(y)(t) = x0 + F (s, y(s)) ds, ∀t ∈ [0,T ].
0

Montrons que l’application Φ est strictement contractante de Y dans Y . On considère la


norme kykY ∗ = supt∈[0,T ] (e−C0 t |y(t)|Rd ) où C0 est la constante intervenant dans la propriété de
Lipschitz globale de l’application F . Il est clair que la norme k · kY ∗ est équivalente à la norme
k · kY sur Y . On constate que pour tout y1 , y2 ∈ Y , on a
 
−C0 t
kΦ(y1 ) − Φ(y2 )kY ∗ = sup e |Φ(y1 )(t) − Φ(y2 )(t)|Rd
t∈[0,T ]
 Z t 
−C0 t
≤ sup e |F (s, y1 (s)) − F (s, y2 (s))|Rd ds
t∈[0,T ] 0
 Z t 
−C0 t
≤ sup e C0 |y1 (s) − y2 (s)|Rd ds
t∈[0,T ] 0
 Z t 
−C0 t C0 s −C0 s
= sup e C0 e e |y1 (s) − y2 (s)|Rd ds
t∈[0,T ] 0
 Z t 
−C0 t C0 s
≤ sup e C0 e ds ky1 − y2 kY ∗
t∈[0,T ] 0
 
−C0 t
ky1 − y2 kY ∗ = 1 − e−C0 T ky1 − y2 kY ∗ ,

= sup 1 − e
t∈[0,T ]

où on a utilisé le caractère globalement lipschitzien en x de l’application F pour passer de la


deuxième à la troisième ligne du calcul. L’application Φ est donc bien strictement contractante
de Y dans Y . On conclut par le théorème du point fixe de Picard.
L’hypothèse de continuité en t de l’application F faite au théorème 2.1 n’est pas vraiment
satisfaisante pour l’étude des systèmes de contrôle. En effet, ces systèmes s’écrivent sous la
forme
ẋ(t) = f (t, x(t), u(t)), ∀t ∈ [0,T ], x(0) = x0 , (2.4)
où u ∈ L1 ([0,T ]; Rk ) et f : [0,T ] × Rd × Rk → Rd . L’étude du système différentiel (2.4) se
ramène à celle du problème de Cauchy (2.1) en posant
F (t, x) = f (t, x, u(t)), ∀(t, x) ∈ [0,T ] × Rd . (2.5)

14
2.1 Théorème de Cauchy–Lipschitz

On voit donc que même si l’application f est régulière en u, le fait que le contrôle ne dépende
pas continûment du temps fait que l’application F ne sera pas nécessairement continue en t.
Afin de traiter cette situation, on dispose de la variante suivante du théorème 2.1 (la preuve uti-
lise des arguments analogues à ceux évoqués ci-dessus). On renvoie le lecteur à la définition 1.2
pour la notion de fonction absolument continue.
Théorème 2.2 (Cauchy–Lipschitz, cas mesurable et Lipschitz global). On suppose que :
(i) L’application F est mesurable en t et continue en x, i.e., pour tout x ∈ Rd , l’application
t 7→ F (t, x) est mesurable et pour presque tout t ∈ [0,T ], l’application x 7→ F (t, x) est continue ;
(ii) L’application F est intégrable en t, i.e.,

∀x ∈ Rd , ∃β ∈ L1 ([0,T ]; R+ ), ∀t ∈ [0,T ], |F (t, x)|Rd ≤ β(t); (2.6)

(iii) L’application F est globalement lipschitzienne en x, i.e.,

∃C0 ∈ L1 ([0,T ]; R+ ),
p.p. t ∈ [0,T ], ∀x1 , x2 ∈ Rd , |F (t, x1 ) − F (t, x2 )|Rd ≤ C0 (t)|x1 − x2 |Rd . (2.7)

Alors, il existe une unique solution au problème de Cauchy telle que

x ∈ AC([0,T ]; Rd ). (2.8)

Cette solution, qui est dérivable p.p. sur [0,T ], satisfait le système différentiel (2.1) pour
presque tout t ∈ [0,T ] ; elle vérifie également
Z t
x(t) = x0 + F (s, x(s)) ds, ∀t ∈ [0,T ]. (2.9)
0

Remarque 2.3. [Intégrabilité] Grâce à la propriété (iii) du théorème 2.2, il suffit, afin d’établir
la propriété (ii), de montrer que F (t, 0) ∈ L1 ([0,T ]; Rd ).
Un cas d’application du théorème 2.2 est le cas linéaire (éventuellement avec un terme
de dérive) où on a F (t, x) = A(t)x + r(t) avec A ∈ L1 ([0,T ]; Rd×d ) et r ∈ L1 ([0,T ]; Rd ) ;
l’application F est alors globalement lipschitzienne de constante C0 (t) = |A(t)|Rd×d (où | · |Rd×d
désigne la norme matricielle subordonnée à la norme euclidienne). Lorsque l’application F est
non-linéaire en x, la propriété d’être globalement lipschitzienne est en général perdue. Dans ce
cas, il est bien connu que la solution x du problème de Cauchy (2.1) peut exploser en temps
fini.
Exemple 2.4. [Explosion en temps fini] Donnons un exemple simple d’explosion en temps
fini. On se place dans R (d = 1) et on considère l’application F (t, x) = 1 − x2 (qui ne dépend
que de x). Le problème de Cauchy est donc ẋ(t) = 1 − x(t)2 avec x(0) = x0 ∈ R. Si |x0 | ≤ 1,
il vient x(t) = tanh(t + t0 ) avec tanh(t0 ) = x0 et limt→∞ x(t) = 1 ; on a donc existence globale
en temps de la solution. En revanche, si |x0 | > 1, il vient x(t) = coth(t + t0 ) avec coth(t0 ) = x0
et deux situations peuvent se produire : (i) si x0 > 1, alors t0 > 0 et on a limt→∞ x(t) = 1,
i.e., on a encore existence globale en temps de la solution ; (ii) si x0 < −1, alors t0 < 0 et dans
ces conditions, limt↑t0 |x(t)| = +∞ ; on a donc explosion en temps fini.

15
Chapitre 2. Contrôlabilité des systèmes non-linéaires

Remarque 2.5. [Non-unicité] Lorsque l’application F est uniquement continue en x, on peut


ne pas avoir unicité
p de la solution du problème de Cauchy. Par p exemple, pour le problème de
Cauchy ẋ(t) = |x(t)| avec x(0) = 0 (i.e., pour F (t, x) = |x|), x(t) ≡ 0 est solution, et il
en est de même de x(t) = 41 t2 et de x(t) = 14 max(t − t0 , 0)2 pour tout t0 ∈ R+ .

Afin de traiter le cas de dynamiques non-linéaires, on dispose de l’extension suivante du


théorème 2.2, où la propriété de Lipschitz globale est remplacée par une propriété locale (pour
la preuve, voir par exemple l’annexe C de la référence [10]).

Théorème 2.6 (Cauchy–Lipschitz, cas mesurable et Lipschitz local). On suppose que :


(i) L’application F est mesurable en t et continue en x ;
(ii) L’application F est intégrable en t, i.e.,

∀x ∈ Rd , ∃β ∈ L1 ([0,T ]; R+ ), ∀t ∈ [0,T ], |F (t, x)|Rd ≤ β(t); (2.10)

(iii) L’application F est localement lipschitzienne en x, i.e.,

∀x ∈ Rd , ∃r > 0, ∃C0 ∈ L1 ([0,T ]; R+ ),


p.p. t ∈ [0,T ], ∀x1 , x2 ∈ B(x, r), |F (t, x1 ) − F (t, x2 )|Rd ≤ C0 (t)|x1 − x2 |Rd , (2.11)

où B(x, r) désigne la boule ouverte de centre x et de rayon r.


Alors, il existe une unique solution maximale au problème de Cauchy (2.1). Cette solution
est définie sur l’intervalle J ⊆ [0,T ] et on a soit J = [0,T ] soit J = [0,T∗ [ avec T∗ < T et
limt↑T∗ |x(t)|Rd = +∞. La solution maximale x est dans AC(J; Rd ), elle satisfait le système
différentiel (2.1) pour presque tout t ∈ J et elle vérifie (2.9) pour tout t ∈ J.

Exemple 2.7. [Explosion pour un système de contrôle] On se place dans R (d = 1) et


on considère le système de contrôle (2.4) avec un contrôle à valeurs scalaires (k = 1) et
l’application f telle que f (t, x, u) = x2 + u (qui ne dépend pas de t explicitement). On obtient
alors le problème de Cauchy ẋ(t) = x(t)2 + u(t). On considère la donnée initiale x0 = 0 et on
suppose que le contrôle est constant en temps égal à u0 ∈ R+ . On vérifie sans peine que la
√ √
trajectoire est donnée par x(t) = u0 tan( u0 t). On a donc explosion au temps fini T∗ = 2√πu0
qui dépend de la valeur (constante) prise par le contrôle.

2.2 Ensemble atteignable


On fixe un horizon temporel T > 0 et une condition initiale x0 ∈ Rd . On considère le
système de contrôle non-linéaire

ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ [0,T ], xu (0) = x0 . (2.12)

Soit U ⊂ Rk un sous-ensemble compact non-vide de Rk . La définition de l’ensemble atteignable


(en temps t ∈ [0,T ] à partir de x0 ) est identique à celle que nous avons introduite dans le cas
linéaire (cf. la définition 1.18).

16
2.2 Ensemble atteignable

Définition 2.8 (Ensemble atteignable). Pour tout t ∈ [0,T ], l’ensemble atteignable en


temps t à partir de x0 est défini comme suit :

A(t, x0 ) = {x1 ∈ Rd | ∃u ∈ L∞ ([0,t]; U ) tel que xu (t) = x1 }. (2.13)

Nous allons établir deux propriétés importantes et utiles de l’ensemble atteignable : sa


variation continue en temps et sa compacité.
Lemme 2.9 (Variation continue en temps). On suppose que
(i) f est de classe C 0 sur R × Rd × U ;
(ii) U est un sous-ensemble compact non-vide de Rk ;
(iii) les trajectoires sont uniformément bornées, i.e.,

∃M > 0, ∀u ∈ L∞ ([0,T ]; U ), sup |xu (t)|Rd ≤ M. (2.14)


t∈[0,T ]

Alors, l’ensemble A(t, x0 ) varie continûment en temps, et ce de manière uniforme, i.e., pour
tout  > 0, il existe δ > 0 tel que

∀t1 , t2 ∈ [0,T ], |t1 − t2 | ≤ δ =⇒ d(A(t1 , x0 ), A(t2 , x0 )) ≤ , (2.15)

où la distance de Hausdorff entre deux sous-ensembles est définie en (1.28) (cf. la figure 2.1).

A1 A2
d(x1, A2)
x1
d(x2, A1)
x2

Figure 2.1 – Distance de Hausdorff entre deux sous-ensembles A1 et A2 .

Remarque 2.10. [Cas linéaire] Les hypothèses du lemme 2.9 sont bien vérifiées dans le cas
linéaire. L’ensemble atteignable varie donc continûment en temps dans ce cas.
Démonstration. Soit  > 0. On va montrer qu’il existe δ > 0 tel que

∀t1 , t2 ∈ [0,T ], |t1 − t2 | ≤ δ =⇒ d(A1 , A2 ) ≤ ,

où A1 = A(t1 , x0 ) et A2 = A(t2 , x0 ). Supposons pour fixer les idées que t2 > t1 . Soit x2 ∈ A2 .
Il existe donc un contrôle u ∈ L∞ ([0,t2 ]; U ) tel que
Z t2
x2 = x0 + f (s, x(s), u(s)) ds.
0

17
Chapitre 2. Contrôlabilité des systèmes non-linéaires

Avec ce même contrôle, on pose


Z t1
x1 = x 0 + f (s, x(s), u(s)) ds ∈ A(t1 , x0 ).
0

D’après les hypothèses sur f , x et u, on a


Z t2
|x2 − x1 |Rd ≤ |f (s, x(s), u(s))|Rd ds ≤ C|t2 − t1 |.
t1

Ceci montre que d(x2 , A1 ) ≤ |x2 − x1 |Rd ≤ C|t2 − t1 |. On raisonne de même pour x1 ∈ A1 , ce
qui conclut la preuve.

Lemme 2.11 (Compacité). On suppose que


(i) f est de classe C 0 sur R × Rd × U et de classe C 1 en x ;
(ii) U est un sous-ensemble compact non-vide de Rk ;
(iii) les trajectoires sont uniformément bornées, i.e.,

∃M > 0, ∀u ∈ L∞ ([0,T ]; U ), sup |xu (t)|Rd ≤ M ; (2.16)


t∈[0,T ]

(iv) pour tout (t, x) ∈ [0,T ] × Rd , l’ensemble des vecteurs vitesse K(t, x) := {f (t, x, u) | u ∈ U }
est un sous-ensemble convexe de Rd .
Alors, pour tout t ∈ [0,T ], l’ensemble atteignable A(t, x0 ) est un sous-ensemble compact de Rd .

Remarque 2.12. [Cas linéaire] Les hypothèses du lemme 2.11 sont bien vérifiées dans le cas
linéaire avec U convexe. L’ensemble atteignable est donc compact dans ce cas.

Démonstration. On se place dans l’espace de Hilbert V = L2 ([0,T ]; Rd ) et on va montrer la


compacité de l’ensemble atteignable A(T, x0 ). La preuve utilise des notions de topologie faible
dans les espaces de Hilbert ; les quelques notions qui nous seront utiles dans cette preuve sont
rappelées à la sous-section 2.4.1 ci-dessous.
(1) Soit (yn )n∈N une suite d’éléments de A(T, x0 ) ⊂ Rd . Soit (un )n∈N une suite de contrôles dans
L∞ ([0,T ]; U ) et (xn )n∈N la suite de trajectoires correspondantes dans AC([0,T ]; Rd ) menant
de x0 à yn . Posons gn (s) = f (s, xn (s), un (s)) ds pour tout n ∈ N et s ∈ [0,T ]. On a
Z t
xn (t) = x0 + gn (s) ds, ∀t ∈ [0,T ] et yn = xn (T ).
0

D’après les hypothèses, la suite (gn )n∈N est bornée dans V . En invoquant le théorème 2.23 sur
la compacité faible dans les espaces de Hilbert, on en déduit qu’à une sous-suite près, la suite
(gn )n∈N converge vers une fonction g ∈ V pour la topologie faible. On définit la trajectoire
x ∈ AC([0,T ]; Rd ) en posant
Z t
x(t) = x0 + g(s) ds, ∀t ∈ [0,T ].
0

18
2.3 Contrôlabilité locale des systèmes non-linéaires

Rt Rt
Par convergence faible, on a 0
gn (s) ds = (gn , 1[0,t] )V → (g, 1[0,t] )V = 0
g(s) ds, i.e.,
lim xn (t) = x(t), ∀t ∈ [0,T ].
n→+∞

En particulier, on a donc
lim yn = x(T ).
n→+∞

Il reste à montrer que la trajectoire x(t) peut bien être engendrée par un contrôle u ∈
L∞ ([0,T ]; U ).
(2) Posons θn (s) = f (s, x(s), un (s)) et introduisons l’ensemble
Θ = {θ ∈ V | θ(s) ∈ K(s, x(s)), ∀s ∈ [0,T ]},
de sorte que (θn )n∈N est une suite de Θ. Par hypothèse, K(s, x(s)) est un sous-ensemble convexe
de Rd pour tout s ∈ [0,T ]. On en déduit que Θ est un sous-ensemble convexe de V . De plus,
Θ est fermé dans V car la convergence dans V implique la convergence p.p. d’une sous-suite,
et K(s, x(s)) est fermé dans Rd . Grâce au théorème 2.24 sur la fermeture faible des convexes
dans les espaces de Hilbert, on en déduit que Θ est faiblement fermé dans V . De plus, comme
la suite (θn )n∈N est bornée dans V , on déduit du théorème 2.23 qu’elle converge faiblement, à
une sous-suite près, vers une fonction θ ∈ Θ. Il existe donc une fonction u : [0,T ] → U telle
que θ(s) = f (s, x(s), u(s)) p.p. dans [0,T ], et la fonction u peut être choisie mesurable (cf. la
sous-section 2.4.3 pour plus de précisions sur ce point). Pour tout ϕ ∈ V , on a
Z T Z T Z T
gn (s)ϕ(s) ds = θn (s)ϕ(s) ds + (f (s, xn (s), un (s)) − f (s, x(s), un (s))ϕ(s) ds. (2.17)
0 0 0

Comme |f (s, xn (s), un (s)) − f (s, x(s), un (s))|Rd ≤ C|xn (s) − x(s)|Rd et |xn (s) − x(s)|Rd tend
vers zéro p.p. dans [0,T ], le deuxième terme au membre de droite de (2.17) tend vers zéro
(invoquer le théorème de convergence dominée de Lebesgue). En outre, par convergence faible,
RT RT
on a 0 g(s)ϕ(s) ds = 0 θ(s)ϕ(s) ds, i.e., g(s) = θ(s) p.p. dans [0,T ]. En conclusion, on a
bien g(s) = f (s, x(s), u(s)) p.p. sur [0,T ].

2.3 Contrôlabilité locale des systèmes non-linéaires


On fixe l’horizon temporel T > 0 et la condition initiale x0 ∈ Rd , et on considère le système
de contrôle non-linéaire
ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ [0,T ], xu (0) = x0 . (2.18)
Dans cette section, on suppose que la fonction f est de classe C 1 en (x, u).
Définition 2.13 (Application entrée-sortie). L’application entrée-sortie en temps T à
partir de x0 est l’application
ET,x0 : UT,x0 → A(T, x0 ), ET,x0 (u) = xu (T ), (2.19)
où UT,x0 ⊂ L∞ ([0,T ]; U ), U étant un sous-ensemble fermé non-vide de Rk , est le domaine de
ET,x0 , i.e., l’ensemble des contrôles tels que la trajectoire associée xu est bien définie sur [0,T ].
L’ensemble atteignable A(T, x0 ) est l’image de l’application entrée-sortie ET,x0 .

19
Chapitre 2. Contrôlabilité des systèmes non-linéaires

Soit y ∈ A(T, x0 ). Par définition, il existe un contrôle uy ∈ UT,x0 amenant l’état de x0 à y


en temps T . Le problème de la contrôlabilité locale consiste à savoir si cette propriété reste
satisfaite dans un voisinage du point y ∈ A(T, x0 ).
Définition 2.14 (Contrôlabilité locale). On dit que le système de contrôle non-linéaire (2.18)
est contrôlable localement en un point y ∈ A(T, x0 ) s’il existe un voisinage Vy de y dans Rd
tel que Vy ⊂ A(T, x0 ), i.e., pour tout y 0 ∈ Vy , il existe un contrôle uy0 ∈ UT,x0 amenant l’état
de x0 à y 0 en temps T .
Afin d’étudier la contrôlabilité locale du système de contrôle non-linéaire (2.18), nous allons
considérer la différentielle (de Fréchet) de l’application entrée-sortie ET,x0 . On renvoie le lecteur
à la sous-section 2.4.2 ci-dessous pour quelques rappels sur la notion de différentielle de Fréchet
dans les espaces de Banach. Pour simplifier, on se place pour le reste de cette section dans le
cas sans contrainte, i.e., on suppose que U = Rk si bien que l’on a UT,x0 ⊂ L∞ ([0,T ]; Rk ).
Par des arguments de dépendance de la solution d’un système différentiel en des paramètres,
on vérifie facilement que UT,x0 est un sous-ensemble ouvert de L∞ ([0,T ]; Rk ). On est donc dans
la situation où
ET,x0 : UT,x0 ⊂ L∞ ([0,T ]; Rk ) → A(T, x0 ) ⊂ Rd . (2.20)
Soit u ∈ UT,x0 et xu ∈ AC([0,T ]; Rd ) la trajectoire associée. Soit
δu ∈ L∞ ([0,T ]; Rk ), (2.21)
une perturbation du contrôle ; on suppose cette perturbation suffisamment petite pour que
u + δu ∈ UT,x0 (ceci est possible puisque UT,x0 est un sous-ensemble ouvert de L∞ ([0,T ]; Rk )).
On considère le système différentiel linéarisé le long de la trajectoire xu , i.e.,
˙
δx(t) = Au (t)δx(t) + Bu (t)δu(t), ∀t ∈ [0,T ], δx(0) = 0, (2.22)
où pour tout t ∈ [0,T ],
∂f ∂f
Au (t) = (t, xu (t), u(t)) ∈ Rd×d , Bu (t) = (t, xu (t), u(t)) ∈ Rd×k . (2.23)
∂x ∂u
Lemme 2.15 (Différentiabilité). L’application entrée-sortie ET,x0 est différentiable (au sens
0
de Fréchet) en tout u ∈ UT,x0 et sa différentielle ET,x 0
(u) : L∞ ([0,T ]; Rk ) → Rd est l’application
entrée-sortie du système linéarisé le long de la trajectoire xu ; plus explicitement, pour tout
δu ∈ L∞ ([0,T ]; Rk ), on a
0
hET,x 0
(u), δui = δx(T ), (2.24)
où δx est solution du système différentiel linéarisé (2.22).
0
Remarque 2.16. [Continuité] La différentielle ET,x0
(u) est bien une forme linéaire continue
en δu car on a Z T
0
hET,x0 (u), δui = R(T ) R(s)−1 Bu (s)δu(s) ds,
0
où R(t) est la résolvante du système linéarisé, i.e., la solution matricielle dans Rd×d de
0
Ṙ(t) = Au (t)R(t), pour tout t ∈ [0,T ], et R(0) = Id . On a donc bien |hET,x 0
(u), δui| ≤
0
CkδukL∞ ([0,T ];Rk ) . En outre, ET,x0 (u) dépend continûment de u.

20
2.3 Contrôlabilité locale des systèmes non-linéaires

Démonstration. Nous nous contentons d’esquisser la preuve. Soit δu ∈ V = L∞ ([0,T ]; Rk ) tel


que u + δu ∈ UT,x0 (qui est ouvert dans V ). On note xu+δu la trajectoire associée à u + δu issue
de x0 . En effectuant des développements de Taylor sur f , il vient

ẋu+δu (t) − ẋu (t) = f (t, xu+δu (t), u(t) + δu(t)) − f (t, xu (t), u(t))
= ∂f
∂x
(t, xu (t), u(t))(xu+δu (t) − xu (t)) + ∂f
∂u
(t, xu (t), u(t))δu(t) + o(δu)
= Au (t)(xu+δu (t) − xu (t)) + Bu (t)δu(t) + o(δu),

car xu+δu − xu = O(δu) (dépendance continue en un paramètre de la solution d’un système


différentiel). En posant (t) = xu+δu (t) − xu (t) − δx(t), on en déduit que (0) = 0 et que
˙
˙ = ẋu+δu (t) − ẋu (t) − δx(t)
(t)
= Au (t)(xu+δu (t) − xu (t) − δx(t)) + o(δu) = Au (t)(t) + o(δu).

Par des arguments de stabilité, on montre que  = o(δu). En conclusion, on obtient

ET,x0 (u + δu) − ET,x0 (u) = xu+δu (T ) − xu (T )


= δx(T ) + (T ) = δx(T ) + o(δu),

et on a vu que δu 7→ δx(T ) définit une forme linéaire continue sur δu pour la topologie de V .
Ceci conclut la preuve.

Théorème 2.17 (Contrôlabilité locale). Si le système différentiel linéarisé le long de la tra-


jectoire xu est contrôlable (en temps T ), alors le système différentiel non-linéaire est loca-
lement contrôlable (en temps T à partir de x0 ).

Démonstration. Si le système différentiel linéarisé est contrôlable, alors la différentielle de


0
l’application entrée-sortie ET,x0
est surjective. On conclut par le théorème de la submersion
rappelé ci-dessous (qui est une variante du théorème des fonctions implicites, voir par exemple
la référence [7]).

Théorème 2.18 (Submersion). Soit V et W deux espaces de Banach, et F : V → W une


application continûment différentiable. Soit v ∈ V . Si l’application différentielle F 0 (v) : V →
W est surjective, alors F est localement surjective au voisinage de F (v) ∈ W .

Remarque 2.19. [Point d’équilibre] On considère le cas particulier d’un point d’équilibre
d’un système différentiel autonome, i.e., un couple (x0 , u0 ) tel que f (x0 , u0 ) = 0. Noter que
x0 ∈ A(t, x0 ) en utilisant le contrôle constant égal à u0 . Le critère de contrôlabilité locale en
x0 consiste à vérifier que les matrices A = ∂f ∂x
(x0 , u0 ) et B = ∂f
∂u
(x0 , u0 ) vérifient la condition
de Kalman. En effet, comme f (x0 , u0 ) = 0, la trajectoire de référence est réduite à un point,
si bien que le système linéarisé est également autonome, et on peut appliquer la condition de
Kalman pour en vérifier la contrôlabilité.

Remarque 2.20. [Inversion du temps] En cas de contrôlabilité locale et lorsque la dynamique


est autonome et de la forme f (x, u) = ug(x) (en supposant pour simplifier u à valeurs scalaires),

21
Chapitre 2. Contrôlabilité des systèmes non-linéaires

on déduit par inversion du temps que pour tout y ∈ A(T, x0 ) tel que Vy ⊂ A(T, x0 ), on peut
ramener tout point y 0 ∈ Vy à x0 . En effet, en notant u0 le contrôle amenant x0 en y 0 en temps T ,
on pose ũ0 (t) = −u0 (T − t) et on vérifie que x̃(t) = xu0 (T − t) vérifie bien x̃(0) = y 0 , x̃(T ) = x0
et dtd x̃(t) = − dtd xu0 (T − t) = −u0 (T − t)g(xu0 (T − t)) = ũ0 (t)g(x̃(t)), ce qui montre que x̃ est
bien la trajectoire associée au contrôle ũ0 .
Exemple 2.21. [Pendule inversé] On considère l’exemple du pendule inversé (masse vers le
haut, tige vers le bas) avec pour simplifier une masse et une longueur unités (m = 1, l = 1).
On suppose que le pendule a un mouvement dans un plan et on repère l’extrémité supérieure
du pendule par son angle θ avec la verticale (dans le sens horaire). On contrôle l’accélération
horizontale du point inférieur de la tige. La dynamique s’écrit sous la forme
θ̈(t) = sin(θ(t)) − u(t) cos(θ(t)).
En posant x = (x1 , x2 ) = (θ, θ̇) ∈ R2 , on se ramène à un système d’ordre un :
 
x2
ẋ(t) = f (x(t), u(t)), f (x, u) = .
sin(x1 ) − u cos(x1 )
On calcule
   
∂f 0 1 ∂f 0
(x, u) = , (x, u) = .
∂x cos(x1 ) + u sin(x1 ) 0 ∂u − cos(x1 )

On considère le point d’équilibre instable (x0 , u0 ) = ((0, 0)† , 0). Le système linéarisé autour de
˙
ce point s’écrit sous la forme δx(t) = Aδx(t) + Bδu(t) avec
   
∂f 0 1 ∂f 0
A= (x0 , u0 ) = , B= (x0 , u0 ) = .
∂x 1 0 ∂u −1
La condition de Kalman est bien satisfaite car
 
0 −1
C = (B, AB) = .
−1 0
On a donc montré que le pendule inversé est localement contrôlable autour de son point
d’équilibre instable (x0 , u0 ) = ((0, 0)† , 0). Enfin, en adaptant le raisonnement présenté à la
remarque 2.20, on montre qu’on peut ramener tout point au voisinage du point d’équilibre
instable vers ce point.

2.4 Rappels/compléments : topologie faible, différentielle,


sélection mesurable
L’objectif de cette section est de rappeler quelques notions utiles sur la topologie faible
dans les espaces de Hilbert et la différentielle de Fréchet dans les espaces de Banach d’une part
et d’apporter quelques compléments sur les résultats de sélection mesurable qui sont parfois
invoqués dans ce cours d’autre part.

22
2.4 Rappels/compléments : topologie faible, différentielle, sélection mesurable

2.4.1 Topologie faible dans les espaces de Hilbert


Soit V un espace de Hilbert de produit scalaire noté (·, ·)V . On se contente ici de rappeler
les définitions et résultats qui nous seront utiles ; pour des compléments, le lecteur pourra
consulter les chapitres 3 et 5 de la référence [3].

Définition 2.22 (Convergence faible). On dit qu’une suite (vn )n∈N de V converge faible-
ment vers v ∈ V si

lim (vn , ϕ)V = (v, ϕ)V (dans R) ∀ϕ ∈ V. (2.25)


n→+∞

L’inégalité de Cauchy–Schwarz montre que si la suite (vn )n∈N converge fortement vers v
(i.e., limn→+∞ kvn − vkV = 0), alors la suite (vn )n∈N converge faiblement vers v.

Théorème 2.23 (Compacité faible). Si (vn )n∈N est une suite bornée dans V , on peut en
extraire une sous-suite faiblement convergente.

Théorème 2.24 (Fermeture faible des convexes). Soit K un sous-ensemble fermé non-vide de
l’espace de Hilbert V . On suppose que K est convexe. Alors, K est fermé pour la topologie
faible. En d’autres termes, si (vn )n∈N est une suite de K qui converge faiblement vers v dans
V , alors v ∈ K.

2.4.2 Différentielle de Fréchet


Soit V un espace de Banach de norme k·kV . On rappelle que l’espace dual V 0 est composé
des formes linéaires continues sur V , i.e., φ ∈ V 0 est une application linéaire φ : V → R telle
que
∃C > 0, |hφ, vi| ≤ C kvkV , ∀v ∈ V. (2.26)

Définition 2.25 (Différentielle de Fréchet). Soit V un espace de Banach et J : V → R une


application. On dit que J est différentiable (au sens de Fréchet) en v ∈ V s’il existe une
forme linéaire continue
J 0 (v) ∈ V 0 (2.27)
telle que
J(v + δv) = J(v) + hJ 0 (v), δvi + o(δv), ∀δv ∈ V, (2.28)
o(δv)
où la notation o(δv) signifie que limδv→0 kδvkV
= 0.

Dans le cas où V est un espace de Hilbert, on peut utiliser le théorème de représentation
de Riesz pour identifier la forme linéaire continue J 0 (v) ∈ V 0 avec son représentant

∇J(v) ∈ V. (2.29)

En notant (·, ·)V le produit scalaire dans V , on a

hJ 0 (v), δvi = (∇J(v), δv)V , ∀δv ∈ V. (2.30)

23
Chapitre 2. Contrôlabilité des systèmes non-linéaires

En dimension finie avec V = Rd , on écrit J(v1 , . . . , xd ) ∈ R ainsi que


 ∂J 
∂v1
0 ∂J ∂J
∇J(v) =  ...  .

J (v) = , . . . , ∂v , (2.31)
 
∂v1 d
∂J
∂vd
1
R
Exemple 2.26. [Fonctionnelle quadratique] On considère V = L2 (Ω) et J(v) = 2 Ω
v(x)2 dx.
On a
Z Z Z
1 2 1
J(v + δv) = v(x) dx + v(x)δv(x) dx + δv(x)2
2 Ω Ω 2 Ω
Z
= J(v) + v(x)δv(x) dx + o(δv).

0
R
D’où hJ (v), δvi = Ω
v(x)δv(x) dx et ∇J(v) = v.
Plus généralement, soit V, W deux espaces de Banach et J : V → W une application.
On dit que J est différentiable (au sens de Fréchet) en v ∈ V s’il existe une application
linéaire continue J 0 (v) : V → W telle que
J(v + δv) = J(v) + J 0 (v)(δv) + o(δv) (∈ W ), ∀δv ∈ V, (2.32)
ko(δv)kW
avec limδv→0 kδvkV
= 0.

2.4.3 Sélection mesurable


Les résultats de sélection mesurable qui sont brièvement présentés dans cette sous-section
jouent un rôle important dans la justification mathématique rigoureuse de divers résultats de
contrôle optimal. Ces résultats font appel à des notions relativement fines de théorie de la
mesure, et ne seront donc qu’esquissés ici. Une présentation complète peut être trouvée dans
le chapitre 14 du livre [9]. Le contenu de cette sous-section est inspiré de ce chapitre.
Commençons par présenter la problématique. On pose I = [0,T ]. On considère une appli-
cation Φ : [0,T ] × Rk → R = [−∞, +∞]. Pour tout t ∈ I, on considère le sous-ensemble
U (t) = arg min Φ(t, u) ⊂ Rk , (2.33)
u∈Rk

et on pose J = {t ∈ I | U (t) 6= ∅}. On souhaite savoir s’il existe une application u : J → Rk qui
soit mesurable et telle que u(t) ∈ U (t) pour tout t ∈ J. Une telle application est appelée une
sélection mesurable. Un résultat simple et utile est que si l’application Φ est mesurable
par rapport à t (à u fixé) et si elle est convexe et continue par rapport à u (à t fixé), alors
il existe une telle sélection mesurable.
Le reste de cette sous-section a pour objectif d’apporter une réponse mathématique un peu
plus complète au problème de la sélection mesurable. Dans un premier temps, on considère
des applications définies sur I à valeurs dans les sous-ensembles de Rk . On note S : I ⇒ Rk
une telle application (le symbole ⇒ est là pour nous rappeler que S(t) est un sous-ensemble
de Rk qui n’est pas forcément réduit à un point). On équipe I d’une σ-algébre notée A (par
exemple, la tribu borélienne de R restreinte à I).

24
2.4 Rappels/compléments : topologie faible, différentielle, sélection mesurable

Définition 2.27 (Mesurabilité). On dit que l’application S : I ⇒ Rk est mesurable si pour


tout ouvert O ⊂ Rk , l’image réciproque
[
S −1 (O) = S −1 (u) = {t ∈ I | S(t) ∩ O 6= ∅} (2.34)
u∈O

est mesurable, i.e., si S −1 (O) ∈ A. En particulier, le domaine de S, dom S = S −1 (Rk ), est


donc mesurable (on notera que si S(t) = ∅, alors t 6∈ dom S).
Si l’application S ne prend comme valeurs que des singletons, on retrouve la définition
usuelle de la mesurabilité d’une application de I dans Rk .
Théorème 2.28 (Représentation de Castaing). La mesurabilité d’une application S : I ⇒ Rk
à valeurs fermées (cela signifie que pour tout t ∈ I, S(t) est un fermé) est équivalente
à l’existence d’une représentation de Castaing, i.e., à l’existence d’une famille dénombrable
de fonctions mesurables sn : dom S → Rk , ∀n ∈ N, telles que pour tout t ∈ dom S, S(t) =
{sn (t)}n∈N .
Corollaire 2.29 (Sélection mesurable). Une application S : I ⇒ Rk mesurable à valeurs
fermées admet une sélection mesurable, i.e., il existe une application mesurable s : dom S → Rk
telle que s(t) ∈ S(t) pour tout t ∈ dom S.
Considérons à nouveau une application Φ : [0,T ] × Rk → R. L’application-épigraphe EΦ :
I ⇒ Rk × R et l’application-domaine DΦ : I ⇒ Rk , associées à Φ, sont telles que, pour tout
t ∈ I,
EΦ (t) = {(u, α) ∈ Rk × R | Φ(t, u) ≤ α}, (2.35a)
DΦ (t) = {u ∈ Rk | Φ(t, u) < +∞}. (2.35b)

Définition 2.30 (Intégrande normal). On dit que l’application Φ : [0,T ] × Rk → R est un


intégrande normal si son application-épigraphe EΦ : I ⇒ Rk × R est mesurable à valeurs
fermées.
Proposition 2.31 (Ensembles de niveau). L’application Φ : [0,T ]×Rk → R est un intégrande
normal si et seulement si pour tout α ∈ R, l’application ensemble de niveau Nα : I ⇒ Rk telle
que Nα (t) = {u ∈ Rk | Φ(t, u) ≤ α} est mesurable à valeurs fermées.
On rappelle qu’une fonction f : Rk → R est semi-continue inférieurement (sci en abrégé)
si son épigraphe {(u, α) ∈ Rk × R | f (u) ≤ α} est fermé ; de manière équivalente, pour tout
u ∈ Rk et tout  > 0, il existe un voisinage U de u tel que pour tout v ∈ U , on a f (v) ≥ f (u)−.
Proposition 2.32 (Conséquences de la normalité d’un intégrande). On suppose que l’appli-
cation Φ : [0,T ] × Rk → R est un intégrande normal. Alors,
(i) l’application-domaine DΦ : I ⇒ Rk est mesurable ;
(ii) pour toute fonction mesurable I 3 t 7→ u(t) ∈ Rk , la fonction t 7→ Φ(t, u(t)) est mesurable ;
(iii) l’application Φ est mesurable par rapport à t (à u fixé) et elle est sci par rapport à u (à
t fixé) ; en revanche, toute application qui est mesurable par rapport à t et sci par rapport u
n’est pas nécessairement un intégrande normal.

25
Chapitre 2. Contrôlabilité des systèmes non-linéaires

Proposition 2.33 (Fonction de Carathéodory). Toute fonction de Carathéodory, i.e., toute


fonction qui est mesurable par rapport à t (à u fixé) et continue par rapport à u (à t fixé) est
un intégrande normal.

Exemple 2.34. [Indicatrice] On suppose que l’application S : I ⇒ Rk est mesurable et à


valeurs fermées. Alors, la fonction indicatrice δS : I × Rk → R telle que
(
0 si u ∈ S(t),
δS (t, u) =
+∞ sinon,

est un intégrande normal.

Venons-en au résultat principal lié à la notion d’intégrande normal.

Théorème 2.35 (Mesurabilité de minimiseurs et du minimum). On suppose que l’application


Φ : [0,T ] × Rk → R est un intégrande normal. On pose pour tout t ∈ I,

ϕ(t) = inf Φ(t, u), U (t) = arg min Φ(t, u). (2.36)
u∈Rk u∈Rk

Alors, l’application ϕ : I → R est mesurable et l’application U : I ⇒ Rk est mesurable à


valeurs fermées. Par conséquent, le sous-ensemble J = {t ∈ I | U (t) 6= ∅} ⊂ I est mesurable
et pour tout t ∈ J, on peut choisir un minimiseur u(t) dans U (t) de sorte que l’application
t 7→ u(t) soit mesurable.

Proposition 2.36 (Convexité). Soit Φ : [0,T ]×Rk → R une application mesurable par rapport
à t et sci par rapport à u. Alors, si Φ est convexe par rapport à u (à t fixé), Φ est un intégrande
normal.

26
Chapitre 3

Optimisation dans les espaces de


Hilbert

Ce chapitre est consacré à l’optimisation de fonctionnelles, éventuellement sous contraintes,


dans les espaces de Hilbert. Afin de motiver cette problématique, nous commencerons par
étudier un problème de contrôle optimal très simple où la dynamique est linéaire (et auto-
nome) et le critère à minimiser est quadratique en le contrôle ; nous verrons que dans ce cas, il
est relativement aisé de produire un contrôle optimal. Le cœur de ce chapitre contient divers
résultats abstraits d’optimisation qui serviront à plusieurs reprises dans ce cours et où la notion
de convexité joue un rôle central. Il s’agit d’une part de résultats nous permettant d’affirmer
l’existence, voire l’unicité, d’un minimiseur et d’autre part de conditions nécessaires,
voire suffisantes, d’optimalité faisant intervenir la notion de différentielle. Enfin, nous don-
nerons un exemple d’application important de ces résultats abstraits en traitant le problème
de temps-optimalité pour un système de contrôle linéaire ; ce problème consiste à trouver
un contrôle permettant d’atteindre une cible atteignable donnée en temps minimum.

3.1 Contrôle optimal sous critère quadratique


Le but de cette section est de présenter un exemple relativement simple de problème de
contrôle optimal afin de motiver les résultats qui suivront sur l’optimisation dans les espaces
de Hilbert.
On considère le système de contrôle linéaire autonome (1.1), à savoir

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ [0,T ], xu (0) = x0 ∈ Rd , (3.1)

avec des matrices A ∈ Rd×d , B ∈ Rd×k , où d ≥ 1 et k ≥ 1. L’état du système est décrit par la
fonction xu : [0,T ] → Rd et on considère des contrôles u : [0,T ] → Rk dans l’espace de Hilbert

U = L2 ([0,T ]; Rk ). (3.2)

On se donne une cible x1 ∈ Rd et on suppose que les matrices A et B vérifient la condition


de Kalman (cf. le théorème 1.8) si bien que le système de contrôle linéaire (3.1) est contrôlable.

27
Chapitre 3. Optimisation dans les espaces de Hilbert

En d’autres termes, il existe des contrôles u ∈ U tels que xu (T ) = x1 . On va chercher parmi


tous ces contrôles permettant d’atteindre la cible x1 (en temps T à partir de x0 ) celui (ou
ceux) qui minimise(nt) le critère quadratique suivant :
Z T
J(u) = |u(t)|2Rk dt. (3.3)
0

On cherche donc un contrôle optimal u ∈ U amenant l’état en x1 (en temps T en partant de


x0 ), i.e., tel que pour tout autre contrôle u ∈ U ayant les mêmes propriétés, on a J(u) ≥ J(u).
Afin de formaliser ce problème de contrôle optimal, on introduit le sous-ensemble K ⊂ U tel
que  
R T (T −s)A
K= u∈U| 0 e Bu(s) ds = x1 − eT A x0 , (3.4)

et la fonctionnelle J : U → R définie en (3.3). On pourra noter au passage que la fonctionnelle


J est ici particulièrement simple puisque l’on a J(u) = kuk2V . Le problème de contrôle optimal
s’écrit sous la forme suivante :

Chercher u ∈ K tel que J(u) = inf J(u). (3.5)


u∈K

Nous serons amenés à nous poser les questions suivantes concernant le problème de contrôle
optimal (3.5), et plus généralement les problèmes de contrôle optimal rencontrés dans ce cours :
(Q1) existe-t-il une solution, i.e., un contrôle optimal ?
(Q2) cette solution est-elle unique ?
(Q3) peut-on formuler une condition suffisante d’optimalité, i.e., nous permettant d’affirmer
que si un contrôle u ∈ K vérifie cette condition, alors u est un contrôle optimal ?
Pour des problèmes de contrôle optimal relativement simples, comme celui considéré ci-dessus,
nous serons en mesure d’apporter une réponse complète à ces questions. Pour des problèmes
plus compliqués, nous devrons souvent nous contenter de traiter la question suivante :
(Q4) peut-on formuler une condition nécessaire d’optimalité, i.e., nous permettant d’affirmer
que si u ∈ K est un contrôle optimal, alors il vérifie cette condition.
L’intérêt pratique d’une condition nécessaire d’optimalité est qu’elle nous permet d’effectuer
un premier tri parmi les contrôles dans K. Dans le cas favorable où ce premier tri nous permet
d’identifier un nombre relativement restreint de contrôles candidats à l’optimalité, on pourra
ensuite vérifier la valeur du critère pour chacun d’entre eux et ainsi trouver un contrôle optimal.
Concluons cette section en exhibant un contrôle optimal dans K pour le problème (3.5).
Nous montrerons ultérieurement, grâce aux résultats abstraits de la section suivante, l’unicité
du contrôle optimal pour le problème (3.5). Cela nous permettra alors d’affirmer que nous
avons trouvé le contrôle optimal pour le problème (3.5). On considère la matrice GT ∈ Rd×d
définie en (1.17), i.e.,
Z T

GT = e(T −s)A BB † e(T −s)A ds. (3.6)
0

28
3.2 Minimisation de fonctionnelles

Comme le système de contrôle linéaire (3.1) est contrôlable par hypothèse, la matrice GT est
inversible (cf. le lemme 1.13). On pose

u(s) = B † e(T −s)A y, y = G−1
T (x1 − e
TA
x0 ). (3.7)
Lemme 3.1 (Synthèse d’un contrôle optimal). Le contrôle u défini par (3.7) est solution
de (3.5).
Démonstration. Nous devons vérifier que u ∈ K et que J(u) ≤ J(u) pour tout u ∈ K.
(1) On a bien u ∈ U = L2 ([0,T ]; Rk ) et en utilisant la formule de Duhamel, il vient
Z T
TA
xu (T ) = e x0 + e(T −s)A Bu(s) ds = eT A x0 + GT y = x1 . (3.8)
0
Ceci montre que u ∈ K.
(2) Soit u ∈ K, i.e., u ∈ L2 ([0,T ]; Rk ) et xu (T ) = x1 . En posant δ = u − u, on constate par
linéarité
R T (T −s)Aque le contrôle δ amène la condition initiale 0 à la cible 0 en temps T , i.e., on a
0
e Bδ(s) ds = 0. En développant, il vient
Z T
J(u) = J(u + δ) = |u(s) + δ(s)|2Rk ds
0
Z T
= J(u) + 2 δ(s)† u(s) ds + J(δ)
0
Z T

= J(u) + 2 δ(s)† (B † e(T −s)A y) ds + J(δ)
0
Z T
= J(u) + 2 (e(T −s)A Bδ(s))† y ds + J(δ)
0
Z T †
(T −s)A
= J(u) + 2 e Bδ(s) ds y + J(δ) = J(u) + J(δ) ≥ J(u),
0

car J(δ) ≥ 0. Ceci montre que J(u) ≤ J(u) pour tout u ∈ K.

3.2 Minimisation de fonctionnelles


Soit V un espace de Hilbert, soit K ⊂ V un sous-ensemble fermé non-vide de V . On
désigne par (·, ·)V le produit scalaire dans V et k · kV la norme associée. Soit J : K → R
une fonctionnelle (i.e., une application de K dans R ; on utilise le terme fonctionnelle car
bien souvent les éléments de V sont des fonctions, par exemple du temps). On considère le
problème de minimiser la fonctionnelle J sur K, i.e.,
Chercher v ∈ K tel que J(v) = inf J(v). (3.9)
v∈K

Il s’agit d’un problème de minimisation sous contraintes car on se restreint au sous-ensemble


K ⊂ V . Lorsque K = V , on parle de problème de minimisation libre (ou sans contraintes),
i.e., on considère le problème suivant :
Chercher v ∈ V tel que J(v) = inf J(v). (3.10)
v∈V

29
Chapitre 3. Optimisation dans les espaces de Hilbert

3.2.1 Un premier exemple : projection sur un convexe


Définition 3.2 (Sous-ensemble convexe). Un sous-ensemble K d’un espace vectoriel V est dit
convexe si
θu + (1 − θ)v ∈ K, ∀u, v ∈ K, ∀θ ∈ [0, 1]. (3.11)

Soit K un sous-ensemble convexe fermé non-vide d’un espace de Hilbert V . Pour tout
v ∈ V , on cherche le point de K le plus proche de v. Ce point (nous verrons qu’il est unique)
est appelé la projection de v sur K et est noté ΠK (v). Le problème de la projection d’un
point sur un convexe rentre dans le cadre du problème (3.9) en introduisant la fonctionnelle
J(w) = kv − wkV .

Proposition 3.3 (Projection sur un sous-ensemble convexe). Soit K un sous-ensemble convexe


fermé non-vide d’un espace de Hilbert V . Alors, pour tout v ∈ V , il existe un unique élément
de K, noté ΠK (v), tel que

kv − ΠK (v)kV = inf kv − wkV , ∀w ∈ V. (3.12)


w∈K

De plus, ΠK (v) est l’unique point de K tel que

(v − ΠK (v), w − ΠK (v))V ≤ 0, ∀w ∈ K. (3.13)

On notera au passage que d(v, K) = inf w∈K kv − wkV = kv − ΠK (v)kV .

Démonstration. (1) Existence et unicité. On utilise l’identité suivante (dite formule de la


médiane) :
2
y+z kyk2V + kzk2V 1
= − ky − zk2V , ∀y, z ∈ V.
2 V 2 4
Soit (wn )n∈N une suite minimisante dans K, i.e., telle que kv − wn kV → inf w∈K kv − wkV
quand n → +∞. En appliquant la formule de la médiane à y = v − wn et z = v − wp pour
tout n, p ∈ N, on montre que la suite (wn )n∈N est de Cauchy dans V . Elle converge donc vers
une limite ` ∈ V . Comme K est fermé, ` ∈ K. Ceci montre l’existence de la projection de v
sur K. L’unicité résulte à nouveau de la formule de la médiane.
(2) Montrons l’identité (3.13). Pour tout w ∈ K et θ ∈ ]0, 1], comme ΠK (v)+θ(w−ΠK (v)) ∈ K
par convexité de K, on obtient

kv − ΠK (v)k2V ≤ kv − (ΠK (v) + θ(w − ΠK (v)))k2V


= kv − ΠK (v)k2V − 2θ(v − ΠK (v), w − ΠK (v))V + θ2 kw − ΠK (v)k2V .

En simplifiant par kv − ΠK (v)k2V puis en divisant par θ, il vient

2(v − ΠK (v), w − ΠK (v))V ≤ θkw − ΠK (v)k2V ,

et on conclut en faisant tendre θ vers zéro par valeurs positives.

30
3.2 Minimisation de fonctionnelles

Corollaire 3.4 (Séparation d’un point et d’un convexe par un hyperplan). Soit K un sous-
ensemble convexe fermé non-vide d’un espace de Hilbert V . Soit v ∈ V tel que v 6∈ K. Alors,
il existe un hyperplan affine H = {w ∈ V | L(w) = α} où L ∈ V 0 et α ∈ R séparant v de K,
i.e., tel que
L(v) > α, K ⊂ {w ∈ V | L(w) ≤ α}. (3.14)

Démonstration. Il suffit de considérer la forme linéaire continue L(w) = (v − ΠK (v), w)V et


poser α = (v − ΠK (v), ΠK (v))V . La condition (3.13) signifie que pour tout w ∈ K, on a
L(w) ≤ α. De plus, on a L(v) − α = kv − ΠK (v)k2V > 0 car v 6∈ K.

3.2.2 Minimisation de fonctionnelles convexes sur des convexes


Définition 3.5 (Convexité, stricte convexité, forte convextié). Soit K un sous-ensemble
convexe d’un espace de Hilbert V et soit J : K → R.
(i) On dit que J est convexe sur K si

J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v), ∀u, v ∈ K, ∀θ ∈ [0, 1]. (3.15)

(ii) On dit que J est strictement convexe sur K si l’inégalité (3.15) est stricte pour tout
u 6= v et tout θ ∈ ]0, 1[.
(iii) On dit que J est fortement convexe ou α-convexe sur K s’il existe un réel α > 0 tel
que
 
u+v J(u) + J(v) α
J ≤ − ku − vk2V , ∀u, v ∈ K. (3.16)
2 2 8
Lorsque la fonctionnelle J est également continue, on a plus généralement
α
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − θ(1 − θ)ku − vk2V , ∀u, v ∈ K, ∀θ ∈ [0, 1]. (3.17)
2
Bien entendu, on a les implications suivantes :

forte convexité =⇒ stricte convexité =⇒ convexité. (3.18)

Proposition 3.6 (Minoration de fonctionnelles convexes). Soit K un sous-ensemble fermé


non-vide d’un espace de Hilbert V et soit J : K → R. On suppose que l’ensemble K est
convexe et que la fonctionnelle J est continue.
(i) Si J est convexe sur K, il existe une forme linéaire continue L ∈ V 0 et une constante
δ ∈ R telles que
J(v) ≥ L(v) + δ, ∀v ∈ K. (3.19)
(ii) Si J est fortement convexe sur K, il existe deux constantes γ > 0 et δ 0 ∈ R telles que

J(v) ≥ γ kvk2V + δ 0 , ∀v ∈ K. (3.20)

31
Chapitre 3. Optimisation dans les espaces de Hilbert

Démonstration. (1) Preuve de (3.19). Comme J est convexe et continue, son épigraphe, qui
est défini comme l’ensemble

E = {(λ, v) ∈ R × K | λ ≥ J(v)} (3.21)

est un sous-ensemble convexe, fermé et non-vide de R × V . Soit v0 ∈ K et λ0 < J(v0 ),


si bien que (λ0 , v0 ) 6∈ K. En appliquant le corollaire 3.4, on déduit l’existence d’une paire
(β, L) ∈ R × V 0 et d’un réel α tels que

βλ0 + L(v0 ) ≤ α < βλ + L(v), ∀(λ, v) ∈ E.

Comme λ peut être arbitrairement grand au membre de droite, on doit avoir β ≥ 0 ; de plus,
en prenant v = v0 , on voit que β 6= 0. D’où β > 0. En prenant λ = J(v), on en déduit que
α 1
J(v) = λ > − L(v).
β β

(2) Preuve de (3.20). Soit v ∈ K arbitraire et soit u ∈ K fixé. En appliquant (3.16) puis (3.19),
on voit que
 
J(v) + J(u) v+u α
≥J + kv − uk2V
2 2 8
L(v) + L(u) α
≥ + δ + kv − uk2V .
2 8
On en déduit que
α
J(v) ≥ kvk2V + c1 kvkV + c2 ,
4
avec c1 = − α2 kukV −kLkV 0 et c2 = −J(u)+L(u)+2δ+ α4 kuk2V . Comme c1 kvkV ≥ − α8 kvk2V − α2 c21 ,
on obtient la minoration (3.20) avec γ = α8 et δ 0 = c2 − α2 c21 .

Théorème 3.7 (Minimisation de fonctionnelles convexes). Soit K un sous-ensemble convexe


fermé non-vide d’un espace de Hilbert V et soit J : K → R une fonctionnelle convexe et
continue sur K. On suppose que la fonctionnelle J est infinie à l’infini dans K, ce qui signifie
que pour toute suite (vn )n∈N de K telle que kvn kV → +∞, on a J(vn ) → +∞. Alors, il existe
au moins un minimiseur de J sur K.

Démonstration. Comme J est infinie à l’infini, toute suite minimisante (vn )n∈N est bornée. Du
théorème 2.23, on déduit qu’à une sous-suite près, cette suite converge faiblement vers une
limite v ∈ V , et grâce au théorème 2.24, on montre que v ∈ K. Comme l’épigraphe de J
(cf. (3.21)) est un ensemble convexe fermé, il est fermé pour la topologie faible et on conclut
que J(v) ≤ inf w∈K J(w), ce qui prouve l’existence du minimiseur de J sur K.

Théorème 3.8 (Minimisation de fonctionnelles fortement convexes). Soit K un sous-ensemble


convexe fermé non-vide d’un espace de Hilbert V et soit J : K → R une fonctionnelle fortement
convexe et continue sur K. Alors, il existe un unique minimiseur de J sur K.

32
3.2 Minimisation de fonctionnelles

Démonstration. (1) Pour l’existence du minimiseur, on peut invoquer le théorème 3.7 et la


minoration (3.20) qui montre que la fonctionnelle J est infinie à l’infini. On peut également
donner une preuve directe en considérant une suite minimisante (vn )n∈N dans K. En utili-
sant (3.16), il vient
 
α 2 J(vn ) + J(vp ) vn + vp
kvn − vp kV ≤ −J
8 2 2
   
1 1
≤ J(vn ) − inf J(w) + J(vp ) − inf J(w) ,
2 w∈K 2 w∈K

où nous avons utilisé la convexité de K pour obtenir −J( vn +v


2
p
) ≤ − inf w∈K J(w). La majora-
tion ci-dessus montre que la suite (vn )n∈N est de Cauchy dans V donc converge vers une limite
v ∈ V qui est dans K puisque K est fermé.
(2) L’unicité du minimiseur résulte à nouveau de (3.16) puisque si v1 et v2 sont deux minimi-
seurs de J sur K, en raisonnant comme ci-dessus, on obtient
   
α 2 1 1
kv1 − v2 kV ≤ J(v1 ) − inf J(w) + J(v2 ) − inf J(w) = 0,
8 2 w∈K 2 w∈K

ce qui montre que v1 = v2 .

3.2.3 Conditions de minimalité


Nous allons maintenant nous intéresser à des conditions nécessaires de minimalité en sup-
posant que la fonctionnelle J est différentiable sur K (au sens de Fréchet) et nous allons
également voir dans quelles situations ces conditions nécessaires de minimalité sont également
suffisantes.
On renvoie le lecteur à la sous-section 2.4.2 pour la notion de différentielle d’une fonction-
nelle et quelques exemples importants (qu’il est essentiel de bien maı̂triser !). Comme nous
nous plaçons ici dans le cadre des espaces de Hilbert, nous allons privilégier la notion de gra-
dient plutôt que celle de forme linéaire continue. Soit V un espace de Hilbert ; on désigne par
(·, ·)V le produit scalaire dans V et k · kV la norme associée. Soit J : K → R une fonctionnelle
différentiable sur K, i.e., pour tout v ∈ K, il existe un élément de V noté ∇J(v) tel que

J(v + δv) = J(v) + (∇J(v), δv)V + o(δv), ∀δv ∈ V, v + δv ∈ K, (3.22)


o(δv)
où la notation o(δv) signifie que limδv→0 kδvk V
= 0. Notons que si la fonctionnelle J est
différentiable sur K, elle est a fortiori continue sur K.
Avant d’entrer dans le vif du sujet sur les conditions de minimalité, voyons comment la
notion de différentielle nous permet d’étudier la convexité d’une fonctionnelle.
Proposition 3.9 (Caractérisation de la convexité). Soit K un sous-ensemble convexe fermé
non-vide d’un espace de Hilbert V et soit J : K → R une fonctionnelle différentiable sur K.
Soit α > 0 un réel strictement positif. Les assertions suivantes sont équivalentes :
(i) J est fortement convexe de paramètre α ;

33
Chapitre 3. Optimisation dans les espaces de Hilbert

(ii) J(v) ≥ J(u) + (∇J(u), v − u)V + 12 αku − vk2V , ∀u, v ∈ K ;


(iii) (∇J(u) − ∇J(v), u − v)V ≥ αku − vk2V , ∀u, v ∈ K.
En outre, la convexité de la fonctionnelle J est équivalente aux assertions (ii) et (iii) avec
α = 0.

Démonstration. (i) ⇒ (ii). Pour tout entier k ∈ N, en posant θk = 2−k , on montre par
récurrence sur k à partir de (3.16) que pour tout u, v ∈ K, on a
α
J((1 − θk )u + θk v) ≤ (1 − θk )J(u) + θk J(v) − θk (1 − θk )ku − vk2V ,
2
et en ré-arrangeant les différents termes, il vient

1 α
J(u + θk (v − u)) − J(u) ≤ J(v) − J(u) − (1 − θk )ku − vk2V .

θk 2

En faisant tendre k → +∞ et en utilisant la différentiabilité de J, on obtient la minoration


de J(v) dans (ii).
(ii) ⇒ (iii). Il suffit d’écrire la propriété (ii) avec u et v, puis d’échanger les rôles de u et de v
et de sommer.
(iii) ⇒ (i). Soit u, v ∈ K. On définit la fonction ψ : R → R telle que ψ(t) = J(u + t(v − u))
pour tout t ∈ R. On vérifie facilement que la fonction ψ est dérivable (et donc continue) sur
R et on a ψ 0 (t) = (∇J(u + t(v − u)), v − u)V . En utilisant la minoration (iii), il vient

(t−s)(ψ 0 (t)−ψ 0 (s)) = (∇J(u+t(v−u))−∇J(u+s(v−u)), (t−s)(v−u))V ≥ α(t−s)2 ku−vk2V .

Pour s ≤ t, il vient ψ 0 (t) − ψ 0 (s) ≥ α(t − s)ku − vk2V . Soit θ ∈ [0, 1]. En intégrant cette inégalité
pour (t, s) ∈ [θ, 1] × [0, θ], on obtient
α
θψ(1) + (1 − θ)ψ(0) − ψ(θ) ≥ θ(1 − θ)ku − vk2V ,
2

qui n’est rien d’autre que (3.16) pour θ = 12 .

Proposition 3.10 (Équation d’Euler, minimisation sans contraintes). Soit V un espace de


Hilbert et soit J : V → R une fonctionnelle différentiable sur V . On considère le problème de
minimisation sans contraintes (3.10).
(i) Une condition nécessaire de minimalité pour (3.10) est

∇J(v) = 0 (∈ V ). (3.23)

Cette condition, appelée équation d’Euler, signifie que si v ∈ V est solution de (3.10), alors v
vérifie (3.23).
(ii) Si la fonctionnelle J est convexe, la condition (3.23) est également suffisante ; ceci
signifie que si v ∈ V vérifie (3.23), alors v est solution de (3.10).

34
3.2 Minimisation de fonctionnelles

Démonstration. (1) Soit v ∈ V une solution de (3.10). Pour tout δv ∈ V , on a


0 ≤ J(v + δv) − J(v) = (∇J(v), δv)V + o(δv).
On divise par kδvkV puis on fait tendre δv vers 0. On en déduit que (∇J(v), δv)V ≥ 0 ; comme
δv est arbitraire dans V , on peut changer δv en −δv. On conclut ainsi que ∇J(v) = 0 dans
V , i.e., v vérifie (3.23).
(2) Supposons maintenant que la fonctionnelle J est convexe et que v ∈ V vérifie (3.23). En
utilisant la proposition 3.9 dans le cas convexe (α = 0), on en déduit que
J(v) ≥ J(v) + (∇J(v), v − v)V = J(v), ∀v ∈ V.
| {z }
=0

On conclut ainsi que v est solution de (3.10).


Proposition 3.11 (Inéquation d’Euler, minimisation avec contraintes). Soit K un sous-
ensemble convexe fermé non-vide d’un espace de Hilbert V . Soit J : K → R une fonctionnelle
différentiable sur K. On considère le problème de minimisation avec contraintes (3.9).
(i) Une condition nécessaire de minimalité pour (3.9) est
(∇J(v), v − v)V ≥ 0, ∀v ∈ K. (3.24)
Cette condition, appelée inéquation d’Euler, signifie que si v ∈ K est solution de (3.9), alors
v vérifie (3.24).
(ii) Si la fonctionnelle J est convexe, la condition (3.24) est également suffisante ; ceci
signifie que si v ∈ K vérifie (3.24), alors v est solution de (3.9).
Démonstration. (1) Soit v ∈ V une solution de (3.9). Pour tout v ∈ K, v 6= v, et tout θ ∈ ]0, 1],
on a v + θ(v − v) ∈ K car le sous-ensemble K est convexe. Par suite, il vient
0 ≤ J(v + θ(v − v)) − J(v) = θ(∇J(v), v − v)V + o(θ(v − v)).
On divise par θkv − vkV puis on fait tendre θ vers 0 (par valeurs positives). On en déduit que
v vérifie bien (3.24).
(2) La preuve du caractère suffisant de l’inéquation d’Euler dans le cas où J est une fonction-
nelle convexe est identique au cas sans contraintes.
Remarque 3.12. [Cas d’un point intérieur] Si v̄ est situé à l’intérieur de l’ensemble K (on
dit que v̄ ne sature pas la contrainte), l’inéquation d’Euler (3.24) devient ∇J(v̄) = 0 (∈ V ).
Cela résulte du fait qu’on peut prendre v = v̄ + ρz avec ρ suffisamment petit et z arbitraire
dans V .
Exemple 3.13. [Projection sur un convexe] Pour la projection d’un élément v ∈ V sur
un ensemble convexe K (cf. la proposition 3.3), la fonctionnelle à minimiser est J(w) =
kv − wk2V . La fonctionnelle J est fortement convexe (de paramètre α = 2) grâce à la formule
de la médiane. Un calcul élémentaire montre que ∇J(w) = 2(w − v). On voit donc que la
caractérisation (3.13) de la projection convexe n’est rien d’autre que l’inéquation d’Euler pour
ΠK (v) obtenue à la proposition 3.11.

35
Chapitre 3. Optimisation dans les espaces de Hilbert

3.2.4 Application au contrôle optimal sous critère quadratique


Nous reprenons brièvement l’exemple du problème de contrôle optimal sous critère qua-
dratique introduit à la section 3.1. Ce problème rentre dans le cadre abstrait de la section 3.2
en posant
V = L2 ([0,T ]; Rk ), (3.25a)
Z T
J : V → R, J(u) = |u(t)|2Rk dt = kuk2V , (3.25b)
0
 Z T 
(T −s)A TA
K= u∈V | e Bu(s) ds = x1 − e x0 . (3.25c)
0

L’espace V est bien un espace de Hilbert. La fonctionnelle J est fortement convexe sur V de
paramètre α = 2 (utiliser la formule de la médiane). Enfin, K est un sous-ensemble convexe
fermé non-vide de V . En effet,
— K est non-vide car nous avons supposé que le système de contrôle linéaire est contrôlable ;
— K est convexe car pour deux contrôles u1 , u2 ∈ K et pour tout θ ∈ [0, 1], on a
Z T    
e(T −s)A B(θu1 (s)+(1−θ)u2 (s)) ds = θ x1 −eT A x0 +(1−θ) x1 −eT A x0 = x1 −eT A x0 ;
0

— enfin, si (un )n∈N est une suite de K qui converge vers u dans V , on a
Z T Z T
(T −s)A
TA
x1 − e x0 = e Bun (s) ds → e(T −s)A Bu(s) ds,
0 0

ce qui montre que la limite u amène x0 en x1 en temps T , i.e., u ∈ K ; le sous-ensemble


K est donc bien fermé.
En appliquant le théorème 3.8, on en déduit qu’il existe un unique contrôle optimal u ∈ K
minimisant J sur K. En outre, de par la proposition 3.11, une condition nécessaire et suffisante
d’optimalité est
(u, u − u)V ≥ 0, ∀u ∈ K. (3.26)
Or, lorsque u décrit K, le vecteur h = u − u décrit le sous-espace vectoriel
 Z T 
(T −s)A
H= h∈V | e Bh(s) ds = 0 . (3.27)
0

On a donc (u, h)V ≥ 0 pour tout h ∈ H et comme H est un sous-espace vectoriel, on peut
considérer les vecteurs h et −h dans l’inégalité ci-dessus, ce qui montre que u ∈ H ⊥ . Soit

(ei )1≤i≤d une base cartésienne de Rd . Posons yi (t) = B † e(T −t)A ei ; on a yi ∈ V pour tout
i ∈ {1, . . . , d} et par définition H = (vect(yi )1≤i≤d )⊥ . Par suite, u ∈ vect(yi )1≤i≤d (qui est de
dimension finie donc fermé) ; en d’autres termes, il existe un vecteur y ∈ Rd tel que

u(t) = B † e(T −t)A y, ∀t ∈ [0,T ]. (3.28)
Finalement, le vecteur y ∈ Rd s’obtient en imposant que xu (T ) = x1 , et par la formule de
Duhamel, on retrouve bien l’expression donnée dans l’équation (3.7).

36
3.3 Exemple : temps-optimalité (cas linéaire)

3.3 Exemple : temps-optimalité (cas linéaire)


Dans cette section, on considère le système de contrôle linéaire autonome
ẋu (t) = Axu (t) + Bu(t), ∀t ≥ 0 xu (0) = x0 , (3.29)
avec des matrices A ∈ Rd×d et B ∈ Rd×k . On suppose que le contrôle est à valeurs dans un
sous-ensemble compact non-vide U ⊂ Rk . On pose, pour tout t > 0,
Ut = L∞ ([0,t]; U ). (3.30)
Le problème de temps-optimalité est le suivant : on se donne une cible x1 ∈ Rd , on sup-
pose qu’il existe au moins une trajectoire reliant x0 à x1 en temps fini, et parmi toutes ces
trajectoires, on cherche celle(s) qui le font en temps minimal. On rappelle que l’ensemble
atteignable en temps t à partir de x0 est défini comme suit (cf. la section 1.3) :
A(t, x0 ) = {y ∈ Rd | ∃u ∈ Ut tel que xu (t) = y}. (3.31)
Nous avons vu (cf. la proposition 1.19) que pour tout t ≥ 0, l’ensemble atteignable A(t, x0 )
est compact, convexe, et varie continûment en temps. Le problème de temps-optimalité se
formalise alors comme suit : étant donnée une cible x1 ∈ Rd atteignable en temps fini, i.e.,
telle que l’ensemble {t ≥ 0 | x1 ∈ A(t, x0 )} est non-vide, on cherche
t∗ = inf{t ≥ 0 | x1 ∈ A(t, x0 )}. (3.32)
Comme l’ensemble A(t, x0 ) varie continûment en t, l’ensemble {t ≥ 0 | x1 ∈ A(t, x0 )} est
fermé dans R, si bien que la borne inférieure t∗ est atteinte (considérer une suite minimisante
tn ↓ t∗ et constater que 0 = d(x1 , A(tn , x0 )) → d(x1 , A(t∗ , x0 )) de par la dépendance continue
en temps).
Lemme 3.14 (Atteinte à la frontière). On a x1 ∈ ∂A(t∗ , x0 ).
Démonstration. On raisonne par l’absurde en supposant que x1 ∈ Å(t∗ , x0 ). Il existe donc un
réel ρ > 0 tel que B(x1 , ρ) ⊂ A(t∗ , x0 ) où B(x1 , ρ) désigne la boule ouverte de centre x1 et de
rayon ρ. Comme l’ensemble atteignable A(t, x0 ) varie continûment en t, il existe δ > 0 tel que
d(A(t∗ , x0 ), A(t∗ − δ, x0 )) ≤ ρ2 , i.e., pour tout z ∈ A(t∗ , x0 ), on peut trouver y ∈ A(t∗ − δ, x0 )
tel que |z − y|Rd ≤ 12 ρ. De plus, comme x1 a été atteint en temps optimal et que δ > 0,
x1 6∈ A(t∗ − δ, x0 ). L’ensemble A(t∗ − δ, x0 ) étant convexe, le corollaire 3.4 implique qu’il existe
un hyperplan affine H séparant x1 de A(t∗ −δ, x0 ). En notant ΠH (x1 ) la projection orthogonale
de x1 sur H, on a donc kx1 − ΠH (x1 )kV > 0. On considère le point
ρ x1 − ΠH (x1 )
z = x1 + .
2 kx1 − ΠH (x1 )kV
Par construction, kz − x1 kV = ρ2 , i.e., z ∈ B(x1 , ρ), et donc z ∈ A(t∗ , x0 ). On peut donc
trouver y ∈ A(t∗ − δ, x0 ) tel que |z − y|Rd ≤ 21 ρ. Or, par construction, on a
1
d(z, A(t∗ − δ, x0 )) > ρ,
2
d’où la contradiction. En conclusion, on a bien x1 ∈ ∂A(t∗ , x0 ).

37
Chapitre 3. Optimisation dans les espaces de Hilbert

Remarque 3.15. [Convexité] L’argument de convexité est essentiel dans la preuve ci-dessus.
On pourra s’en persuader en considérant les ensembles B(t) = {v ∈ V | 1 − t ≤ kvkV ≤ 2}
pour tout t ∈ [0, 1]. L’ensemble B(t) est fermé non-vide mais il n’est pas convexe pour t < 1 ;
de plus, B(t) varie continûment en temps. Or, le point v = 0 appartient à B(1) mais pas à
B(s) pour tout s < 1 ; or, v = 0 est situé à l’intérieur de B(1).
Un raisonnement identique à celui de la preuve du lemme 3.14 s’applique pour tout t ∈
[0,t∗ ] : si x∗ (t) est la trajectoire associée à un contrôle temps-minimal, on a
x∗ (t) ∈ ∂A(t, x0 ), ∀t ∈ [0,t∗ ]. (3.33)
Une illustration est présentée à la figure 3.1.
A(t∗, x0)
A(t, x0)
x0
x1

Figure 3.1 – Illustration d’une trajectoire associée à un contrôle temps-optimal, et plus


généralement d’une trajectoire associée à un contrôle extrémal.

Définition 3.16 (Contrôle extrémal). On dit qu’un contrôle u ∈ Ut est extrémal si la


trajectoire associée vérifie xu (s) ∈ ∂A(s, x0 ) pour tout s ∈ [0,t].
On a donc montré qu’un contrôle temps-optimal est nécessairement extrémal. La réciproque
est bien sûr fausse car la notion d’extrémalité ne distingue pas entre minimalité et maximalité.
Nous allons maintenant établir une condition nécessaire et suffisante d’extrémalité.
Théorème 3.17 (Condition nécessaire et suffisante d’extrémalité). On fixe un horizon tem-
porel T > 0. On suppose que l’ensemble U est non-vide, compact et convexe. Alors, le contrôle
u ∈ UT est extrémal sur [0,T ] si et seulement si il existe une solution non-triviale (i.e., qui
n’est pas identiquement nulle) p : [0,T ] → Rd de l’équation
ṗ(t) = −A† p(t), t ∈ [0,T ], (3.34)
telle que
p(t)† Bu(t) = min p(t)† Bv, p.p. t ∈ [0,T ]. (3.35)
v∈U

La fonction p : [0,T ] → Rd est appelée état adjoint.


Remarque 3.18. [État adjoint] On notera que la condition initiale sur l’état adjoint p n’est
pas spécifiée dans (3.34). On notera également que l’état adjoint est ici une fonction régulière
du temps. En outre, seule la direction de l’état adjoint p(t) compte dans (3.35), mais pas son
amplitude.

38
3.3 Exemple : temps-optimalité (cas linéaire)

Remarque 3.19. [Contrôle extrémal] La condition nécessaire et suffisante d’extrémalité du


théorème 3.17 montre que si le contrôle u est extrémal sur [0,T ], il l’est sur [0,t] pour tout
t ∈ [0,T ].

Démonstration. (1) Condition nécessaire. Soit u ∈ UT un contrôle extrémal et soit xu : [0,T ] →


Rd la trajectoire associée. Comme xu (T ) ∈ ∂A(T, x0 ) et que l’ensemble atteignable A(T, x0 )
est convexe (cf. la proposition 1.19), il existe un hyperplan séparant au sens large xu (T ) et
A(T, x0 ), i.e.,
∃pT ∈ Rd \ {0}, p†T (y − xu (T )) ≥ 0, ∀y ∈ A(T, x0 ). (3.36)
Une illustration est présentée à la figure 3.2. En notant û ∈ UT un contrôle quelconque associé

A(T, x0)
xu(T )

y − xu(T ) pT

Figure 3.2 – Illustration de la séparation au sens large du point xu (T ) et de l’ensemble


convexe A(T, x0 ).

à une trajectoire amenant au point y ∈ A(T, x0 ), l’inégalité p†T (y − xu (T )) ≥ 0 s’écrit


Z T Z T
p†T e(T −t)A B û(t) dt ≥ p†T e(T −t)A Bu(t) dt.
0 0

En introduisant l’état adjoint tel que ṗ(t) = −A† p(t), pour tout t ∈ [0,T ] et p(T ) = pT ,
l’inégalité ci-dessus se récrit
Z T Z T

p(t) B û(t) dt ≥ p(t)† Bu(t) dt.
0 0

On peut alors raisonner par l’absurde. Supposons que p(t)† Bu(t) > minv∈U p(t)† Bv sur un
sous-ensemble de [0,T ] de mesure strictement positive. Ceci implique que
Z T Z T

p(t) Bu(t) dt > min p(t)† Bv dt.
0 0 v∈U

On considère alors un contrôle û sur [0,T ] à valeurs dans U tel que

p(t)† B û(t) = min p(t)† Bv.


v∈U

39
Chapitre 3. Optimisation dans les espaces de Hilbert

En invoquant un résultat de sélection mesurable (cf. la sous-section 2.4.3), on montre que û


peut être choisi mesurable sur [0,T ], i.e., on a bien û ∈ UT . On a ainsi obtenu
Z T Z T

min p(t) Bv dt = p(t)† B û(t) dt
0 v∈U 0
Z T
≥ p(t)† Bu(t) dt
0
Z T
> min p(t)† Bv dt,
0 v∈U

ce qui fournit la contradiction cherchée. En conclusion, on a bien (3.35).


(2) Condition suffisante. Supposons qu’il existe un état adjoint non trivial tel que le contrôle
vérifie
p(t)† Bu(t) = min p(t)† Bv, p.p. t ∈ [0,T ].
v∈U

En remontant les calculs précédents, on en déduit que

p(t)† (y − xu (t)) ≥ 0, ∀y ∈ A(t, x0 ), ∀t ∈ [0,T ].

Si xu (t) ∈ Å(t, x0 ), il existerait  > 0 tel que xu (t) − p(t) ∈ A(t, x0 ) ; d’où

p(t)† (y − x(t)) = −|p(t)|2Rd ≥ 0,

ce qui fournit la contradiction cherchée. En conclusion, on a bien xu (t) ∈ ∂A(t, x0 ).


Remarque 3.20. [Fonction de commutation] Dans le cas mono-entrée (i.e., dans le cas d’un
contrôle scalaire où k = 1), l’ensemble U où le contrôle peut prendre ses valeurs est un
intervalle. Considérons pour simplifier le cas où U = [−a, a] avec a > 0. La condition de
minimisation (3.35) implique alors que

u(t) = −a signe(p(t)† B).

La fonction
t 7→ p(t)† B ∈ R
est la fonction de commutation, et les temps tc où le contrôle u change de valeur sont
appelés les temps de commutation. Ces temps de commutation correspondent aux zéros
de la fonction de commutation. On montre (voir par exemple la proposition 3.4 dans [11])
que dans le cas d’un système de contrôle linéaire autonome dont les matrices A et B vérifient
la condition de Kalman et si toutes les valeurs propres de A sont réelles, alors tout contrôle
extrémal a au plus (d − 1) commutations.
Exemple 3.21. [Contrôle d’un tram] Reprenons l’exemple 1.11 du tram. On rappelle que
le tram est repéré par sa position x(t) le long d’un axe unidirectionnel et qu’on contrôle
son accélération par le biais du contrôle u(t). En considérant une masse unité, l’équation du
mouvement est donc
ẍ(t) = u(t), ∀t ∈ [0,T ].

40
3.3 Exemple : temps-optimalité (cas linéaire)

En posant X(t) = (x(t), v(t))† où v(t) = ẋ(t), on obtient


   
0 1 0
Ẋ(t) = AX(t) + Bu(t), A = , B= .
0 0 1

On part d’une condition initiale (x0 , v0 )† ∈ R2 et on souhaite atteindre la cible (0, 0)† en temps
minimal. En appliquant le théorème 3.17, on introduit l’état adjoint p(t) = (px (t), pv (t))† tel
que ṗ(t) = −A† p(t). Il vient ṗx (t) = 0, ṗv (t) = −px (t), i.e.,
px (t) = px0 , pv (t) = pv0 − px0 t.
La condition de minimalité (3.35) s’écrit
u(t) = − signe(p(t)† B) = − signe(pv (t)).
Comme la fonction pv est affine en t, cela nous permet déjà de montrer qu’il y a au plus une
commutation et que le contrôle temps-optimal est nécessairement bang-bang. Pour aller plus
loin, on calcule les trajectoires dans l’espace des phases (i.e., dans le plan (x, v)).
— Si le contrôle est constant et égal à 1, on a x(t) − 12 v(t)2 = cste (car dtd (x(t) − 21 v(t)2 ) =
ẋ(t) − v(t)v̇(t) = v(t) − v(t)u(t) = 0) ; les trajectoires sont donc des paraboles d’axe
Ox, parcourues dans le sens des v croissants.
— Si le contrôle est constant et égal à −1, on a x(t) + 12 v(t)2 = cste ; les trajectoires sont
donc des paraboles d’axe −Ox, parcourues dans le sens des v décroissants.
Ces paraboles sont illustrées à la figure 3.3. Les deux demi-paraboles en rouge sur la figure 3.3

v
u = −1
11
00
00
11
00
11
u = −1
x
u=1
u=1

Figure 3.3 – Temps-optimalité pour l’arrêt d’un tram : trajectoires et courbe de commutation.

forment la courbe de commutation, et le point vert indique la commutation sur chaque tra-
jectoire. On notera que le contrôle optimal s’écrit comme un feedback en fonction de l’état
puisque l’on a
— u = 1 si X est au-dessous de la courbe de commutation (dans ce cas, il faut accélérer)
— u = −1 si X est au-dessus de cette courbe (dans ce cas, il faut décélérer).
L’obtention d’un contrôle optimal sous forme de feedback est très intéressant en pratique.

41
Chapitre 3. Optimisation dans les espaces de Hilbert

42
Chapitre 4

Le système linéaire-quadratique (LQ)

Ce chapitre est consacré à l’étude du système linéaire-quadratique (LQ). Il s’agit d’un


problème de contrôle optimal régi par une dynamique linéaire et où le critère à minimiser
est quadratique en le contrôle et en la trajectoire associée. Ce problème étant relativment
simple, il nous sera possible d’en mener une analyse mathématique complète. D’une part,
nous montrerons l’existence et l’unicité du contrôle optimal. D’autre part, cette analyse nous
permettra de dégager plusieurs notions importantes pour la suite : l’état adjoint pour le
calcul de la différentielle du critère, le Hamiltonien pour la formulation du contrôle optimal
à tout temps comme un minimiseur fonction des valeurs instantanées de l’état adjoint et enfin,
celle de feedback grâce à l’équation de Riccati afin de formuler le contrôle optimal en boucle
fermée, c’est-à-dire comme une fonction instantanée de l’état du système.

4.1 Présentation du système LQ


On se donne un intervalle de temps [0,T ], avec T > 0, une matrice A ∈ Rd×d et une matrice
B ∈ Rd×k . On se donne également une condition initiale x0 ∈ Rd et (pour un peu plus de
généralité) un terme de dérive f ∈ L1 ([0,T ]; Rd ). Le système de contrôle linéaire s’écrit sous
la forme
ẋu (t) = Axu (t) + Bu(t) + f (t), ∀t ∈ [0,T ], xu (0) = x0 . (4.1)
L’ensemble des contrôles admissibles est ici l’espace

V = L2 ([0,T ]; Rk ). (4.2)

Pour chaque contrôle u ∈ L2 ([0,T ]; Rk ), il existe une unique trajectoire xu ∈ AC([0,T ]; Rd )


associée à ce contrôle.
L’objectif de ce chapitre est de chercher un contrôle optimal (en fait le contrôle optimal,
car nous verrons qu’il est unique) qui minimise dans L2 ([0,T ]; Rk ) le critère
Z T Z T
1 † 1 1
J(u) = u(t) Ru(t) dt + exu (t)† Qexu (t) dt + exu (T )† Dexu (T ), (4.3)
2 0 2 0 2

43
Chapitre 4. Le système linéaire-quadratique (LQ)

où exu = xu − ξ et où ξ ∈ C 0 ([0,T ]; Rd ) est une trajectoire cible donnée. On s’intéresse donc
au problème suivant :
Chercher u ∈ V tel que J(u) = inf J(u). (4.4)
u∈V
d×d
Dans la définition du critère J, les matrices Q, D ∈ R sont symétriques semi-définies po-
k×k
sitives, tandis que la matrice R ∈ R est symétrique définie positive. La définie positivité
de la matrice R jouera un rôle clé pour assurer l’existence et l’unicité du contrôle optimal
minimisant J sur L2 ([0,T ]; Rk ). On notera que le critère J résulte d’une pondération au sens
des moindres carrés entre l’atteinte de la trajectoire cible décrite par la fonction ξ et le fait
que le contrôle ne soit pas “trop grand” dans L2 ([0,T ]; Rk ). En revanche, on ne s’impose pas
ici d’atteindre exactement la cible au temps final T (ni à aucun temps intermédiaire). Une
illustration générale du problème de contrôle optimal LQ est présentée à la figure 4.1.
ξ(0)
x(t) x(T )
x0 ξ(T )
ξ(t)

Figure 4.1 – Illustration du problème de contrôle optimal LQ : trajectoire cible et trajectoire


optimale.

Remarque 4.1. [Q = D = 0] On peut prendre Q = D = 0 dans le critère (4.3). La solution


du problème (4.4) est alors triviale : u ≡ 0 sur [0,T ].
Afin d’étudier les propriétés de la fonctionnelle J, il sera utile de poser
J(u) = JR (u) + JQD (u), ∀u ∈ V, (4.5)
avec
1 T
Z
JR (u) = u(t)† Ru(t) dt, (4.6a)
2 0
1 T
Z
1
JQD (u) = exu (t)† Qexu (t) dt + exu (T )† Dexu (T ). (4.6b)
2 0 2
Lemme 4.2 (Forte convexité et continuité de J). La fonctionnelle J définie en (4.3) est
fortement convexe et continue sur l’espace de Hilbert V = L2 ([0,T ]; Rk ).
Démonstration. Comme la matrice R est symétrique définie positive, la fonctionnelle JR est
fortement convexe sur V de paramètre α = λmin (R) (la plus petite valeur propre de la matrice
R). En effet, pour deux vecteurs v1 , v2 ∈ Rk , on a
† 
v † Rv1 + v2† Rv2 1
 
v1 + v2 v1 + v2
R = 1 − (v1 − v2 )† R(v1 − v2 )
2 2 2 4
v1† Rv1 + v2† Rv2 1
≤ − λmin (R)|v1 − v2 |2Rk .
2 4

44
4.2 Différentielle du critère : état adjoint

On en déduit que pour deux contrôles u1 , u2 ∈ V , on a


 
u1 + u2 JR (u1 ) + JR (u2 ) 1
JR ≤ − λmin (R)ku1 − u2 k2V ,
2 2 8

ce qui prouve la forte convexité de la fonctionnelle JR sur V avec paramètre α = λmin (R).
De plus, la fonctionnelle JR est clairement continue en u. Par ailleurs, la fonctionnelle JQD
est convexe sur V comme composée d’une application convexe par une application affine. En
effet,
Rt
— comme xu (t) = etA x0 + 0 e(t−s)A (Bu(s) + f (s)) ds, l’application qui à u ∈ L2 ([0,T ]; Rk )
associe exu = xu − ξ ∈ C 0 ([0,T ]; Rd ) est affine ;
— comme les matrices Q et D sont symétriques semi-définies positives, on montre facile-
1 T
ment que l’application qui à y ∈ C ([0,T ]; R ) associe 2 0 y(t)† Qy(t) dt+ 12 y(T )† Dy(T ) ∈
0 d
R

R est convexe (même raisonnement que ci-dessus).


La fonctionnelle JQD est en outre continue comme composée de deux applications continues.
En conclusion, la fonctionnelle J est fortement convexe sur V comme somme d’une application
fortement convexe (JR ) et d’une application convexe (JQD ), et J est également continue comme
somme de deux applications continues.

Corollaire 4.3 (Existence et unicité). Il existe un unique contrôle optimal u ∈ V solution


de (4.4).

Démonstration. Il suffit de combiner le théorème 3.8 (avec K = V ) avec le lemme 4.2.

4.2 Différentielle du critère : état adjoint


L’objectif de cette section est d’utiliser les résultats de la section 3.2.3 afin d’établir une
condition nécessaire et suffisante d’optimalité formulée à l’aide de la différentielle de la fonc-
tionnelle J.

Lemme 4.4 (Différentiabilité de J). La fonctionnelle J est différentiable sur V et on a, pour


tout u ∈ V ,
∇J(u) = Ru + B † p (∈ V ), (4.7)

où l’état adjoint p ∈ C 1 ([0,T ]; Rd ) est l’unique solution de l’équation différentielle rétrograde
en temps
ṗ(t) = −A† p(t) − Qexu (t), ∀t ∈ [0,T ], p(T ) = Dexu (T ). (4.8)

Démonstration. Comme J = JR + JQD , nous allons considérer séparément la différentiabilité


des fonctionnelles JR et JQD .
(1) La différentiabilité de JR est immédiate puisque, en utilisant la symétrie de la matrice R,

45
Chapitre 4. Le système linéaire-quadratique (LQ)

il vient, pour toute perturbation du contrôle δu ∈ V ,


1 T
Z
JR (u + δu) = (u(t) + δu(t))† R(u(t) + δu(t)) dt
2 0
Z T
= JR (u) + δu(t)† Ru(t) dt + JR (δu)
0
= JR (u) + (Ru, δu)V + JR (δu).
Comme JkδukR (δu)
V
≤ 21 λmax (R)kδukV , on conclut que ∇JR (u) = Ru ∈ V , ce qui signifie que
p.p. sur [0,T ], on a (∇JR (u))(t) = Ru(t).
(2) Pour différentier JQD , on considère la trajectoire perturbée xu+δu , associée au contrôle
perturbé u + δu. Par linéarité, on a xu+δu = xu + δx avec
d
δx(t) = Aδx(t) + Bδu(t), ∀t ∈ [0,T ], δx(0) = 0.
dt
La perturbation de la trajectoire δx est donc linéaire en δu et on a kδxkC 0 ([0,T ];Rd ) ≤ CkδukV
Rt
car δx(t) = 0 e(t−s)A Bδu(s) ds, où C est une constante dépendant de A, B et T mais qui
est uniforme en δu. Comme les matrices Q et D sont symétriques, et en raisonnant comme
ci-dessus, on obtient
Z T
JQD (u + δu) = JQD (u) + δx(t)† Qexu (t) dt + δx(T )† Dexu (T )
0
Z T
1 1
+ δx(t)† Qδx(t) dt + δx(T )† Dδx(T ),
2 0 2
ce qui montre que
Z T
(∇JQD (u), δu)V = δx(t)† Qexu (t) dt + δx(T )† Dexu (T ).
0

Au membre de droite, la perturbation du contrôle δu n’apparaı̂t pas explicitement, mais uni-


quement de manière implicite par le fait que la perturbation de la trajectoire δx dépend
(linéairement) de la perturbation du contrôle δu. Afin de faire apparaı̂tre explicitement δu au
membre de droite, on utilise l’état adjoint p ∈ C 1 ([0,T ]; Rd ) solution de (4.8). En effet, en
intégrant par parties en temps, on constate que
Z T
(∇JQD (u), δu)V = δx(t)† Qex (t) dt + δx(T )† Dex (T )
0
Z T
=− δx(t)† (ṗ(t) + A† p(t)) dt + δx(T )† p(T )
0
Z T
˙ † p(t) − δx(t)† A† p(t) dt

= δx(t)
0
Z T Z T

= (Bδu(t)) p(t) dt = δu(t)† B † p(t) dt = (B † p, δu)V .
0 0

En conclusion, on a montré que ∇JQD (u) = B † p, ce qui conclut la preuve.

46
4.2 Différentielle du critère : état adjoint

Théorème 4.5 (CNS d’optimalité). Le contrôle u ∈ V est optimal pour le problème LQ si


et seulement si on a
u(t) = −R−1 B † p(t) ∀t ∈ [0,T ], (4.9)
où l’état adjoint p : [0,T ] → Rd est tel que

dp
(t) = −A† p(t) − Qex (t), ∀t ∈ [0,T ], p(T ) = Dex (T ), (4.10)
dt
où ex = x − ξ et où x = xu est la trajectoire associée au contrôle optimal u, i.e.,

dx
(t) = Ax(t) + Bu(t) + f (t), ∀t ∈ [0,T ], x(0) = x0 . (4.11)
dt
Le triplet (x, p, u) satisfaisant les conditions ci-dessus est appelé une extrémale.

Démonstration. Il suffit de combiner la proposition 3.10 avec le lemme 4.4, le caractère suffisant
de la condition (4.9) résultant de la convexité de la fonctionnelle J.

Remarque 4.6. [État adjoint] Attention, il n’y a pas de condition initiale sur p, mais une
condition finale en T . Par ailleurs, dans la littérature, la convention est parfois de définir l’état
adjoint comme un vecteur ligne pb := p† . Dans ce cas, le système différentiel rétrograde s’écrit
d
dt
p(t)A − ex (t)† Q, pour tout t ∈ [0,T ], et pb(T ) = ex (T )† D. Enfin, le contrôle optimal
pb(t) = −b
est u(t) = −R−1 B † pb(t)† .

Remarque 4.7. [Régularité] On notera que si (x, p, u) est une extrémale, on a p ∈ C 1 ([0,T ]; Rd )
et par conséquent u ∈ C 1 ([0,T ]; Rk ). Il n’y a pas ici de phénomène de commutation pour le
contrôle optimal.

Remarque 4.8. [Unicité de l’extrémale] Même si on sait déjà qu’on a unicité du contrôle
optimal u, donc de la trajectoire optimale x et de la trajectoire adjointe p, il est instructif de
montrer directement l’unicité de l’extrémale. Par linéarité (considérer la différence entre deux
extrémales), il suffit de montrer que dans le cas sans dérive et avec cible nulle, une extrémale
est nécessairement nulle. Considérons donc une extrémale (x, p, u) telle que

dx
(t) = Ax(t) + Bu(t), x(0) = 0,
dt
dp
(t) = −A† p(t) − Qx(t), p(T ) = Dx(T ),
dt
u(t) = −R−1 B † p(t).

L’observation cruciale est que


 †
d † dp dx
(t) x(t) + p(t)† (t)

p(t) x(t) =
dt dt dt
= −x(t)† Qx(t) − (B † p(t))† R−1 B † p(t) ≤ 0.

47
Chapitre 4. Le système linéaire-quadratique (LQ)

Comme x(0) = 0, en intégrant de 0 à T , il vient


Z T
† d
p(t)† x(t) dt

0 = p(T ) x(T ) −
0 dt
Z T 
† † † † −1 †
= x(T ) Dx(T ) + x(t) Qx(t) + (B p(t)) R B p(t) dt.
0

Comme les matrices D et Q sont positives et que la matrice R est définie positive, on en déduit
que B † p(t) = 0 sur [0,T ]. Donc, u(t) = 0, ce qui implique que x(t) = 0, et ce qui implique
enfin que p(t) = 0.
Exemple 4.9. [Mouvement d’un point matériel] On considère un point matériel qui peut
se déplacer sur une droite et dont on contrôle la vitesse (cf. l’exemple 1.22). Le système de
contrôle linéaire s’écrit, avec d = k = 1,

ẋu (t) = u(t), ∀t ∈ [0,T ], xu (0) = x0 .

Le critère à minimiser dans V = L2 ([0,T ]; R) est

1 T 1 T
Z Z
2
J(u) = xu (t) dt + u(t)2 dt,
2 0 2 0
qui réalise une pondération au sens des moindres carrés entre l’atteinte de la cible nulle sur
[0,T ] et le fait que le contrôle ne soit pas trop grand dans L2 ([0,T ]; R). Ce problème rentre
dans le cadre du système LQ introduit à la section 4.1 en posant

A = 0, B = 1, R = 1, Q = 1, D = 0, ξ ≡ 0.

En appliquant le théorème 4.5, on déduit que le contrôle optimal est

u(t) = −p(t),

où l’état adjoint est solution de


dp
(t) = −x(t), ∀t ∈ [0,T ], p(T ) = 0.
dt
On a donc
      
d x(t) 0 −1 x(t) tZ cosh(t) − sinh(t)
= , e = ,
dt p(t) −1 0 p(t) − sinh(t) cosh(t)
| {z }
=Z

si bien que

x(t) = x0 cosh(t) − p(0) sinh(t),


p(t) = −x0 sinh(t) + p(0) cosh(t).

48
4.3 Principe du minimum : Hamiltonien

x0
x0 tanh(T ) x0/ cosh(T )

t
T
−x0 tanh(T )

Figure 4.2 – Illustration de l’extrémale obtenue à l’exemple 4.9 (mouvement d’un point
matériel) : trajectoire x(t), état adjoint p(t), contrôle optimal u(t) ; la cible ξ(t) est identique-
ment nulle.

On notera que l’état adjoint initial est, à ce stade, encore inconnu. Afin de le déterminer, on
utilise la condition en t = T sur l’état adjoint, à savoir p(T ) = 0. On obtient facilement que
p(0) = x0 tanh(T ). En conclusion, l’extrémale s’écrit
1
x(t) = x0 cosh(T )
cosh(T − t),
1
p(t) = x0 cosh(T )
sinh(T − t),
1
u(t) = −p(t) = −x0 cosh(T )
sinh(T − t).
Cette extrémale est illustrée à la figure 4.2.

4.3 Principe du minimum : Hamiltonien


L’objectif de cette section est de reformuler le théorème 4.5 à l’aide de la notion de Hamil-
tonien. Ce point de vue nous sera très utile au chapitre suivant lorsque nous aborderons les
systèmes de contrôle non-linéaires et formulerons le principe du minimum de Pontryaguine.
Définition 4.10 (Hamiltonien). Le Hamiltonien associé au système de contrôle linéaire (4.1)
et à la fonctionnelle J définie en (4.3) est l’application H : [0,T ] × Rd × Rd × Rk → R telle
que
1 1
H(t, x, p, u) = p† (Ax + Bu + f (t)) + u† Ru + (x − ξ(t))† Q(x − ξ(t)). (4.12)
2 2
On notera bien que dans cette écriture, (x, p, u) désigne un vecteur générique de Rd × Rd × Rk .
Un calcul élémentaire sur les dérivées partielles du Hamiltonien (qui sont ici identifiées à
des vecteurs colonne) montre que
∇x H(t, x, p, u) = A† p + Q(x − ξ(t)), (4.13a)
∇p H(t, x, p, u) = Ax + Bu + f (t), (4.13b)
∇u H(t, x, p, u) = B † p + Ru. (4.13c)

49
Chapitre 4. Le système linéaire-quadratique (LQ)

On considère maintenant l’extrémale (x, p, u) obtenue au théorème 4.5. Pour tout t ∈ [0,T ],
on évalue H et ses dérivées partielles en (t, x(t), p(t), u(t)). On constate d’une part que

dx
(t) = Ax(t) + Bu(t) + f (t) = ∇p H(t, x(t), p(t), u(t)), (4.14a)
dt
dp
(t) = −A† p(t) − Q(x(t) − ξ(t)) = −∇x H(t, x(t), p(t), u(t)), (4.14b)
dt
et d’autre part que
∇u H(t, x(t), p(t), u(t)) = 0. (4.15)
Comme la fonction v 7→ H(t, x, p, v) est fortement convexe en v ∈ Rk pour tout triplet (t, x, p)
fixé dans [0,T ] × Rd × Rd , l’équation (4.15) ne signifie rien d’autre que

u(t) = arg min H(t, x(t), p(t), v), ∀t ∈ [0,T ]. (4.16)


v∈Rk

Il s’agit du principe du minimum de Pontryaguine (PMP) dans le cas particulier du


système LQ. Résumons ce résultat sous la forme d’une proposition.

Proposition 4.11 (PMP pour le système LQ). Le contrôle u ∈ V est optimal pour le problème
LQ si et seulement si on a

u(t) = arg min H(t, x(t), p(t), v), ∀t ∈ [0,T ], (4.17)


v∈Rk

avec
dx
(t) = ∇p H(t, x(t), p(t), u(t)) = Ax(t) + Bu(t), x(0) = x0 , (4.18a)
dt
dp
(t) = −∇x H(t, x(t), p(t), u(t)) = −A† p(t) − Qex (t), p(T ) = Dex (T ), (4.18b)
dt
où ex (t) = x(t) − ξ(t).
b := −H et aboutir à un
Remarque 4.12. [Convention de signe] On aurait pu définir H
principe du maximum pour H.
b

Dans le cas particulier avec dérive et cible nulles, i.e., lorsque f ≡ 0 et ξ ≡ 0 sur [0,T ], le
Hamiltonien H ne dépend pas du temps, i.e., on a
∂H
(t, x, p, u) = 0. (4.19)
∂t
On dit que le Hamiltonien est autonome.

Proposition 4.13 (Conservation du Hamiltonien le long de l’extrémale). On suppose que


dérive et cible sont nulles, i.e., que le Hamiltonien est autonome. Alors, la valeur du Hamil-
tonien se conserve le long de l’extrémale (x, p, u).

50
4.4 Équation de Riccati : feedback

Démonstration. On considère l’application H : [0,T ] → R telle que

H(t) = H(x(t), p(t), u(t)), ∀t ∈ [0,T ].

En dérivant cette fonction par rapport au temps, il vient


dH † dx † dp † du
(t) = ∇x H (t) + ∇p H (t) + ∇u H (t)
dt dt dt dt
dp dx dx dp
= − (t)† (t) + (t)† (t) + 0 = 0,
dt dt dt dt
ce qui conclut la preuve.
Exemple 4.14. [Mouvement d’un point matériel] On reprend l’exemple 4.9 du mouvement
d’un point matériel le long d’une droite et dont on contrôle la vitesse, i.e., ẋu (t) = u(t), pour
RT
tout t ∈ [0,T ], et xu (0) = x0 . Le critère à minimiser est à nouveau J(u) = 21 0 xu (t)2 dt +
1 T
R
2 0
u(t)2 dt. Ce problème rentre dans le cadre du système LQ avec d = k = 1 et

A = 0, B = 1, R = 1, Q = 1, D = 0, ξ ≡ 0.

Le Hamiltonien est l’application de R × R × R dans R telle que


1 1
H(x, p, u) = pu + u2 + x2 .
2 2
À (x, p) étant fixés, l’application u 7→ H(x, p, u) est quadratique. Le principe du minimum
de Pontryaguine (cf. la proposition 4.11) implique que le contrôle optimal u(t) est, pour tout
t ∈ [0,T ], le minimiseur de u 7→ H(x(t), p(t), u) sur R. En utilisant l’expression de H, on
obtient facilement
u(t) = −p(t).
On retrouve ainsi le même résultat que celui obtenu en considérant la différentielle de J. De
plus, si on évalue le Hamiltonien le long de l’extrémale, il vient
 2
1 2 2 1 x0
H(t) = H(x(t), p(t), u(t)) = (x(t) − p(t) ) = ,
2 2 cosh(T )
car
x0 x0
x(t) = cosh(T − t), p(t) = sinh(T − t).
cosh(T ) cosh(T )
Ce calcul confirme que le Hamiltonien est bien constant le long de l’extrémale, comme annoncé
à la proposition 4.13.

4.4 Équation de Riccati : feedback


L’objectif de cette section est de montrer qu’il est possible, en résolvant l’équation de
Riccati, de formuler à tout temps t ∈ [0,T ] le contrôle optimal u(t) comme un feedback sur
l’état x(t). Pour simplifier, on suppose que dérive et cible sont nulles.

51
Chapitre 4. Le système linéaire-quadratique (LQ)

Théorème 4.15 (Équation de Riccati). On suppose que dérive et cible sont nulles. Il existe
une unique matrice P ∈ C 1 ([0,T ]; Rd×d ) solution de l’équation de Riccati

Ṗ (t) = −A† P (t) − P (t)A + P (t)BR−1 B † P (t) − Q, ∀t ∈ [0,T ], P (T ) = D, (4.20)

et on a
p(t) = P (t)x(t), ∀t ∈ [0,T ], (4.21)
si bien que le contrôle optimal s’écrit sous forme de boucle fermée :

u(t) = K(t)x(t), K(t) = −R−1 B † P (t), ∀t ∈ [0,T ]. (4.22)

De plus, la matrice P (t) est symétrique semi-définie positive, et définie positive si la matrice
D est définie positive. Enfin, la valeur optimale du critère est J(u) = 12 x†0 P (0)x0 .
Démonstration. (1) Dépendance linéaire. Le problème LQ étant bien posé, on sait qu’il existe
un unique couple (x, p) ∈ C 1 ([0,T ]; Rd × Rd ) tel que
dx
(t) = Ax(t) − BR−1 Bp(t), x(0) = x0 ,
dt
dp
(t) = −A† p(t) − Qx(t), p(T ) = Dx(T ).
dt
Par linéarité, le couple (x, p) dépend linéairement de la condition initiale x0 ∈ Rd . Il existe
donc des matrices X , P dans C 1 ([0,T ]; Rd×d ) telles que

x(t) = X (t)x0 , p(t) = P(t)x0 , ∀t ∈ [0,T ],

et on a X (0) = Id .
(2) Inversibilité de X (t). Nous allons montrer que la matrice X (t) est inversible pour tout
t ∈ [0,T ]. Pour ce faire, on raisonne par l’absurde. Soit s ∈ [0,T ] et 0 6= x0 ∈ Rd tels que
x(s) = X (s)x0 = 0. On a nécessairement s > 0 car X (0) = Id . De plus, on a vu que
d
p(t)† x(t) = −x(t)† Qx(t) − (B † p(t))† R−1 B † p(t).

dt
En intégrant de s à T , et comme x(s) = 0, il vient
Z T 
† † † † −1 †
0 = (Dx(T )) x(T ) + x(t) Qx(t) + (B p(t)) R B p(t) dt ≥ 0.
s

Les matrices D, Q, R étant symétriques (semi-)définies positives, on en déduit que

u(t) = −R−1 B † p(t) = 0, ∀t ∈ [s, T ].

On a donc dx dt
(t) = Ax(t) et x(s) = 0 ; d’où x(t) = 0 sur [s, T ]. De même, comme on a
dp †
dt
(t) = −A p(t) et p(T ) = Dx(T ) = 0, il vient p(t) = 0 sur [s, T ]. On en déduit que (x, p)
vérifie un système différentiel linéaire avec conditions finales x(T ) = p(T ) = 0. Ceci implique

52
4.4 Équation de Riccati : feedback

que x(t) = p(t) = 0 sur [0, T ] ; en particulier, on obtient x0 = 0, d’où la contradiction.


(3) Équation de Riccati. On pose
P (t) = P(t)X (t)−1 , ∀t ∈ [0,T ].
Par construction, on a P ∈ C 1 ([0,T ]; Rd×d ). De plus, on constate que
dp dP dx
(t) = (t)x(t) + P (t) (t)
dt dt dt 
dP −1 †
= (t) + P (t)A − P (t)BR B P (t) x(t),
dt
et par ailleurs, on a également dp
dt
(t) = −A† p(t) − Qx(t). On en déduit que
 
dP † −1 †
(t) + P (t)A + A P (t) − P (t)BR B P (t) + Q x(t) = 0,
dt
pour tout t ∈ [0,T ] et pour tout x0 ∈ Rd . Pour tout t ∈ [0,T ] fixé, le vecteur x(t) décrit Rd
lorsque x0 décrit Rd (car X (t) est inversible). Par conséquent, la fonction t 7→ P (t) est bien
solution de l’équation de Riccati pour tout t ∈ [0,T ]. En raisonnant de manière analogue, on
constate que p(T ) = Dx(T ) = P (T )x(T ). Comme x(T ) décrit Rd lorsque x0 décrit Rd , on
conclut que P (T ) = D.
(4) Propriétés de P (t). La fonction t 7→ P (t) est solution d’un système différentiel quadratique.
La non-linéarité satisfait donc une condition de Lipschitz locale, ce qui assure l’unicité de la
solution. L’unicité prouve que P (t) est symétrique pour tout t ∈ [0,T ] car la fonction t 7→ P (t)†
satisfait la même équation. Afin d’établir la positivité de P (t) pour tout t ∈ [0,T ], on raisonne
comme suit. Soit x ∈ Rd . Posons x0 = X (t)−1 x de sorte que x = x(t) où x est la trajectoire
optimale issue de x0 . Comme la fonction t 7→ p(t)† x(t) est décroissante, il vient
x† P (t)x = x(t)† P (t)x(t) ≥ x(T )† Dx(T ) ≥ 0,
ce qui montre que P (t) est semi-définie positive. Enfin, si la matrice D est définie positive,
cela entraı̂ne x(T ) = 0, d’où x = X (t)X (T )−1 x(T ) = 0, i.e., la matrice P (t) est alors définie
positive.
(5) Valeur optimale du critère. Il vient
1 T
Z  
1
J(u) = x(t) Qx(t) + u(t) Ru(t) dt + x(T )† Dx(T )
† †
2 0 2
Z T 
1 1
= x(t)† Qx(t) − p(t)† Bu(t) dt + x(T )† Dx(T )
2 0 2
Z T 
1 1
= x(t)† Qx(t) − p(t)† Bu(t) dt + p(T )† x(T )
2 0 2
Z T
1 d 1
p(t)† x(t) dt + p(T )† x(T )

= −
2 0 dt 2
1 1 1
= p(0)† x(0) = x(0)† P (0)x(0) = x†0 P (0)x0 ,
2 2 2
ce qui conclut la preuve.

53
Chapitre 4. Le système linéaire-quadratique (LQ)

Remarque 4.16. [Représentation linéaire de l’équation de Riccati] Au lieu de résoudre un


système différentiel quadratique de taille d(d+1)
2
(P est symétrique), on peut considérer le
système différentiel linéaire suivant qui est de taille 2d :
A −BR−1 B †
    
d x(t) x(t)
=
dt p(t) −Q −A† p(t)
| {z }
=A∈R(2d)×(2d)

On note R(t) = e(T −t)A la résolvante associée à ce système différentiel (telle que R(T ) = I2d ).
On pose  
R1 (t) R2 (t)
R(t) = ∈ R(2d)×(2d) ,
R3 (t) R4 (t)
où les quatre blocs sont à valeurs dans Rd×d . On a x(t) = R1 (t)x(T ) + R2 (t)p(T ) et p(t) =
R3 (t)x(T ) + R4 (t)p(T ). Or p(T ) = Dx(T ), si bien qu’en posant XT (t) = R1 (t) + R2 (t)D et
PT (t) = R3 (t) + R4 (t)D, il vient x(t) = XT (t)x(T ) et p(t) = PT (t)x(T ). En conclusion, la
matrice P (t) solution de l’équation de Riccati s’obtient également à partir de la résolvante du
système linéaire de taille 2d ci-dessus en posant

P (t) = (R3 (t) + R4 (t)D)(R1 (t) + R2 (t)D)−1 ∈ Rd×d .

Cette expression est intéressante en pratique car elle évite de devoir résoudre un système
différentiel non-linéaire.
Exemple 4.17. [Mouvement d’un point matériel] On reprend l’exemple 4.9 du mouvement
d’un point matériel le long d’une droite et dont on contrôle la vitesse, i.e., ẋu (t) = u(t), pour
RT
tout t ∈ [0,T ], et xu (0) = x0 . Le critère à minimiser est à nouveau J(u) = 21 0 xu (t)2 dt +
1 T
R
2 0
u(t)2 dt. Ce problème rentre dans le cadre du système LQ avec d = k = 1 et

A = 0, B = 1, R = 1, Q = 1, D = 0, ξ ≡ 0.

L’équation de Riccati pour la fonction P (t), ici à valeurs scalaires, s’écrit

Ṗ (t) = P (t)2 − 1, ∀t ∈ [0,T ], P (T ) = 0.

On obtient P (t) = tanh(T − t). Le contrôle optimal se met alors sous forme de boucle fermée

u(t) = K(t)x(t), K(t) = −P (t) = − tanh(T − t).

Pour mémoire, on avait trouvé que


x0
x(t) = cosh(T )
cosh(T − t),
x0
u(t) = −p(t) = − cosh(T )
sinh(T − t),

ce qui permet de retrouver l’expression ci-dessus liant u(t) à x(t). Enfin, la valeur optimale du
critère est J(u) = 21 x20 P (0) = 12 x20 tanh(T ).

54
Chapitre 5

Principe du minimum de Pontryaguine


(PMP)

Ce chapitre est consacré au problème de contrôle optimal pour des systèmes non-linéaires.
Le résultat phare est le principe du minimum de Pontryaguine (PMP) dont nous nous
contenterons de donner l’énoncé dans ce chapitre, une esquisse de preuve étant présentée
au chapitre suivant. Nous verrons que le PMP ne fournit que des conditions nécessaires
d’optimalité dont la formulation fait intervenir, comme pour le système LQ du chapitre
précédent, les notions d’état adjoint et de Hamiltonien. En revanche, le PMP ne dit rien
sur l’existence d’un contrôle optimal ni sur le caractère suffisant de ces conditions. L’intérêt
pratique du PMP est de nous permettre de faire un premier tri des contrôles candidats à
l’optimalité ; en espérant que les contrôles vérifiant les conditions nécessaires d’optimalité du
PMP ne sont pas trop nombreux, on pourra ensuite les examiner individuellement pour en
déterminer le caractère optimal ou non. Afin de nous familiariser avec l’emploi du PMP, nous
présentons dans ce chapitre deux exemples d’application : le système LQ avec des contraintes
sur le contrôle d’une part et un modèle non-linéaire de dynamique de populations d’autre part.

5.1 Systèmes de contrôle non-linéaires


On se donne un intervalle de temps [0,T ] avec T > 0, on considère un état à valeurs
dans Rd , d ≥ 1, et un contrôle à valeurs dans un sous-ensemble fermé non-vide U ⊂ Rk . On
s’intéresse au système de contrôle non-linéaire
ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ [0,T ], xu (0) = x0 , (5.1)
avec une dynamique décrite par la fonction f : [0,T ] × Rd × U → Rd . L’ensemble des contrôles
admissibles est ici le sous-ensemble
U = L1 ([0,T ]; U ) ⊂ L1 ([0,T ]; Rk ). (5.2)
L’objectif est de trouver un contrôle optimal u ∈ U qui minimise le critère
Z T
J(u) = g(t, xu (t), u(t)) dt + h(xu (T )), (5.3)
0

55
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

où les fonctions g : [0,T ] × Rd × U → R et h : Rd → R sont données. Le problème de contrôle


optimal est donc le suivant :

Chercher u ∈ U tel que J(u) = inf J(u). (5.4)


u∈U

Nous allons formuler quelques hypothèses (en général, raisonnables) sur les différents
ingrédients intervenant dans la formulation du problème de contrôle optimal (5.4), à savoir
la fonction f pour la dynamique et les fonctions g et h pour le critère. Commençons par les
hypothèses sur la dynamique. On suppose que
(a) f ∈ C 0 ([0,T ] × Rd × U ; Rd ) et f est de classe C 1 par rapport à x ;
(b) ∃C, |f (t, y, v)|Rd ≤ C(1 + |y|Rd + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ Rd , ∀v ∈ U ;
(c) Pour tout R > 0, ∃CR , | ∂f
∂x
(t, y, v)|Rd×d ≤ CR (1 + |v|Rd ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U .
Dans ces hypothèses, C et CR désignent des constantes génériques indépendantes de (t, y, v),
CR dépendant du rayon R de la boule fermée B(0, R) ; par la suite, nous utiliserons les symboles
C et CR avec la convention que les valeurs de C et de CR peuvent changer à chaque utilisation
tant qu’elles restent indépendantes du temps, de l’état du système et de la valeur du contrôle.
L’objectif des trois hypothèses ci-dessus est d’assurer, pour tout contrôle u ∈ U, l’existence et
l’unicité de la trajectoire associée xu ∈ AC([0,T ]; Rd ).
Lemme 5.1 (Existence et unicité des trajectoires). Dans le cadre des hypothèses (a), (b), (c)
ci-dessus, pour tout contrôle u ∈ U, il existe une unique trajectoire associée xu ∈ AC([0,T ]; Rd )
solution de (5.1).
Démonstration. Il s’agit d’une conséquence de la version locale du théorème de Cauchy–
Lipschitz avec une dynamique mesurable en temps uniquement (cf. le théorème 2.6). On
considère le système dynamique ẋ(t) = F (t, x(t)) avec la fonction F : [0,T ] × Rd → Rd
telle que F (t, x) = f (t, x, u(t)). La fonction F est mesurable en t, et elle est continue en x.
De plus, F est localement lipschitzienne par rapport à x puisque l’on a, pour tout t ∈ [0,T ] et
tout x1 , x2 ∈ B(0, R),
∂f
|F (t, x1 ) − F (t, x2 )|Rd ≤ C0 (t)|x1 − x2 |Rd , C0 (t) = sup ∂x
(t, y, u(t)) Rd×d .
y∈B(0,R)

Comme C0 (t) ≤ CR (1 + |u(t)|Rk ) grâce à l’hypothèse (c), on a bien C0 ∈ L1 ([0,T ]; R+ ). En


outre, la fonction F est localement intégrable grâce à l’hypothèse (b) puisque l’on a, pour tout
x ∈ Rd et tout t ∈ [0,T ],

|F (t, x)|Rd ≤ C(1 + |x|Rd + |u(t)|Rk ) ∈ L1 ([0,T ]; R+ ).

Il reste enfin à s’assurer que la trajectoire maximale est bien définie sur tout l’intervalle [0,T ]
(i.e., qu’il n’y a pas eu d’explosion en un temps t∗ <R T ). Pour cela, on utilise le lemme de
t
Gronwall rappelé ci-dessous. Comme on a x(t) = x0 + 0 f (s, x(s), u(s)) ds, on peut appliquer
ce lemme avec z(t) = |x(t)|Rd et ψ(t) ≡ C. L’estimation (5.5) est satisfaite avec α = |x0 |Rd +
C(T + kukL1 ([0,T ];Rk ) ) grâce à l’hypothèse (b). On en déduit que la trajectoire reste bien bornée
sur [0,T ], i.e., il n’y a pas d’explosion.

56
5.2 PMP : énoncé et commentaires

Lemme 5.2 (Gronwall). Soit ψ, z : [0,T ] → R+ deux fonctions continues telles que
Z t
∃α ≥ 0, ∀t ∈ [0,T ], z(t) ≤ α + ψ(s)z(s) ds. (5.5)
0
Rt
ψ(s) ds
Alors, on a z(t) ≤ αe 0 pour tout t ∈ [0,T ].
Rt Rt
Démonstration. Posons Ψ(t) = 0 ψ(s) ds et considérons la fonction v(t) = e−Ψ(t) 0 ψ(s)z(s) ds.
En utilisant (5.5), on constate que
Z t
dv −Ψ(t)
(t) = −ψ(t)e ψ(s)z(s) ds + e−Ψ(t) ψ(t)z(t)
dt
 0 Z t 
−Ψ(t)
= ψ(t)e z(t) − ψ(s)z(s) ds ≤ αψ(t)e−Ψ(t) .
0

Comme v(0) = 0 et Ψ(0) = 0, en intégrant cette majoration de 0 à t, il vient


Z t Z t
−Ψ(t)
e ψ(s)z(s) ds = v(t) ≤ α ψ(s)e−Ψ(s) ds = α(1 − e−Ψ(t) ),
0 0

et en ré-arrangeant les termes, on obtient


Z t
α+ ψ(s)z(s) ds ≤ αeΨ(t) .
0

On conclut en utilisant à nouveau la borne (5.5) sur z(t).


Venons en maintenant aux hypothèses sur le critère. On suppose que
(d) g ∈ C 0 ([0,T ] × Rd × U ; R) et g est de classe C 1 par rapport à x ; de plus, h ∈ C 1 (Rd ; R) ;
(e) Pour tout R > 0, ∃CR , |g(t, y, v)| ≤ CR (1 + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U ;
∂g
(f) Pour tout R > 0, ∃CR , | ∂x (t, y, v)|Rd ≤ CR (1 + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U ;
(g) Les fonctions g et h sont minorées respectivement sur [0,T ] × Rd × U et sur Rd .
Ces hypothèses nous permettent d’affirmer que, pour tout u ∈ U, le critère J(u) est bien
défini car la trajectoire associée xu est bien définie et xu (t) ∈ B(0, R(u)), pour tout t ∈ [0,T ],
si bien que grâce à l’hypothèse (e), la fonction t 7→ g(t, x(t), u(t)) est bien intégrable. En outre,
l’infimum de J sur U est bien fini grâce à l’hypothèse (g). Il est donc raisonnable de considérer
le problème de minimisation (5.4). Les hypothèses (d) et (f) nous seront utiles à la section
suivante pour définir l’état adjoint.

5.2 PMP : énoncé et commentaires


L’objectif de cette section est d’énoncer le principe du minimum de Pontryaguine (PMP)
pour le système de contrôle non-linéaire (5.1) et la fonctionnelle J définie en (5.3). Dans ce
chapitre, nous nous contenterons d’énoncer le PMP et d’en voir quelques premiers exemples
d’application. La preuve du PMP sera esquissée au chapitre suivant. Comme dans le cas plus
simple du système linéaire-quadratique (cf. la section 4.3), le PMP repose sur la notion de
Hamiltonien.

57
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

Définition 5.3 (Hamiltonien). Le Hamiltonien associé au système de contrôle non-linéaire (5.1)


et à la fonctionnelle J définie en (5.3) est l’application H : [0,T ] × Rd × Rd × U → R telle que

H(t, x, p, u) = p† f (t, x, u) + g(t, x, u). (5.6)

On notera bien que dans cette écriture, (x, p, u) désigne un vecteur générique de Rd × Rd × U .
Lorsque l’application H ne dépend pas explicitement du temps, on dit que le Hamiltonien est
autonome.
Théorème 5.4 (PMP). Si u ∈ U est un contrôle optimal, i.e., si u est une solution de (5.4),
alors en notant x = xu ∈ AC([0,T ]; Rd ) la trajectoire associée au contrôle u et en définissant
l’état adjoint p ∈ AC([0,T ]; Rd ) solution de
dp ∂h
(t) = −A(t)† p(t) − b(t), ∀t ∈ [0,T ], p(T ) = (x(T )) ∈ Rd , (5.7)
dt ∂x
où pour tout t ∈ [0,T ],
∂f ∂g
A(t) = (t, x(t), u(t)) ∈ Rd×d , b(t) = (t, x(t), u(t)) ∈ Rd , (5.8)
∂x ∂x
on a, p.p. t ∈ [0,T ],
u(t) ∈ arg min H(t, x(t), p(t), v), (5.9)
v∈U

où le Hamiltonien H : [0,T ] × Rd × Rd × U → R est défini en (5.6). Un triplet (x, p, u) satis-


faisant les conditions ci-dessus est appelé une extrémale. On notera que avec les conventions
∂g
adoptées, ∂x et ∂h
∂x
sont des vecteurs colonne.

Remarque 5.5. [État adjoint] L’état adjoint p est solution d’un système linéaire (à (x, u)
fixés) instationnaire et rétrograde en temps. Ce système, ainsi que la condition finale sur p(T ),
sont bien définis grâce aux hypothèses (a) et (d) ci-dessus. De plus, ce système admet une
unique solution car la fonction b est bien intégrable en temps grâce à l’hypothèse (f) et la
fonction A est dans L1 ([0,T ]; Rd×d ) grâce à l’hypothèse (c).
Remarque 5.6. [Condition nécessaire] Dans le cas du système de contrôle non-linéaire (5.1)
avec la fonctionnelle J définie en (5.3), le PMP ne fournit qu’une condition nécessaire
d’optimalité. En revanche, le PMP ne dit rien sur l’existence d’un contrôle optimal, et il
ne fournit pas en général de condition suffisante (cf. toutefois la proposition 5.12 ci-dessous).
L’intérêt pratique du PMP est de restreindre le champ des possibles en vue de l’obtention
d’un contrôle optimal : on commence par considérer les extrémales et, en espérant qu’elles ne
sont pas trop nombreuses, on en fait ensuite le tri.
Remarque 5.7. [Amplitude de p] Si on multiplie les fonctions g et h par un facteur λ ∈ R+ ,
le nouveau critère à minimiser est Jλ = λJ, le nouvel état adjoint est pλ = λp, et le nouvel
Hamiltonien est Hλ = λH. Comme Hλ et H ont les mêmes minimiseurs, cela montre que
l’amplitude de p n’apporte pas d’information en vue de la résolution du problème de contrôle
optimal.

58
5.2 PMP : énoncé et commentaires

Remarque 5.8. [Hamiltonien autonome] Lorsque le Hamiltonien est autonome, i.e., que l’ap-
plication H ne dépend pas explicitement du temps, la condition (5.9) devient
u(t) ∈ arg min H(x(t), p(t), v).
v∈U

On observera que le contrôle optimal u dépend (en général) du temps car x(t) et p(t) dépendent
(en général) du temps.
Exemple 5.9. [Système LQ] Appliquons le théorème 5.4 au système LQ étudié au chapitre
précédent. Pour simplifier, on omet le terme de dérive. On a
f (t, x, u) = Ax + Bu, g(t, x, u) = 12 u† Ru + 12 ex (t)† Qex (t), h(x) = 12 ex (T )† Dex (T ),
où ex (t) = x − ξ(t) ; on rappelle que les matrices Q, D ∈ Rd×d sont symétriques semi-définies
positives, que la matrice R ∈ Rk×k est symétrique définie positive et que ξ ∈ C 0 ([0,T ]; Rd ) est
la trajectoire cible. Pour le système LQ, il n’y a pas de contraintes sur le contrôle, on a donc
U = Rk . Le Hamiltonien s’écrit
H(t, x, p, u) = p† (Ax + Bu) + 21 u† Ru + 12 ex (t)† Qex (t).
On a donc (noter l’unicité du minimiseur)
 
† 1 †
u(t) = arg min p Bv + v Rv ,
v∈Rk 2
ce qui équivaut à
u(t) = −R−1 B † p(t).
∂f ∂g ∂h
Comme ∂x
= A, ∂x
= Qex , ∂x
= Dex , l’équation (5.7) sur l’état adjoint devient
dp
(t) = −A† p(t) − Qex (t), ∀t ∈ [0,T ], p(T ) = Dex (T ),
dt
qui est bien l’équation différentielle rétrograde et la condition finale qui avaient été obtenues
au chapitre précédent pour l’état adjoint (cf. le théorème 4.5).
Exemple 5.10. [Non-existence de contrôle optimal] Donnons un exemple relativement simple
de non-existence de contrôle optimal. On considère le système de contrôle linéaire ẋu (t) = u(t)
avec xu (0) = x0 = 0 et T = 1. Le critère à minimiser est
Z 1 Z 1
2
J(u) = xu (t) dt + (u(t)2 − 1)2 dt, U = [−1,1].
0 0

Alors, on a inf u∈U J(u) = 0 et il n’existe pas de contrôle optimal. Pour le montrer, on considère
pour tout n ∈ N∗ la suite minimisante de contrôles
un (t) = (−1)k , k k+1
t ∈ [ 2n , 2n [, k ∈ {0, . . . , 2n − 1},
1
dont la trajectoire associée, xn , est en dents de scie et vérifie kxn kL∞ (0,1) ≤ 2n (cf. la figure 5.1).
1
On en déduit que J(un ) ≤ 4n2 . S’il existait u ∈ U tel que J(u) = 0, alors on aurait x(t) ≡ 0
et u(t) ∈ {−1, 1}, mais u(t) = dx dt
(t) = 0. La difficulté rencontrée dans cet exemple provient
de la non-convexité du critère.

59
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

un(t)
xn(t)

Figure 5.1 – Illustration du (contre-)exemple 5.10 : contrôle issu d’une suite minimisante et
trajectoire associée.

Exemple 5.11. [Absence de condition suffisante] Donnons maintenant un exemple où le


PMP ne fournit pas de condition suffisante d’optimalité. On considère à nouveau le système
de contrôle linéaire ẋ(t) = u(t) avec x0 = 0 et T = 1. Le critère à minimiser est cette fois
Z 1
J(u) = (xu (t)2 − 1)2 dt, U = [−1,1].
0

On cherche donc à minimiser la distance de x(t) à l’ensemble {−1, 1} ; les contraintes sur u font
que x(t) ∈ [−1,1], ∀t ∈ [0,T ]. Il y a donc
R 1 2 deux2 contrôles optimaux, qui sont u± (t) ≡ ±1, pour
8
tout t ∈ [0,T ], et on a inf u∈U J(u) = 0 (t −1) dt = 15 . Or, si on considère le contrôle u(t) ≡ 0,
8
celui-ci vérifie les conditions du PMP mais ce n’est pas un contrôle optimal car J(0) = 1 > 15 .
2 2
En effet, on a f (t, x, u) = u, g(t, x, u) = (x − 1) , h = 0, la trajectoire associée est x(t) ≡ 0 et
l’état adjoint est p(t) ≡ 0. Le Hamiltonien à minimiser est H(t, x(t), p(t), v) = (x(t)2 −1)2 dont
un minimiseur est bien v = 0. La difficulté rencontrée dans cet exemple provient à nouveau
de la non-convexité du critère.
Concluons cette section par un résultat positif quant au caractère suffisant de la condition
d’optimalité du PMP.
Proposition 5.12 (Condition suffisante). Le PMP fournit une condition suffisante d’op-
timalité sous les hypothèses suivantes :
— f (t, x, u) = A(t)x + B(t)u avec A ∈ C 0 ([0,T ]; Rd×d ) et B ∈ C 0 ([0,T ]; Rd×k ) ;
— U = L2 ([0,T ]; U ) où U est un ensemble convexe fermé non-vide ;
— la fonction g est convexe et différentiable en (x, u) ∈ Rd × U ;
— la fonction h est convexe et différentiable en x ∈ Rd .
Démonstration. Nous nous contenterons d’esquisser la preuve. La fonctionnelle J est convexe
en u sur l’ensemble convexe K = L2 ([0,T ]; U ) (on travaille dans L2 afin de se placer dans le
cadre des espaces de Hilbert). De par la proposition 3.11, u est un contrôle optimal dans K si
et seulement si
(∇J(u), v − u)L2 ([0,T ];Rk ) ≥ 0, ∀v ∈ K.
Grâce à l’introduction de l’état adjoint p solution de (5.7), ceci se récrit
Z T 
† ∂g †
p(t) B(v(t) − u(t)) + (t, x(t), u(t)) (v(t) − u(t)) dt ≥ 0, ∀v ∈ K.
0 ∂u

60
5.3 Application au système LQ avec contraintes

Cette inégalité, toujours grâce à la proposition 3.11, équivaut au fait que u soit minimiseur
sur K de la fonctionnelle
Z T 
˜
J(u) = †
p(t) Bu(t) + g(t, x(t), u(t)) dt.
0

En raisonnant comme dans la preuve du théorème 3.17, on montre que cela équivaut au fait
que u(t) soit minimiseur instantané de v 7→ p(t)† Bv + g(t, x(t), v), ce qui n’est rien d’autre
que minimiser le Hamiltonien par rapport à v.

5.3 Application au système LQ avec contraintes


L’objectif de cette section est d’illustrer le PMP dans le cas du système LQ (dynamique
linéaire et critère quadratique), mais contrairement au chapitre 4, nous supposons ici qu’il y a
des contraintes sur le contrôle. Malgré la présence de ces contraintes, ce nouveau problème de
contrôle optimal reste relativement simple, et il nous sera en fait possible de prouver le PMP
(et d’en établir le caractère suffisant) en nous appuyant sur l’inéquation d’Euler caractérisant
le minimiseur d’une fonctionnelle convexe sur un sous-ensemble convexe, fermé, non-vide d’un
espace de Hilbert (cf. la proposition 3.11).
Soit T > 0, une matrice A ∈ Rd×d , une matrice B ∈ Rd×k et une condition initiale x0 ∈ Rd .
Le système de contrôle linéaire s’écrit sous la forme

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ [0,T ], xu (0) = x0 . (5.10)

Soit U un sous-ensemble convexe, fermé, non-vide de Rk . L’ensemble des contrôles admis-


sibles est ici le sous-ensemble
K = L2 ([0,T ]; U ). (5.11)
On s’intéresse au problème de minimisation sous contraintes

Chercher u ∈ K tel que J(u) = inf J(u), (5.12)


u∈K

avec le critère quadratique


Z T Z T
1 † 1 1
J(u) = u(t) Ru(t) dt + exu (t)† Qexu (t) dt + exu (T )† Dexu (T ), (5.13)
2 0 2 0 2

où exu = xu − ξ et ξ ∈ C 0 ([0,T ]; Rd ) est la trajectoire cible. Comme dans le chapitre 4, les
matrices Q, D ∈ Rd×d sont symétriques semi-définies positives, tandis que la matrice R ∈ Rk×k
est symétrique définie positive.

Lemme 5.13 (Existence et unicité). Il existe une unique solution au problème (5.12), i.e., la
fonctionnelle J définie par (5.13) admet un unique minimiseur sur le sous-ensemble K défini
par (5.11).

61
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

Démonstration. Nous allons appliquer le théorème 3.8. D’une part, K est un sous-ensemble
convexe, fermé, non-vide de l’espace de Hilbert V = L2 ([0,T ]; Rk ). En effet,
— K est non-vide car le sous-ensemble U est non-vide (considérer un contrôle constant en
temps égal à un élément de U ) ;
— K est convexe car le sous-ensemble U est convexe (pour tout u1 , u2 ∈ K et θ ∈ [0, 1], on a
θu1 (t)+(1−θ)u2 (t) ∈ U p.p. t ∈ [0,T ] car U est convexe, si bien que θu1 +(1−θ)u2 ∈ K) ;
— enfin, K est fermé dans V car si (un )n∈N est une suite de K convergeant vers u dans V ,
comme la convergence dans L2 ([0,T ]; Rk ) implique la convergence p.p. (à une sous-suite
près) et que le sous-ensemble U est fermé, on en déduit que u(t) ∈ U p.p. t ∈ [0,T ],
i.e., u ∈ K.
D’autre part, la fonctionnelle J est fortement convexe et continue (elle est même différentiable)
sur V (cf. les lemmes 4.2 et 4.4).
Dans la suite de cette section, on notera u ∈ K = L2 ([0,T ]; U ) l’unique contrôle optimal
solution de (5.12) et x = xu la trajectoire associée. Le système LQ avec contraintes rentre
dans le champ d’application du PMP. En procédant comme à l’exemple 5.9 (qui traitait le cas
sans contraintes), on introduit l’état adjoint p ∈ C 1 ([0,T ]; Rd ) tel que

dp
(t) = −A† p(t) − Qex (t), ∀t ∈ [0,T ], p(T ) = Dex (T ), (5.14)
dt
où ex (t) = x(t) − ξ(t) p.p. t ∈ [0,T ], et le Hamiltonien H : [0,T ] × Rd × Rd × Rk → R tel que
1 1
H(t, x, p, u) = p† (Ax + Bu) + u† Ru + (x − ξ(t))† Q(x − ξ(t)). (5.15)
2 2
En appliquant le PMP (cf. le théorème 5.4), on en déduit qu’une condition nécessaire d’opti-
malité est que, p.p. t ∈ [0,T ], u(t) est un minimiseur de H(t, x(t), p(t), v) sur U , i.e.,

u(t) ∈ arg min H(t, x(t), p(t), v). (5.16)


v∈U

En inspectant l’expression de H, on voit que de manière équivalente, on a


 
† † 1 †
u(t) ∈ arg min v B p(t) + v Rv . (5.17)
v∈U 2

Or, la fonctionnelle en v au membre de droite est quadratique et fortement convexe. On en


déduit qu’elle admet un unique minimiseur sur le sous-ensemble convexe, fermé, non-vide U
de Rk . De manière plus précise, on a donc
 
† † 1 †
u(t) = arg min v B p(t) + v Rv . (5.18)
v∈U 2

Lorsque U = Rk , on retrouve bien le résultat du chapitre 4, à savoir u(t) = −R−1 B † p(t). Dans
le cas général pour le sous-ensemble U , on n’a pas forcément d’expression explicite de u(t) en
fonction de p(t) car celle-ci dépend de la forme du sous-ensemble U .

62
5.3 Application au système LQ avec contraintes

Proposition 5.14 (Condition nécessaire et suffisante). La condition (5.18) est une condition
nécessaire et suffisante d’optimalité pour le problème (5.12). En outre, cette condition
définit un unique contrôle optimal u ∈ K et celui-ci est une fonction lipschitzienne du temps.

Remarque 5.15. [Fonction lipschitzienne] Le fait que le contrôle optimal u ∈ K soit une
fonction lipschitzienne du temps montre que pour le système LQ avec contraintes, il n’y a pas
de phénomènes de type bang-bang pour le contrôle optimal.

Démonstration. (1) La fonctionnelle J étant convexe et différentiable sur V , une condition


nécessaire et suffisante d’optimalité pour le problème (5.12) est l’inéquation d’Euler (cf. la
proposition 3.11)
(∇J(u), v − u)V ≥ 0, ∀v ∈ K.
En utilisant l’expression de la différentielle de J obtenue au lemme 4.4, on en déduit que

(Ru + B † p, v − u)V ≥ 0, ∀v ∈ K,

ou encore, en explicitant le produit scalaire dans V = L2 ([0,T ]; Rk ),


Z T
(v(t) − u(t))† (Ru(t) + B † p(t)) dt ≥ 0, ∀v ∈ K = L2 ([0,T ]; U ).
0

En utilisant à nouveau l’inéquation d’Euler, ceci ne signifie rien d’autre que

u = arg min Jp (v),


v∈K

où la fonctionnelle
Z T  
† † 1 †
Jp : V → R, Jp (v) = v(t) B p(t) + v(t) Rv(t) dt
0 2

est quadratique, différentiable et fortement convexe sur V . On pose pour tout t ∈ [0,T ],
 
† † 1 †
u] (t) = arg min v B p(t) + v Rv .
v∈U 2

De l’inéquation d’Euler dans U ⊂ Rk , on déduit que pour tout t ∈ [0,T ],

(v − u] (t))† (Ru] (t) + B † p(t)) ≥ 0, ∀v ∈ U.

(2) Montrons que la fonction u] (t) ainsi définie est lipschitzienne en t sur [0,T ]. Soit t1 , t2 ∈
[0,T ]. On a

(u] (t2 ) − u] (t1 ))† (Ru] (t1 ) + B † p(t1 )) ≥ 0,


(u] (t1 ) − u] (t2 ))† (Ru] (t2 ) + B † p(t2 )) ≥ 0.

63
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

En posant δu] = u] (t2 ) − u] (t1 ), il vient

(δu] )† Rδu] ≤ (δu] )† B † (p(t1 ) − p(t2 )).

Comme la matrice R est par hypothèse définie positive, on en déduit que

|u] (t2 ) − u] (t1 )|Rk = |δu] |Rk ≤ λmin (R)−1 kB † kRk×d |p(t2 ) − p(t1 )|Rd ,

où λmin (R) > 0 désigne la plus petite valeur propre de la matrice R. Comme la fonction
t 7→ p(t) est de classe C 1 en t, cela montre que la fonction t 7→ u] (t) est lipschitzienne en t.
(3) En conclusion, la fonction u] : [0,T ] → Rk est mesurable (car lipschitzienne), de carré
sommable et à valeurs dans U . On a donc u] ∈ K. De plus, comme u(t) ∈ U p.p. t ∈ [0,T ],
l’inégalité suivante est satisfaite p.p. t ∈ [0,T ] :

1 1
u(t)† B † p(t) + u(t)† Ru(t) ≥ u] (t)† B † p(t) + u] (t)† Ru] (t).
2 2
En intégrant cette inégalité de 0 à T , il vient

Jp (u) ≥ Jp (u] ).

Par unicité du minimiseur de Jp sur K, on conclut que u = u] .

5.4 Exemple non-linéaire : ruche d’abeilles


On considère un modèle relativement simple de dynamique de populations. Pour fixer les
idées, nous allons le décliner dans le contexte de la modélisation d’une ruche d’abeilles. On
suppose que dans la ruche, la population d’abeilles a(t) et celle des reines r(t) évolue selon la
dynamique    
ȧ(t) ϕ(u(t))a(t)
ẋ(t) = = , ∀t ∈ [0,T ], (5.19)
ṙ(t) γu(t)a(t)
où le contrôle u ∈ L∞ ([0,T ]; U ) avec U = [0, 1] représente l’effort des abeilles pour fournir des
reines et où nous avons introduit la fonction

ϕ : [0, 1] → R, ϕ(v) = α(1 − v) − β. (5.20)

Les paramètres du modèle α, β, γ sont des réels strictement positifs et on suppose que α > β.
On suppose également que a(0) > 0 ; comme ȧ(t) = ϕ(u(t))a(t), on a a(t) > 0 pour tout
t ∈ [0,T ]. On notera également que
— si u est constant égal à 1, on a ȧ(t) = −βa(t) < 0 : la population d’abeilles décroı̂t
(exponentiellement) ;
— si u est constant égal à 0, on a ȧ(t) = (α − β)a(t) > 0 : la population d’abeilles croı̂t
(exponentiellement).

64
5.4 Exemple non-linéaire : ruche d’abeilles

Notre objectif ici est de chercher un contrôle optimal afin de maximiser la population de reines
au temps T . En introduisant la fonctionnelle J : U = L1 ([0,T ]; U ) → R telle que

J(u) = −r(T ), (5.21)

le problème de contrôle optimal est donc le suivant :

Chercher u ∈ U tel que J(u) = inf J(u). (5.22)


u∈U

On commence par chercher une condition nécessaire d’optimalité en appliquant le PMP.


L’état de la ruche est décrit par le vecteur x = (a, r)† ∈ R2 . Le problème de contrôle opti-
mal (5.22) rentre dans le cadre d’application du PMP en posant
 
ϕ(u)a
f (x, u) = , g(x, u) = 0, h(x) = −r. (5.23)
γua
 
Soit u ∈ U un contrôle optimal, de trajectoire associée (a, r)† . Comme ∂f
∂x
(x, u) = ϕ(u) 0
γu 0 et
∂g
∂x
(x, u) = 0, l’état adjoint p = (pa , pr )† : [0,T ] → R2 est tel que

dp

 a (t) = −ϕ(u(t))pa (t) − γu(t)pr (t),

dt ∀t ∈ [0,T ], (5.24)
dp
 r (t) = 0,

dt
et la condition finale sur l’état adjoint est

p(T ) = (pa (T ), pr (T )) = (0, −1)† . (5.25)

On a donc
dpa
(t) = −ϕ(u(t))pa (t) + γu(t), pr (t) ≡ −1, ∀t ∈ [0,T ]. (5.26)
dt
Par ailleurs, le Hamiltonien est autonome (cf. la définition 5.3) et s’écrit sous la forme

H(x, p, u) = pa ϕ(u)a + γpr ua. (5.27)

La condition de minimisation (5.9) s’écrit, en utilisant le fait que a(t) 6= 0 pour tout t ∈ [0,T ],

u(t) ∈ arg min ψ(t)v, (5.28)


v∈[0,1]

où la fonction de commutation est donnée par

ψ(t) = −pa (t)α − γ. (5.29)

La solution du problème de minimisation (5.28) est élémentaire ; on obtient, pour tout t ∈ [0,T ],
— si ψ(t) > 0, u(t) = 0 ;
— si ψ(t) = 0, u(t) ∈ [0, 1] ;

65
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

— si ψ(t) < 0, u(t) = 1.


Le contrôle optimal est donc nécessairement bang-bang, sauf si pa (t) = − αγ sur un sous-
intervalle de temps de mesure strictement positive. Reprenons alors l’équation de l’état ad-
joint :
— si pa (t) > − αγ , u(t) = 1, et on a dtd pa (t) = βpa (t) + γ ≥ 0, i.e., t 7→ pa (t) est croissante ;
— si pa (t) < − αγ , u = 0, et on a dtd pa (t) = (β − α)pa (t) ≥ 0, i.e., t 7→ pa (t) est encore
croissante ;
— enfin, il ne peut exister d’intervalle de mesure strictement positive où pa est constant
et égal à − αγ ; en effet, dans ces conditions, on aurait ϕ(u(t)) αγ + γu(t) = 1 − αβ 6= 0,
donc pa ne pourrait pas être constant.
Nous pouvons maintenant terminer la résolution du problème. Au temps final, ψ(T ) = −γ < 0,
ce qui montre que u(T ) = 1, i.e., au temps final, le contrôle optimal consiste à fournir des
reines (ce qui n’est pas très surprenant puisque l’objectif est d’en maximiser le nombre). Le
point qui reste à préciser est s’il est optimal d’en fournir depuis l’instant initial ou s’il convient
plutôt de laisser d’abord croı̂tre la population d’abeilles avant de commencer à en fournir.
Comme la fonction de commutation est continue, il existe un temps t∗ < T tel que u(t) = 1
sur ]t∗ , T ]. Sur cet intervalle, on a dpdta (t) = βpa (t) + γ et par ailleurs la condition finale sur pa
étant pa (T ) = 0, on en déduit que
 
γ β(t−T )
pa (t) = − 1−e , ∀t ∈ [t∗ , T ]. (5.30)
β

La fonction pa est donnée par l’expression ci-dessus tant que le contrôle optimal u reste égal à
1. Pour que la valeur du contrôle change, la fonction de commutation (qui est continue) doit
s’annuler, i.e., pa (t∗ ) = − αγ . En utilisant l’expression de pa , on obtient

1 β
t∗ = ln(1 − ) + T. (5.31)
β α
On notera que t∗ < T . Deux cas peuvent alors se produire en fonction des paramètres du
problème.
— Cas 1. t∗ < 0 (ce qui correspond au cas d’un horizon temporel T petit) ; le contrôle
optimal est alors u ≡ 1 sur [0,T ], ce qui signifie que l’on fournit des reines en continu
depuis t = 0 jusqu’à t = T ;
— Cas 2. t∗ > 0 (ce qui correspond au cas d’un horizon temporel T relativement grand) ;
le contrôle optimal est u ≡ 0 sur [0, t∗ [ et u ≡ 1 sur ]t∗ , T ]. En effet, le contrôle u vérifie
bien le PMP car dpdta (t) = (β − α)pa (t), pa (t∗ ) = − αγ , d’où pa (t) = − αγ e(β−α)(t−t∗ ) < − αγ
sur [0, t∗ ], si bien que la fonction de commutation est positive, ce qui correspond bien
à u(t) = 0. L’ensemble {t ∈ [0,T ] | ψ(t) = 0} est réduit au singleton {t∗ } et est donc
de mesure nulle.
Une illustration de la trajectoire, de l’état adjoint et du contrôle optimal est présentée à la
figure 5.2 dans le cas où il y a une commutation.

66
5.4 Exemple non-linéaire : ruche d’abeilles

a
u
r

t∗ t
pa

Figure 5.2 – Trajectoire, état adjoint et contrôle optimal pour le modèle de ruche.

67
Chapitre 5. Principe du minimum de Pontryaguine (PMP)

68
Chapitre 6

PMP : preuve, extensions, application

Ce chapitre est consacré au principe du minimum de Pontryaguine (PMP) introduit au


chapitre précédent. Dans ce chapitre, nous en esquissons la preuve, puis nous présentons une
extension du PMP au cas où on rajoute une contrainte sur l’atteinte d’une variété cible
au temps final. Nous présentons également un exemple d’application couvrant plusieurs cas
de figure : le problème de Zermelo où on considère une barque traversant un canal sous un
courant fort et où on cherche à atteindre la berge opposée en minimisant le déport latéral ou
encore en minimisant le temps de traversée. Enfin, nous présentons une méthode de résolution
numérique basée sur le PMP et utile dans les applications : la méthode de tir.

6.1 PMP : esquisse de preuve


On reprend le système de contrôle non-linéaire considéré à la section 5.1. On rappelle que
la dynamique s’écrit sous la forme
ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ [0,T ], xu (0) = x0 , (6.1)
avec T > 0, f : [0,T ] × Rd × U → Rd et x0 ∈ Rd . L’ensemble des contrôles admissibles est
U = L1 ([0,T ]; U ), (6.2)
où U est un sous-ensemble fermé non-vide de Rk . L’objectif est de trouver un contrôle optimal
u ∈ U qui minimise le critère
Z T
J(u) = g(t, xu (t), u(t)) dt + h(xu (T )), (6.3)
0

où les fonctions g : [0,T ] × Rd × U → R et h : Rd → R sont données. Le problème de contrôle


optimal est donc le suivant :
Chercher u ∈ U tel que J(u) = inf J(u). (6.4)
u∈U

On rappelle les hypothèses qui avaient été introduites afin de garantir l’existence et l’unicité
d’une trajectoire xu pour un contrôle donné u ∈ U (cf. en particulier le lemme 5.1) et le fait
que la fonctionnelle J(u) est bien définie :

69
Chapitre 6. PMP : preuve, extensions, application

(a) f ∈ C 0 ([0,T ] × Rd × U ; Rd ) et f est de classe C 1 par rapport à x ;


(b) ∃C, |f (t, y, v)|Rd ≤ C(1 + |y|Rd + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ Rd , ∀v ∈ U ;
(c) Pour tout R > 0, ∃CR , | ∂f
∂x
(t, y, v)|Rd×d ≤ CR (1 + |v|Rd ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U ;
(d) g ∈ C 0 ([0,T ] × Rd × U ; R) et g est de classe C 1 par rapport à x ; de plus, h ∈ C 1 (Rd ; R) ;
(e) Pour tout R > 0, ∃CR , |g(t, y, v)| ≤ CR (1 + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U ;
∂g
(f) Pour tout R > 0, ∃CR , | ∂x (t, y, v)|Rd ≤ CR (1 + |v|Rk ), ∀t ∈ [0,T ], ∀y ∈ B(0, R), ∀v ∈ U ;
(g) Les fonctions g et h sont minorées respectivement sur [0,T ] × Rd × U et sur Rd .
Dans ces hypothèses, C et CR désignent des constantes génériques indépendantes de (t, y, v),
CR dépendant du rayon R de la boule fermée B(0, R) ; comme précédemment, nous continuons
à utiliser les symboles C et CR avec la convention que les valeurs de C et de CR peuvent changer
à chaque utilisation tant qu’ils restent indépendants du temps, de l’état du système et de la
valeur du contrôle.
Rappelons enfin l’énoncé du PMP (cf. le théorème 5.4).

Théorème 6.1 (PMP). Si u ∈ U est un contrôle optimal, i.e., si u est une solution de (6.4),
alors, en notant x = xu ∈ AC([0,T ]; Rd ) la trajectoire associée à u, et en définissant l’état
adjoint p ∈ AC([0,T ]; Rd ) solution de

dp ∂h
(t) = −A(t)† p(t) − b(t), ∀t ∈ [0,T ], p(T ) = (x(T )), (6.5)
dt ∂x

avec A(t) = ∂f ∂x
∂g
(t, x(t), u(t)) ∈ Rd×d et b(t) = ∂x (t, x(t), u(t)) ∈ Rd pour tout t ∈ [0,T ], on a,
p.p. t ∈ [0,T ],
u(t) ∈ arg min H(t, x(t), p(t), v), (6.6)
v∈U

où le Hamiltonien H : [0,T ] × Rd × Rd × U → R est défini par

H(t, x, p, u) = p† f (t, x, u) + g(t, x, u). (6.7)

On rappelle enfin qu’un triplet (x, p, u) satisfaisant les conditions ci-dessus est appelé une
extrémale et que le PMP ne fournit qu’une condition nécessaire d’optimalité ; en re-
vanche, il ne dit rien sur l’existence d’un contrôle optimal et il ne fournit pas a priori de
condition suffisante.

Démonstration. Nous allons nous contenter de donner une esquisse de la preuve, en insistant
sur les idées principales sans nécessairement fournir tous les détails techniques pour certains
résultats intermédiaires. Ce qui compte ici est donc davantage l’esprit de la démonstration que
sa lettre.
(1) L’idée fondamentale est de tester l’optimalité de J(u) en faisant des variations aiguille :
il s’agit de perturbations de u d’ordre un( !) mais sur un intervalle de temps de longueur très
petite δ  1. Soit t ∈ [0,T [ et δ ∈ ]0,T − t[, avec δ  1. La perturbation reste donc petite

70
6.1 PMP : esquisse de preuve

v xδ (t + δ) xδ
u
x(t) x
x(t + δ)
Iδ Iδ+ T Iδ Iδ+ T

Figure 6.1 – Principe de la variation aiguille pour le contrôle optimal u (à gauche), trajectoire
optimale et trajectoire perturbée (à droite).

dans L1 ([0,T ]; Rk ). Soit v ∈ U arbitraire. On pose Iδ = [t,t + δ] et on considère le contrôle


perturbé (
u(t), ∀t ∈ [0,T ] \ Iδ ,
uδ (t) =
v, ∀t ∈ Iδ .
On note xδ la trajectoire associée au contrôle perturbé. On admet par la suite que p.p. t ∈ [0,T [
(de tels points sont appelés points de Lebesgue), pour ψ = f et ψ = g,
Z
1
lim ψ(s, x(s), u(s)) ds = ψ(t, x(t), u(t)).
δ→0+ δ I
δ

On suppose dans la suite de la preuve que t est un point de Lebesgue ; le résultat ci-dessus
justifie donc que l’on considère bien tous les instants t ∈ [0,T ] à un sous-ensemble de mesure
nulle près.
(2) Comparaison des trajectoires. Comme xδ (t) = x(t) et xδ (s) = x(s) + O(δ) pour tout
s ∈ Iδ , on peut invoquer la continuité de f en (t, x) et la propriété des points de Lebesgue afin
d’obtenir les estimations suivantes :
Z
xδ (t + δ) = x(t) + f (s, xδ (s), v) ds = x(t) + δf (t, x(t), v) + o(δ),

Z
x(t + δ) = x(t) + f (s, x(s), u(s)) ds = x(t) + δf (t, x(t), u(t)) + o(δ),

si bien que
xδ (t + δ) − x(t + δ) = δ(f (t, x(t), v) − f (t, x(t), u(t))) + o(δ).
Une illustration est présentée à la figure 6.1. On va maintenant comparer xδ (s) et x(s) pour
tout s ∈ Iδ+ = [t + δ,T ]. Il est clair que xδ (s) − x(s) = O(δ) pour tout s ∈ Iδ+ , et on cherche à
préciser la différence à l’ordre un en δ. On introduit la solution yδ ∈ AC(Iδ+ ; Rd ) de l’équation
différentielle

ẏδ (s) = A(s)yδ (s), ∀s ∈ Iδ+ , yδ (t + δ) = f (t, x(t), v) − f (t, x(t), u(t)),

71
Chapitre 6. PMP : preuve, extensions, application

∂f
où on rappelle que A(s) = ∂x
(s, x(s), u(s)). On en déduit que
xδ (s) − x(s) = δyδ (s) + Φδ (s), ∀s ∈ Iδ+ , Φδ = o(δ) unif. sur Iδ+ .
En effet, on a vu que Φδ (t + δ) = o(δ) et Φ̇δ (s) = Ψδ (s) + A(s)Φδ (s), pour tout s ∈ Iδ+ , où
Ψδ (s) = o(s) uniformément sur Iδ+ , car
Ψδ (s) = f (s, xδ (s), u(s)) − f (s, x(s), u(s)) − A(s)(xδ (s) − x(s)).
En conclusion de cette première étape de la preuve, on a donc
xδ (s) − x(s) = δyδ (s) + o(δ) unif. sur Iδ+ .
(3) Comparaison des critères. Grâce à la comparaison des trajectoires, à la continuité de g en
(t, x) et à la propriété des points de Lebesgue, il vient
Z T
J(uδ ) − J(u) = g(s, xδ (s), uδ (s)) − g(s, x(s), u(s)) ds + h(xδ (T )) − h(x(T ))
Zt Z
= g(s, xδ (s), v) − g(s, x(s), u(s)) ds + g(s, xδ (s), u(s)) − g(s, x(s), u(s)) ds
Iδ Iδ+
∂h
+δ (x(T ))† yδ (T ) + o(δ)
∂x
Z T
= δ(g(t, x(t), v) − g(t, x(t), u(t))) + δ b(s)† yδ (s) ds
t+δ
∂h
+ δ (x(T ))† yδ (T ) + o(δ),
∂x
∂g
où on rappelle que b(s) = ∂x
(s, x(s), u(s)).
L’optimalité de u implique donc que
Z T
∂h
0 ≤ g(t, x(t), v) − g(t, x(t), u(t)) + b(s)† yδ (s) ds + (x(T ))† yδ (T ) + o(1).
t+δ ∂x
(4) Introduction de l’état adjoint et conclusion. L’état adjoint p, qui est par définition tel que
dp
dt
(s) = −A(s)† p(s) − b(s) sur [0,T ] et p(T ) = ∂h ∂x
(x(T )), nous permet d’éliminer la fonction
yδ . En effet, il vient
Z T Z T  †
† ∂h † dp
b(s) yδ (s) ds + (x(T )) yδ (T ) = − (s) − A(s) p(s) yδ (s) ds + p(T )† yδ (T )

t+δ ∂x t+δ dt
Z T
dp
= − (s)† yδ (s) ds + p(T )† yδ (T )
t+δ dt
= p(t + δ)† yδ (t + δ)
= p(t + δ)† (f (t, x(t), v) − f (t, x(t), u(t))).
En faisant tendre δ ↓ 0, il vient par continuité de p,
0 ≤ g(t, x(t), v) − g(t, x(t), u(t)) + p(t)† (f (t, x(t), v) − f (t, x(t), u(t))),

72
6.2 Extensions du PMP : atteinte de cible

et en utilisant la définition du Hamiltonien, on obtient

0 ≤ H(t, x(t), p(t), v) − H(t, x(t), p(t), u(t)),

ce qui conclut la preuve car v est arbitraire dans U .

6.2 Extensions du PMP : atteinte de cible


On considère à nouveau le système de contrôle non-linéaire présenté à la section 6.1, mais
on rajoute la contrainte d’atteindre une variété cible M à l’instant t = T , i.e.,

xu (T ) ∈ M, (6.8)

où M est une variété différentielle de classe C 1 de dimension 0 ≤ d0 ≤ d. Le cas d’une cible
ponctuelle correspond à M = {x1 } avec x1 ∈ Rd (et d0 = 0), et l’absence de contrainte de
cible (ou contrainte de cible triviale) correspond au cas où M = Rd (et d0 = d). L’ensemble
des contrôles admissibles devient

UM = {u ∈ L1 ([0,T ]; U ) | xu (T ) ∈ M }, (6.9)

et le problème de contrôle optimal devient

Chercher u ∈ UM tel que J(u) = inf J(u), (6.10)


u∈UM

où le critère J est toujours défini par (6.3).


Définition 6.2 (Espace tangent). En un point x1 ∈ M , l’espace tangent Tx1 M est l’en-
semble des vecteurs vitesse des courbes tracées sur M passant par x1 . Si M = {x1 } (cible
ponctuelle), on a Tx1 M = {0}, et si M = Rd (pas de contrainte de cible), on a Tx1 M = Rd .
Une illustration de l’espace tangent est présentée à la figure 6.2.
Nous admettrons le résultat suivant (voir par exemple la référence [7], ainsi que le théorème
7.18 dans [11] pour un énoncé plus général où la donnée initiale est uniquement prescrite dans
une variété).
Théorème 6.3 (PMP avec cible). Si u ∈ UM est un contrôle optimal, i.e., si u est une
solution de (6.10), alors, en notant x = xu ∈ AC([0,T ]; Rd ) la trajectoire associée à u, on a,
p.p. t ∈ [0,T ],
u(t) = arg min H(t, x(t), p(t), λ, v), (6.11)
v∈U
d d
où H : [0,T ] × R × R × R+ × U → R est le Hamiltonien tel que

H(t, x, p, λ, u) = p† f (t, x, u) + λg(t, x, u), (6.12)

et où le couple (p, λ) ∈ AC([0,T ]; Rd ) × R+ est tel que (p, λ) 6= (0, 0) et l’état adjoint p vérifie
dp
(t) = −A(t)† p(t) − λb(t), ∀t ∈ [0,T ], (6.13)
dt
73
Chapitre 6. PMP : preuve, extensions, application

Tx 1 M

Figure 6.2 – Variété M (homéomorphe à une sphère), point x1 ∈ M et espace tangent Tx1 M .

où A(t) = ∂f
∂x
∂g
(t, x(t), u(t)) ∈ Rd×d et b(t) = ∂x (t, x(t), u(t)) ∈ Rd . Enfin, on a la condition
de transversalité sur l’état adjoint au temps final
∂h
p(T ) − λ (x(T )) ⊥ Tx(T ) M. (6.14)
∂x
Un quadruplet (x, p, λ, u) satisfaisant les conditions ci-dessus est appelé une extrémale.

Remarque 6.4. [Extrêmales normales et anormales] Comme (p, λ) 6= (0, 0), deux cas peuvent
se produire :
— λ 6= 0 : le PMP étant invariant par un facteur d’échelle positif sur (p, λ), on peut
supposer que λ = 1 ; on dit que l’extrémale est normale ;
— λ = 0 : on a nécessairement p 6≡ 0 ; on dit que l’extrémale est anormale.
Lorsque M = Rd (pas de contrainte de cible), toute extrémale est normale. En effet, la condi-
tion de transversalité devient p(T ) = λ ∂h
∂x
(x(T )) car Tx(T ) M = Rd ; si λ = 0, on a p(T ) = 0
et la dynamique de p implique que p ≡ 0, ce qui est exclu. On a donc bien λ 6= 0 dans le cas
où M = Rd . En revanche, lorsque la variété M est de dimension d0 < d, il peut y avoir des
extrémales anormales.

Remarque 6.5. [Méthode de pénalisation] On peut remplacer la contrainte de cible par une
pénalisation dans le critère, ce qui conduit au problème (noter que ce problème est à nouveau
posé sur U et non plus sur UM comme (6.10))

Chercher u ∈ U tel que J (u) = inf J (u),


u∈U

avec la fonctionnelle pénalisée


1
J (u) = J(u) + d(xu (T ), M )2 .

Si le coefficient de pénalisation  est petit, on s’attend à ce que d(xu (T ), M ) soit également
petit. On peut alors étudier les extrémales (x , p , u ) du système pénalisé. Si p reste borné

74
6.2 Extensions du PMP : atteinte de cible

quand  → 0+ , l’extrémale du système pénalisé tend vers une extrémale normale du système
contraint. En revanche, si |p |Rd → +∞ quand  → 0+ , on obtient une extrémale anormale.
On pourra consulter la section 4.6 de [8] pour approfondir ces aspects.
Remarque 6.6. [Cas où T n’est pas fixé] Lorsque l’horizon temporel T pour rejoindre la cible
M n’est pas fixé a priori, on montre (voir à nouveau [7]) qu’on a également une condition
de transversalité sur le Hamiltonien au temps final T , qui s’écrit
min H(T, x(T ), p(T ), λ, v) = 0. (6.15)
v∈U

Le Hamiltonien minimisé est la fonction H : [0,T ] → R telle que


H(t) = H(t, x(t), p(t), λ, u(t)).
Comme le contrôle optimal u(t) minimise le Hamiltonien, en supposant que U = Rk (ou que
u(t) appartient à l’intérieur de U ), on en déduit que
∂H
(t, x(t), p(t), λ, u(t)) = 0.
∂u
De plus, en supposant suffisamment de régularité en temps pour que les manipulations ci-
dessous soient licites, on observe que
dx ∂H
(t) = (t, x(t), p(t), λ, u(t)),
dt ∂p
dp ∂H
(t) = − (t, x(t), p(t), λ, u(t)).
dt ∂x
∂H
Par conséquent, si le Hamiltonien est autonome, i.e., si ∂t
= 0, on a
dH d
(t) = H(x(t), p(t), λ, u(t)) = 0.
dt dt
Le Hamiltonien minimisé étant nul en T de par la condition de transversalité (6.15), on conclut
que
H(t) = H(x(t), p(t), λ, u(t)) = 0, ∀t ∈ [0,T ],
i.e., le Hamiltonien minimisé pour un système autonome sans horizon temporel fixé est iden-
tiquement nul.
Exemple 6.7. [Temps-optimalité (cas linéaire autonome)] Afin d’illustrer la remarque 6.6,
considérons le problème de temps-optimalité pour un système linéaire autonome avec contrainte
de cible ponctuelle M = {x1 } (cf. la section 3.3). On a donc
f (t, x, u) = Ax + Bu, g(t, x, u) = 1, h(x) = 0.
L’état adjoint satisfait dp
dt
(t) = −A† p(t) pour tout t ∈ [0,T ], et la condition de transversalité
sur l’état adjoint est triviale car elle s’écrit p(T ) ⊥ 0. Il n’y a donc pas de condition finale sur
l’état adjoint. Le Hamiltonien vaut
H(x, p, λ, u) = p† (Ax + Bu) + λ,

75
Chapitre 6. PMP : preuve, extensions, application

c(y) u `

(0, 0) x

Figure 6.3 – Illustration du problème de Zermelo : barque traversant un canal.

et on constate qu’il est autonome ( ∂H


∂t
= 0). La condition de minimisation donne
u(t) = arg min p(t)† Bv.
v∈U

On retrouve bien le résultat du théorème 3.17.

6.3 Application : problème de Zermelo


On considère une barque traversant un canal de largeur `. On considère un repère cartésien
où l’axe Ox coı̈ncide avec la berge de départ et l’axe Oy est transverse au canal. La barque a
une vitesse d’amplitude constante notée v, et le courant a une vitesse c(y). On suppose que
c(y) > v, pour tout y ∈ [0, `] ; il s’agit d’une hypothèse dite de courant fort car l’amplitude
du courant est toujours supérieure à la vitesse de la barque. La configuration est illustrée à
la figure 6.3. Le contrôle est l’angle u de la vitesse de la barque par rapport à l’axe Ox, la
vitesse étant considérée dans le repère du courant. L’état de la barque est décrit par le couple
X = (x, y)† ∈ R2 donnant les coordonnées de la barque dans le repère Oxy. La trajectoire de
la barque est régie par la dynamique suivante :
 
v cos(u(t)) + c(y(t))
Ẋ(t) = f (X(t), u(t)) = , ∀t ∈ [0,T ], (6.16)
v sin(u(t))
et la condition initiale est X(0) = (0, 0)† . Nous allons (brièvement) considérer trois problèmes
de contrôle optimal pour atteindre la berge opposée :
1. minimiser le déport latéral ;
2. minimiser le temps de traversée ;
3. atteindre un point de la berge opposée en temps minimal.

Minimisation du déport latéral


Dans le problème de minimisation du déport latéral, le critère fait intervenir les fonctions
g(t, X, u) = 0, h(X) = x, (6.17)

76
6.3 Application : problème de Zermelo

c(y(t2))
c(y(t1))

−v

Figure 6.4 – Contrôle optimal pour la minimisation du déport latéral.

et on rajoute la contrainte de cible y(T ) = `. Le  temps final0 est libre. Commençons par†
0 c0 (y(t))
considérer l’état adjoint. Comme A(t) = 0 0 et b(t) = ( 0 ), l’état adjoint p = (px , py )
satisfait
dpy
px = cste, (t) = −c0 (y(t))px , (6.18)
dt
et la condition de transversalité sur l’état adjoint s’écrit
   
px − λ 1
⊥ =⇒ px = λ. (6.19)
py (T ) 0

Par ailleurs, le Hamiltonien vaut

H(X, p, λ, u) = (px cos(u) + py sin(u))v + px c(y). (6.20)

Si |p|R2 6= 0, la condition de minimisation sur le Hamiltonien nous donne le contrôle optimal


sous la forme
p py
cos(u) = − x , sin(u) = − . (6.21)
|p| |p|
Le Hamiltonien minimisé vaut H(t) = H(X(t), p(t), λ, u(t)) = −|p(t)|v + px c(y(t)) et la condi-
tion de transversalité sur le Hamiltonien au temps final donne

−|p(T )|v + px c(y(T )) = 0. (6.22)

Montrons qu’il n’y a pas d’extrémale anormale. On raisonne par l’absurde en supposant
que λ = 0. Dans ce cas, on a px = λ = 0, ce qui implique que py est constant. En utilisant
la condition de transversalité sur H, on voit que py s’annule au temps final (sinon, le Ha-
miltonien minimisé au temps final vaudrait −|py (T )|v = 0, ce qui serait une contradiction).
Par conséquent, py serait également nul à tout temps, ce qui est exclu car (p, λ) 6= ((0, 0)† , 0).
L’extrémale étant normale, nous pouvons supposer que px = λ = 1. Par conséquent, on a
toujours p 6= (0, 0)† , si bien que le contrôle optimal est bien donné par l’équation (6.18).

77
Chapitre 6. PMP : preuve, extensions, application

c(y)

(0, 0) x

Figure 6.5 – Illustration de l’ensemble atteignable pour le problème de Zermelo sous hy-
pothèse de courant fort.

Montrons maintenant que |p(t)|R2 = c(y(t)) v


, pour tout t ∈ [0,T ]. En effet, cette relation est
satisfaite en T de par la condition de transversalité sur H. En dérivant par rapport au temps,
et en utilisant le fait que |p|R2 = (1 + p2y )1/2 , il vient

d|p| py dpy 1 dy 0 1 dc(y)


= = sin(u)c0 (y) = c (y) = , (6.23)
dt |p| dt v dt v dt

ce qui montre que  


d c(y(t))
|p(t)|R2 − = 0. (6.24)
dt v
On peut aussi montrer cette propriété en utilisant le fait que le Hamiltonien minimisé est
constant en temps (cf. la remarque 6.6). En conclusion, le contrôle optimal s’écrit comme un
feedback sous la forme
v
cos(u(t)) = − , ∀t ∈ [0,T ]. (6.25)
c(y(t))
Une illustration montrant comment déterminer
√ le contrôle optimal est présentée à la figure 6.4.
c 2 −v 2 √
Un calcul simple montre que dtd X(t) = c
( c2 − v 2 , v)† , où c := c(y(t)), si bien que l’angle
de la vitesse de la barque dans le repère cartésien avec l’axe Ox est u(t) − π2 .

Remarque 6.8. [Ensemble atteignable] La résolution du problème de déport latéral per-


met de déterminer l’ensemble atteignable par tout contrôle. Celui-ci est illustré de manière
schématique à la figure 6.5.

Minimisation du temps de traversée


Le critère fait cette fois intervenir les fonctions g(t, X, u) = 1 et h(X) = 0. On a toujours
la contrainte de cible y(T ) = ` et le temps final reste libre. Les équations de l’état adjoint sont
inchangées :
dpy
px = cste, = −c0 (y)px , (6.26)
dt
78
6.3 Application : problème de Zermelo

mais la condition de transversalité sur l’état adjoint est maintenant

px (T ) = 0 =⇒ px ≡ 0, (6.27)

ce qui implique que


py = cste. (6.28)

Le Hamiltonien à minimiser le long de l’extrémale vaut

H(X, p, λ, u) = (px cos(u) + py sin(u))v + px c(y) + λ


= py sin(u)v + λ, (6.29)

car px = 0. On a nécessairement py 6= 0, car sinon la condition de transversalité sur le


Hamiltonien donnerait λ = 0, ce qui est exclu. Le contrôle optimal est donc sin(u(t)) = 1, i.e.,

π
u(t) = . (6.30)
2

On retrouve un conseil (relativement) bien connu : “ne jamais naviguer contre le courant si
on veut atteindre la rive opposée le plus vite possible.”

Atteindre une cible en temps minimal

On suppose que la cible a pour coordonnées (x1 , `)† où x1 est situé en aval du point de déport
minimal. On a g = 1 et h = 0 comme dans le cas précédent. Les équations d’évolution de l’état
adjoint restent inchangées, mais la condition de transversalité sur l’état adjoint devient triviale.
Le Hamiltonien est H(X, p, λ, u) = (px cos(u) + py sin(u))v + px c(y) + λ, et le Hamiltonien
minimisé est
H(t) = −|p(t)|v + px c(y(t)) + λ ≡ 0, ∀t ∈ [0,T ]. (6.31)

Deux situations peuvent se produire :


v
1. Extrêmale anormale (λ = 0) : on obtient à nouveau cos(u(t)) = − c(y(t)) ; cette situa-
tion se produit lorsque x1 est l’abscisse du point de déport minimal.
2. Extrêmale normale (λ = 1) : en utilisant le Hamiltonien minimisé et cos(u(t)) =
px
− |p(t)| , il vient
px v
cos(u(t)) = , (6.32)
1 − px c(y(t))
1
pourvu que px ∈ ] − ∞, v+c ]
[ où c] = maxy∈[0,`] c(y). On obtient une famille de courbes
à un paramètre ; lorsque px → −∞, on tend vers l’extrémale anormale ; par ailleurs, la
valeur px = 0 correspond à la traversée en temps minimum.

79
Chapitre 6. PMP : preuve, extensions, application

6.4 Résolution numérique : méthode de tir


Le PMP peut servir de base à une méthode numérique de résolution du problème de
contrôle optimal : la méthode de tir. Cette méthode est intéressante lorsqu’il est facile de
minimiser le Hamiltonien, i.e., lorsqu’on est capable d’évaluer une fonction

ζ(t, x, p) ∈ arg min H(t, x, p, v), ∀(t, x, p) ∈ [0,T ] × Rd × Rd . (6.33)


v∈U

Dans ce cas, en posant z(t) = (x(t), p(t))† ∈ Rd × Rd , on obtient le système différentiel

ż(t) = F (t, z(t)), ∀t ∈ [0,T ], (6.34)

avec F = (Fx , Fp ) : [0,T ] × Rd × Rd → Rd × Rd telle que

Fx (t, (x, p)) = f (t, x, ζ(t, x, p)), (6.35a)


∂f ∂g
Fp (t, (x, p)) = − (t, x, ζ(t, x, p))† p − (t, x, ζ(t, x, p)). (6.35b)
∂x ∂x
Le principe de la méthode de tir est le suivant :
1. On se donne une condition initiale p0 ∈ Rd sur l’état adjoint ; en intégrant le système
différentiel (6.34), on obtient p(T ) ∈ Rd ; ceci nous permet de définir l’application
∂h
F : Rd → Rd , F(p0 ) := p(T ) − (x(T )). (6.36)
∂x

2. On cherche p0 ∈ Rd tel que F(p0 ) = 0 ; il s’agit d’un système de d équations non-linéaires


couplées dans Rd , que l’on peut (tenter de) résoudre par la méthode de Newton.
Les deux avantages de la méthode de tir sont une très grande précision numérique (si la
convergence est atteinte ...) et une efficacité même en grande dimension sur l’état (i.e., même
si d  1). En revanche, les difficultés rencontrées avec la méthode de tir sont un (très) petit
domaine de convergence, la nécessité de vérifier après coup l’optimalité de la solution trouvée,
et le fait que la structure des commutations doit être connue à l’avance (la méthode de Newton
exploitant la régularité de F).

Remarque 6.9. [Méthodes directes] On peut aussi chercher un contrôle optimal en utilisant
une méthode directe qui n’invoque pas le PMP. Dans ce cas, on considère directement le
problème de contrôle optimal. On se ramène en dimension finie en discrétisant en temps la
dynamique (en utilisant un schéma d’Euler par exemple) et on considère par exemple des
contrôles constants par morceaux. On obtient ainsi un problème d’optimisation non-linéaire
sous contraintes en dimension finie, que l’on peut résoudre de plusieurs façons (par exemple,
en utilisant les techniques de Sequential Quadratic Programming). Les méthodes directes sont
de mise en œuvre simple ; en revanche, elles sont souvent peu précises et deviennent très chères
si d est grand. Enfin, on observera qu’on peut utiliser une méthode directe pour initialiser une
méthode de tir.

80
Chapitre 7

Programmation dynamique en temps


discret

Ce chapitre introduit un nouveau point de vue pour la résolution des problèmes de contrôle
optimal. Pour simplifier, nous considérons des problèmes de contrôle optimal en temps dis-
cret ; nous reviendrons aux problèmes en temps continu au chapitre suivant. L’idée clé de ce
chapitre est de plonger le problème de contrôle optimal dans une famille de problèmes de
contrôle optimal paramétrés par une paire (x, tn ) représentant un état générique du système
x ∈ Rd à un instant discret tn ∈ {t0 = 0, . . . , tN = T }. On cherche alors pour chaque paire
(x, tn ), la fonction valeur définie comme la valeur minimale du critère pour le problème de
contrôle optimal défini à partir de tn en prenant x comme état du système. C’est à première
vue étonnant puisqu’on a maintenant à résoudre une famille de problèmes de contrôle opti-
mal au lieu d’un seul (même si souvent on considère de toutes façons plusieurs conditions
initiales...). Le point remarquable est que la famille de fonctions valeur est solution d’une
équation de récurrence rétrograde, appelée équation de programmation dynamique. De
plus, la résolution rétrograde de cette équation, du temps final au temps initial, nous four-
nit à chaque instant discret un contrôle optimal comme un feedback sur l’état du système.
Nous pouvons alors revenir au problème de contrôle optimal de départ qui était posé avec
une certaine condition initiale x0 ∈ Rd au temps t0 = 0, et en avançant du temps initial
au temps final, nous pouvons déterminer les contrôles optimaux à tous les instants discrets
ainsi que la trajectoire optimale associée. L’idée à la base de la programmation dynamique est
plus générale que le cadre des problèmes de contrôle optimal. Nous en donnerons un exemple
d’application en optimisation combinatoire.

7.1 Contrôle optimal en temps discret


On considère des instants discrets
0 = t0 < t1 < · · · < tN = T (N > 0). (7.1)
Plutôt que de décrire l’état du système et le contrôle par des fonctions x : [0,T ] → Rd et
u : [0,T ] → U ⊂ Rk (où U est sous-ensemble fermé non-vide de Rk ), on les décrit ici par des

81
Chapitre 7. Programmation dynamique en temps discret

familles discrètes

(xm )m∈{0:N } ∈ Rd(N +1) , (um )m∈{0:N −1} ∈ U N . (7.2)

La dynamique discrète d’évolution s’écrit sous la forme suivante :

xm+1 = Fm (xm , um ), ∀m ∈ {0:N −1}, x0 = x, (7.3)

où Fm : Rd ×U → Rd , pour tout m ∈ {0:N −1}, et x ∈ Rd est la condition initiale. Étant donnée
la condition initiale x, la connaissance des contrôles (um )m∈{0:N −1} détermine par récurrence
les états successifs (xm )m∈{1:N } en utilisant (7.3). Au premier abord, il peut paraı̂tre surpre-
nant de noter x la condition initiale ; c’est en fait tout à fait naturel dans le contexte de la
programmation dynamique où une des idées clés est de considérer une famille de problèmes
de contrôle optimal paramétrés par la condition initiale.
Afin de définir un critère d’optimalité en temps discret, on se donne une famille de fonctions
(Gm )m∈{0:N −1} avec Gm : Rd × U → R, et une fonction h : Rd → R. Le critère à minimiser
J0 : Rd × U N → R est tel que
X
J0 (x; u0 , · · · , uN −1 ) = Gm (xm , um ) + h(xN ). (7.4)
m∈{0:N −1}

On notera que l’on a explicité la dépendance du critère en la condition initiale x ∈ Rd ; de


plus, l’indice 0 fait référence au fait que la condition initiale est prescrite en t0 . Le problème
de contrôle optimal en temps discret est le suivant :

Chercher (u0 , · · · , uN −1 ) ∈ U N tel que


J0 (x; u0 , · · · , uN −1 ) = min J0 (x; u0 , · · · , uN −1 ). (7.5)
(u0 ,··· ,uN −1 )∈U N

Remarque 7.1. [Lien avec le contrôle optimal en temps continu] Pour le problème de contrôle
optimal en temps continu, on rappelle que l’on a
Z T
ẋu (t) = f (t, xu (t), u(t)), J(u) = g(t, xu (t), u(t)) dt + h(xu (T )).
0

Le lien avec l’approche en temps discret se fait en considérant les approximations temporelles
xm ≈ xu (tm ), um ≈ u(tm ), le schéma d’Euler explicite pour la dynamique (avec un pas de
temps ∆tm = tm+1 − tm ) sous la forme
Z tm+1
xu (tm+1 ) = xu (tm ) + f (t, xu (t), u(t)) dt = xu (tm ) + ∆tm f (tm , xu (tm ), u(tm )) + o(∆t),
tm

ce qui conduit à la dynamique discrète (7.3) avec

Fm (y, v) = y + ∆tm f (tm , y, v), ∀(y, v) ∈ Rd × U,

82
7.2 Fonction valeur et programmation dynamique

et enfin une formule des rectangles pour évaluer le critère, i.e.,


X
J(u) = ∆tm g(tm , xu (tm ), u(tm )) + o(∆t) + h(xu (tN )),
m∈{0:N −1}

ce qui conduit à
Gm (y, v) = ∆tm g(tm , y, v), ∀(y, v) ∈ Rd × U,
tandis que la fonction h est la même que dans le cas continu.

7.2 Fonction valeur et programmation dynamique


La fonction valeur pour le problème (7.5) est la fonction V0 : Rd → R telle que

V0 (x) = inf J0 (x; u0 , · · · , uN −1 ). (7.6)


(u0 ,··· ,uN −1 )∈U N

L’application V0 associe donc à la condition initiale x ∈ Rd la valeur optimale du critère.


Nous allons maintenant plonger le problème (7.5) dans une famille de problèmes de contrôle
optimal en temps discret paramétrée par n ∈ {0:N −1} et x ∈ Rd . L’idée est que la dynamique
démarre à l’instant discret tn avec l’état x ; on a donc

xm+1 = Fm (xm , um ), ∀m ∈ {n:N −1}, xn = x, (7.7)

et le critère est Jn : Rd × U N −n → R tel que


X
Jn (x; un , · · · , uN −1 ) = Gm (xm , um ) + h(xN ). (7.8)
m∈{n:N −1}

Définition 7.2 (Fonction valeur). La fonction valeur pour la dynamique discrète (7.7) et le
critère (7.8) est l’application Vn : Rd → R telle que, pour tout n ∈ {0:N −1},

Vn (x) = inf Jn (x; un , · · · , uN −1 ). (7.9)


(un ,··· ,uN −1 )∈U N −n

Enfin, pour n = N , on définit VN : Rd → R par VN (x) = h(x) pour tout x ∈ Rd .


Le plongement opéré ci-dessus nous conduit à chercher la famille de fonctions valeur
(Vn )n∈{0:N } avec Vn : Rd → R, pour tout n ∈ {0:N } et la condition finale (en n = N )
VN (x) = h(x) pour tout x ∈ Rd . L’idée clé est qu’il est possible d’obtenir toutes ces fonctions
par la résolution d’une équation fonctionnelle rétrograde en temps discret.
Proposition 7.3 (Programmation dynamique en temps discret). Les fonctions valeur définies
par (7.9) satisfont l’équation fonctionnelle

Vn (x) = inf Gn (x, v) + Vn+1 (Fn (x, v)) , ∀x ∈ Rd , ∀n ∈ {0:N −1},



(7.10)
v∈U

qui se résout par récurrence rétrograde en n à partir de la condition finale VN (x) = h(x) pour
tout x ∈ Rd .

83
Chapitre 7. Programmation dynamique en temps discret

Remarque 7.4. [En pratique] Les problèmes de minimisation (7.10) sont bien posés si, par
exemple, U est un ensemble compact, les fonctions Fn et Gn sont continues sur Rd × U et
la fonction h est continue sur Rd . Les fonctions valeur Vn sont alors continues sur Rd . La
résolution des problèmes de minimisation (7.10) fournit de manière rétrograde les fonctions
ũN −1 (x), · · · , ũ0 (x) comme des feedbacks sur l’état x, i.e., comme des fonctions ũn : Rd → Rk
telles que 
ũn (x) ∈ arg min Gn (x, v) + Vn+1 (Fn (x, v)) .
v∈U
Une fois qu’on a déterminé tous ces feedbacks en remontant jusqu’à la fonction valeur V0 , on
est en mesure de déterminer la trajectoire optimale et les contrôles optimaux en repartant
de n = 0 : il suffit en effet de poser u0 = ũ0 (x0 ), puis x1 = F0 (x0 , u0 ) et u1 = ũ1 (x1 ), puis
x2 = F1 (x1 , u1 ) et u2 = ũ2 (x2 ) et ainsi de suite.
Démonstration. Pour n = N − 1, comme xN −1 = x et xN = FN −1 (x, uN −1 ), il vient
n o
VN −1 (x) = inf GN −1 (x, uN −1 ) + h(xN )
uN −1 ∈U
n o
= inf GN −1 (x, uN −1 ) + VN (xN )
uN −1 ∈U
n o
= inf GN −1 (x, uN −1 ) + VN (FN −1 (x, uN −1 )
uN −1 ∈U
n o
= inf GN −1 (x, v) + VN (FN −1 (x, v)) .
v∈U

Pour n < N − 1, on a
Vn (x) = inf Jn (x; un , · · · , uN −1 )
(un ,··· ,uN −1 )∈U N −n
n X o
= inf inf Gm (xm , um ) + h(xN )
un ∈U (un+1 ,··· ,uN −1 )∈U N −n−1
m∈{n:N −1}
n n X oo
= inf Gn (x, un ) + inf Gm (xm , um ) + h(xN )
un ∈U (un+1 ,··· ,uN −1 )∈U N −n−1
m∈{n+1:N −1}
n o
= inf Gn (x, un ) + Vn+1 (xn+1 )
un ∈U
n o
= inf Gn (x, un ) + Vn+1 (Fn (x, un ))
un ∈U
n o
= inf Gn (x, u) + Vn+1 (Fn (x, u)) ,
u∈U

ce qui complète la preuve. On notera que l’argument essentiel est que le critère est additif le
long des trajectoires.

7.3 Application : système LQ en temps discret


On considère deux matrices A ∈ Rd×d et B ∈ Rd×k . La dynamique discrète s’écrit sous la
forme
xm+1 = Axm + Bum , ∀m ∈ {0:N −1}, x0 = x ∈ Rd , (7.11)

84
7.3 Application : système LQ en temps discret

qui est bien de la forme (7.3) avec F (y, v) = Ay + Bv. Le critère à minimiser s’écrit sous la
forme X n1 1 o 1
J0 (x; u0 , · · · , uN −1 ) = u†m Rum + x†m Qxm + x†N DxN , (7.12)
2 2 2
m∈{0:N −1}

où la matrice R ∈ Rk×k est symétrique définie positive et les matrices Q, D ∈ Rd×d sont
symétriques semi-définies positives. Le critère J0 est bien de la forme (7.4) avec G(y, v) =
1 †
2
v Rv + 12 y † Qy et h(y) = 12 y † Dy. Pour simplifier, on considère un état cible nul et il n’y a pas
de contraintes sur le contrôle si bien que U = Rk .
En appliquant la proposition 7.3, l’équation de programmation dynamique s’écrit
n1 1 o
Vn (x) = inf u† Ru + x† Qx + Vn+1 (Ax + Bu) , (7.13)
u∈Rk 2 2
avec la condition finale VN (x) = 21 x† Dx pour tout x ∈ Rd .
Lemme 7.5 (Résolution de l’équation de programmation dynamique). Les fonctions valeur
(Vn )n∈{0:N } de l’équation de programmation dynamique (7.13) sont telles que
1
Vn (x) = x† Pn x, ∀x ∈ Rd , (7.14)
2
où les matrices (Pn )n∈{0:N } sont symétriques semi-définies positives et données par la formule
de récurrence rétrograde suivante :

PN = D, Pn = A† Pn+1 A − En+1 (Fn+1 )−1 En+1 + Q, ∀n ∈ {0:N −1}, (7.15)

avec En+1 = B † Pn+1 A et Fn+1 = R + B † Pn+1 B.


Démonstration. La preuve se fait en raisonnant par récurrence rétrograde. Pour trouver le
feedback ũn (x) associé à la fonction valeur Vn , on considère l’application u 7→ u† Ru + (Ax +
Bu)† Pn+1 (Ax + Bu). En utilisant l’hypothèse de récurrence sur la symétrie de la matrice Pn+1
et en réarrangeant les termes, on se ramène à l’application u 7→ u† Fn+1 u + 2u† En+1 x. Or, la
matrice Fn+1 est définie positive car R l’est et la matrice B † Pn+1 B est semi-définie positive.
Par minimisation quadratique dans Rk , on obtient qu’à l’étape n, le feedback est

ũn (x) = −(Fn+1 )−1 En+1 x, ∀x ∈ Rd .

En reportant dans la définition de Vn , on obtient


1 † † n1
† †
o
Vn (x) = x (A Pn+1 A + Q)x + inf u Fn+1 u + u En+1 x
2 u∈Rk 2
1 † † 1
= x (A Pn+1 A + Q)x + ũn (x)† Fn+1 ũn (x) + ũn (x)† En+1 x
2 2
1 † † 1
= x (A Pn+1 A + Q)x − ũn (x)† Fn+1 ũn (x)
2 2
1 † † †
= x (A Pn+1 A + Q − En+1 (Fn+1 )−1 En+1 )x,
2

85
Chapitre 7. Programmation dynamique en temps discret

d’où l’expression de Pn en ré-arrangeant les termes. Cette expression montre que la matrice
Pn est symétrique. De plus, la fonction valeur Vn vérifie Vn (x) ≥ 0 pour tout x ∈ Rd car
Jn (x; un , · · · , uN ) ≥ 0. Ceci montre que la matrice Pn est bien semi-définie positive.

Il est intéressant de faire le lien avec le système LQ en temps continu en s’inspirant de la


remarque 7.1. On rappelle que le système LQ en temps continu est régi par la dynamique

ẋ(t) = Ax(t) + Bu(t), ∀t ∈ [0,T ], x(0) = x, (7.16)

et que le critère à minimiser est, en prenant un état cible nul,


Z T n1 1 o 1
J(u) = u(t)† Ru(t) + x(t)† Qx(t) dt + x(T )† Dx(T ). (7.17)
0 2 2 2

On considère les instants discrets 0 = t0 < t1 < · · · < tN = T et on considère les approxi-
mations temporelles xm ≈ x(tm ) et um ≈ u(tm ) pour tout m ∈ {0:N }. On suppose pour
simplifier que le pas de temps ∆t est constant. On considère un schéma d’Euler explicite pour
la dynamique, ce qui donne
A = I + ∆tA, B = ∆tB. (7.18)
et la formule des rectangles pour évaluer le critère, ce qui donne

R = ∆tR, Q = ∆tQ. (7.19)

On rappelle que pour le système LQ en temps continu, l’état adjoint est donné par la
formule p(t) = P (t)x(t) où P ∈ C 1 ([0,T ]; Rd×d ) est solution de l’équation de Riccati (qui est
rétrograde en temps)

Ṗ (t) = −A† P (t) − P (t)A + P (t)BR−1 B † P (t) − Q, ∀t ∈ [0,T ], P (T ) = D. (7.20)

Soit maintenant une fonction P∆t ∈ C 1 ([0,T ]; Rd×d ) telle que P∆t (tn ) = Pn , pour tout n ∈
{0:N }. La forme précise de la dépendance temporelle de P∆t n’est pas importante tant que P∆t
vérifie la propriété d’interpolation ci-dessus. En particulier, en tN = T , on a P∆t (T ) = PN = D.
De plus, en effectuant des développements de Taylor en temps, il vient

A† Pn+1 A = P∆t (tn ) + ∆t(A† P∆t (tn ) + P∆t (tn )A + Ṗ∆t (tn )) + o(∆t), (7.21a)
En+1 = B † Pn+1 A = ∆tB † P∆t (tn ) + o(∆t), (7.21b)
Fn+1 = R + B † Pn+1 B = ∆tR + o(∆t). (7.21c)

Comme Pn = A† Pn+1 A − En+1 (Fn+1 )−1 En+1 + Q, on obtient, en simplifiant par P∆t (tn ) et en
divisant par ∆t, que

Ṗ∆t (tn ) = −A† P∆t (tn ) − P∆t (tn )A + P∆t (tn )BR−1 B † P∆t (tn ) − Q + o(1), (7.22)

qui est, à o(1) près, l’équation de Riccati pour le problème en temps continu à l’instant tn .

86
7.3 Application : système LQ en temps discret

Pour le système LQ en temps continu, le Hamiltonien est donné par


1 1
H(x, p, u) = p† (Ax + Bu) + u† Ru + x† Qx, (7.23)
2 2
et le Hamiltonien minimisé par rapport à u est
H[ (x, p) = min H(x, p, u). (7.24)
u∈Rk

Le Hamiltonien minimisé a bien un sens car on résout un problème de minimisation d’une


fonctionnelle fortement convexe sur Rk (car la matrice R est symétrique définie positive).
Dans le même esprit que ci-dessus, cherchons (formellement) une équation pour la fonction
valeur du problème LQ en temps continu. Soit V∆t ∈ C 1 ([0,T ] × Rd ; R) une fonction de classe
C 1 en (t, x) telle que
1
V∆t (tn , x) = Vn (x) = x† Pn x, ∀n ∈ {0:N }, ∀x ∈ Rd . (7.25)
2
n o
On rappelle que Vn (x) = inf u∈Rk 12 u† Ru + 21 x† Qx + Vn+1 (Ax + Bu) et que A = I + ∆tA,
B = ∆tB, R = ∆tR, Q = ∆tQ. Un développement de Taylor nous montre alors que
Vn+1 (Ax + Bu) − Vn (x) = V∆t (tn + ∆t, Ax + Bu) − V∆t (tn , x)
= V∆t (tn + ∆t, x + ∆t(Ax + Bu)) − V∆t (tn , x)
∂V∆t ∂V∆t
= ∆t (tn , x) + ∆t (tn , x)† (Ax + Bu) + o(∆t). (7.26)
∂t ∂x
En reportant dans l’équation de programmation dynamique donnant Vn (x) et en réarrangeant
les différents termes, puis en divisant par ∆t, il vient
n1 1 ∂V∆t ∂V∆t o
inf u† Ru + x† Qx + (tn , x) + (tn , x)† (Ax + Bu) = o(1), (7.27)
u∈Rk 2 2 ∂t ∂x
ou encore
∂V∆t n1 1 ∂V∆t o
(tn , x) + inf u† Ru + x† Qx + (tn , x)† (Ax + Bu) = o(1), (7.28)
∂t u∈Rk 2 2 ∂x
En introduisant le Hamiltonien, il vient
 
∂V∆t ∂V∆t
(tn , x) + inf H x, (tn , x), u = o(1), (7.29)
∂t u∈Rk ∂x
ce qui se récrit de manière plus compacte avec le Hamiltonien minimisé sous la forme
 
∂V∆t ∂V∆t
(tn , x) + H[ x, (tn , x) = o(1). (7.30)
∂t ∂x
Nous verrons au chapitre 8 que la fonction valeur V : [0,T ] × Rd → R pour le problème LQ en
temps continu satisfait l’équation de Hamilton–Jacobi–Bellman (HJB)
 
∂V ∂V
(t, x) + H[ x, (t, x) = 0, ∀t ∈ [0,T ], ∀x ∈ Rd , (7.31)
∂t ∂x
avec la condition en temps final V (T, x) = 12 x† Dx.

87
Chapitre 7. Programmation dynamique en temps discret

7.4 Optimisation combinatoire


La programmation dynamique a été introduite dans les années 1950 par R. Bellman. Son
champ d’applications est bien plus vaste que les problèmes de contrôle optimal en temps
discret. Parmi les exemples, nous pouvons mentionner la recherche opérationnelle (problème
du plus court chemin, affectation de ressources, et plus généralement, la théorie des graphes)
ou l’analyse statistique (détection de ruptures, i.e., estimer les instants où un signal présente
des changements dans la distribution). Cette liste n’est de loin pas exhaustive.
Heuristiquement, le principe d’optimalité de Bellman est le suivant :
— toute solution optimale résulte de sous-problèmes résolus localement de façon optimale
(i.e., lorsqu’on parcourt une trajectoire optimale, à tout instant, un contrôle optimal
pour le problème restant est celui associé à la trajectoire optimale) ;
— on obtient ainsi une solution optimale en combinant des solutions optimales d’une série
de sous-problèmes.
Nous allons nous contenter de donner ici un exemple simple de problème d’optimisation
combinatoire : le problème du sac à dos. On considère un sac à dos de capacité Q et N objets,
énumérés de 1 à N , de valeur individuelle vn et d’encombrement en , pour tout Pn ∈ {1:N }.
L’objectif est de remplir le sac à dos avec des objets en maximisant la valeur n∈{1:N } un vn
P
du sac à dos sous la contrainte de capacité n∈{1:N } un en ≤ Q. Ici, un = 1 signifie que l’objet
d’indice n est sélectionné pour rentrer dans le sac à dos, sinon on a un = 0. Le problème de
maximisation est donc le suivant :
n X o
max un vn . (7.32)
(u1 ,··· ,uN )∈{0,1}N
P n∈{1:N }
n∈{1:N } un en ≤Q

Ce problème pourrait se résoudre en considérant les 2N possibilités d’affection des objets, mais
ce n’est pas réaliste si N  1. La programmation dynamique permet de résoudre ce problème
bien plus efficacement sous l’hypothèse (raisonnable) que Q et les encombrements en sont des
entiers.
L’état du sac à dos est décrit par un entier q ∈ {0:Q} quantifiant sa capacité. On considère
la fonction valeur Vn : {0:Q} → R, où Vn (q) est la valeur optimale d’un sac à dos de capacité
q pour les objets énumérés de n à N . Pour n = N (seul l’objet d’indice N est considéré), on a

( (
vN , si eN ≤ q, 1, si eN ≤ q,
VN (q) = ũN (q) =
0, sinon, 0, sinon.

Noter que le contrôle optimal est obtenu comme un feedback par rapport à l’état q. On stocke
la fonction valeur et le contrôle optimal dans des tableaux à (Q + 1) lignes et N colonnes. Afin
d’illustrer notre propos, considérons un exemple numérique avec Q = 6, N = 3, les valeurs
(3, 3, 5) pour les trois objets, et les encombrements (3, 3, 4). On obtient alors les tableaux

88
7.4 Optimisation combinatoire

suivants :
Vn (q) 1 2 3 ũn (q) 1 2 3
6 5 6 1
5 5 5 1
4 5 4 1
3 0 3 0
2 0 2 0
1 0 1 0
0 0 0 0
L’équation de programmation dynamique s’écrit
 
Vn (q) = max uvn + Vn+1 (q − uen ) . (7.33)
u∈{0,1}
q≥uen

Si en > q, la seule possibilité est u = 0 si bien que Vn (q) = Vn+1 (q), alors que si en ≤ q, il vient
 
Vn (q) = max Vn+1 (q), vn + Vn+1 (q − en ) . (7.34)

Le contrôle optimal comme feedback est donc


— ũn (q) = 0 si en > q ou si en ≤ q et Vn+1 (q) > Vn+1 (q − en ) + vn ;
— ũn (q) = 1 si en ≤ q et Vn+1 (q) < Vn+1 (q − en ) + vn ;
— ũn (q) ∈ {0, 1} si en ≤ q et Vn+1 (q) = Vn+1 (q − en ) + vn .
On continue à remplir les tableaux donnant Vn (q) et ũn (q) de la droite vers la gauche, ce qui
pour le cas de notre exemple numérique conduit au résultat suivant :

Vn (q) 1 2 3 ũn (q) 1 2 3


6 6 5 5 6 1 0 1
5 5 5 5 5 0 0 1
4 5 5 5 4 0 0 1
3 3 3 0 3 {0,1} 1 0
2 0 0 0 2 0 0 0
1 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0

Le problème de programmation dynamique est maintenant résolu : le contrôle optimal est


(ũ1 (6), ũ2 (3), ũ3 (0)) = (1, 1, 0), et la valeur optimale du sac à dos est de 6. Au total, on a
effectué QN comparaisons (comparer à 2N ). On notera que l’algorithme glouton (qui consiste
à choisir les objets par valeur décroissante) donne le contrôle (0, 0, 1) et la valeur de 5 pour le
sac à dos, ce qui est sous-optimal.

89
Chapitre 7. Programmation dynamique en temps discret

90
Chapitre 8

Équation de Hamilton–Jacobi–Bellman
(HJB)

Ce chapitre est consacré à la programmation dynmaique en temps continu. En procédant


de manière analogue au chapitre précédent, nous allons introduire une fonction valeur
V : [0,T ] × Rd → R et nous allons montrer, grâce au principe d’optimalité de Bellman,
que cette fonction est solution d’une équation aux dérivées partielles en espace et en temps, ap-
pelée équation de Hamilton–Jacobi–Bellman (HJB). Nous allons également montrer, sous
certaines hypothèses, comment la fonction valeur nous permet de synthétiser un contrôle
optimal sous forme de feedback et le lien qui peut être fait entre le gradient de la fonction
valeur (par rapport à l’état) et l’état adjoint introduit dans le cadre du PMP. Nous conclurons
en dressant un bref bilan comparatif des avantages et limites des deux approches considérées
dans ce cours pour les problèmes de contrôle optimal : le PMP et l’équation HJB.

8.1 Fonction valeur


Soit T > 0, x0 ∈ Rd , et f : [0,T ] × Rd × U → Rd où U est un sous-ensemble fermé non-vide
de Rk . On considère le système de contrôle non-linéaire

ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ [0,T ], xu (0) = x0 , (8.1)

où l’état du système est décrit par la fonction xu : [0,T ] → Rd qui dépend du contrôle
u : [0,T ] → U . L’ensemble des contrôles admissibles est le sous-ensemble

U = L1 ([0,T ]; U ) ⊂ L1 ([0,T ]; Rk ). (8.2)

On considère une fonction g : [0,T ] × Rd × U → R et une fonction h : Rd → R, et on définit


le critère suivant : Z T
J(0, x0 ; u) = g(t, xu (t), u(t)) dt + h(xu (T )). (8.3)
0
Comme dans le chapitre précédent, on explicite la dépendance du critère par rapport à la
condition initiale x0 ∈ Rd , et le premier argument de J est là pour nous rappeler que cette

91
Chapitre 8. Équation de Hamilton–Jacobi–Bellman (HJB)

condition est imposée en t = 0. Le problème de contrôle optimal que l’on considère est le
suivant :
Chercher u ∈ U tel que J(0, x0 ; u) = inf J(0, x0 ; u). (8.4)
u∈U

Comme dans le chapitre précédent, on plonge le problème de minimisation (8.4) dans une
famille de problèmes de contrôle optimal paramétrés par la paire (s, ξ) où s ∈ [0,T ] et ξ ∈ Rd .
Ces paramètres nous indiquent que le problème de contrôle optimal paramétré par (s, ξ) est
posé sur l’intervalle Is = [s,T ] avec la condition initiale x(s) = ξ. En résumé, on considère
donc la famille de systèmes de contrôle non-linéaires et de critères

ẋu (t) = f (t, xu (t), u(t)), ∀t ∈ Is , xu (s) = ξ, (8.5a)


Z
J(s, ξ; u) = g(t, xu (t), u(t)) dt + h(xu (T )), ∀u ∈ Us = L1 (Is ; U ). (8.5b)
Is

Définition 8.1 (Fonction valeur). La fonction valeur V : [0,T ] × Rd → R associée à la famille


de systèmes de contrôle non-linéaires et de critères (8.5) est telle que

V (s, ξ) = inf J(s, ξ; u). (8.6)


u∈Us

En s = T , on pose V (T, ξ) = h(ξ) pour tout ξ ∈ Rd .


Dans la suite de ce chapitre, nous faisons les hypothèses suivantes sur la dynamique :
a) la fonction f est continue sur [0,T ] × Rd × U , uniformément en u ∈ U ;
b) la fonction f est dérivable par rapport à x et la fonction ∂f
∂x
est continue bornée sur [0,T ] ×
d
R ×U;
c) il existe une constante C ≥ 0 telle que |f (t, x, u)|Rd ≤ C(1+|x|Rd +|u|Rk ) sur [0,T ]×Rd ×U .
et les hypothèses suivantes sur le critère :
d) la fonction g est continue sur [0,T ] × Rd × U , uniformément en u ∈ U ;
e) il existe des constantes ν > 0 et C ≥ 0 telles que g(t, x, u) ≥ ν|u|2Rk − C sur [0,T ] × Rd × U ;
f) la fonction h est continue et minorée sur Rd .
On pourra vérifier que les hypothèses ci-dessus sont des conditions suffisantes d’une part pour
qu’il existe une unique trajectoire xu ∈ AC([0,T ]; Rd ) pour tout contrôle u ∈ U = L1 ([0,T ]; U ),
et d’autre part pour que le critère J ait bien un sens et V (s, ξ) > −∞ pour tout (s, ξ) ∈
[0,T ] × Rd .
Remarque 8.2. [Non-différentiabilité de la fonction valeur] On fera attention au fait que la
fonction valeur n’est pas toujours différentiable en tout point. On considère par exemple le
système de contrôle (linéaire) et le critère

ẋu (t) = u(t) ∈ U = [−1, 1], ∀t ∈ Is , xu (s) = ξ, J(s, ξ; u) = h(xu (T )),

où la fonction h : R → R est supposée paire, régulière et telle que h0 (x) < 0 si x > 0 (par
2
exemple, on pourra considérer la fonction h(x) = e−x sur R). Le problème de contrôle optimal
ci-dessus se résout directement ; on constate en effet que

92
8.1 Fonction valeur

V (T, ξ)
V (s, ξ)

Figure 8.1 – Illustration de la remarque 8.2.

— Si ξ > 0, le contrôle optimal est u ≡ 1 et V (s, ξ) = h(ξ + T − s) ;


— si ξ < 0, le contrôle optimal est u ≡ −1 et V (s, ξ) = h(ξ − T + s) ;
— si ξ = 0, il y a deux contrôles optimaux u ≡ ±1 et V (s, 0) = h(±(T − s)).
En conclusion, on a V (s, ξ) = h(T − s + |ξ|), qui est une fonction régulière sauf en ξ = 0 (cf.
la figure 8.1). Cet exemple illustre un phénomène important et général : la perte de régularité
de la fonction valeur en les points où existent plusieurs contrôles optimaux.
Passons maintenant au principe d’optimalité de Bellman. Celui-ci constitue la clé de voûte
de la programmation dynamique. Heuristiquement, le principe d’optimalité de Bellman nous
dit que un contrôle u est optimal si à tout instant s ∈ [0,T ] sur la trajectoire associée x = xu ,
le contrôle restreint aux instants ultérieurs u|[s,T ] est optimal pour le nouveau problème ayant
l’état courant x(s) comme état initial.
Théorème 8.3 (Principe d’optimalité de Bellman). Soit u ∈ U un contrôle optimal. Soit
(s, ξ) ∈ [0,T [ × Rd . Alors, pour tout s0 ∈ [s,T ], on a
Z 
0 0
V (s, ξ) = inf 0 g(t, xu (t), u(t)) dt + V (s , xu (s )) , (8.7)
u∈Uss Iss0
0 0 0
avec Iss = [s,s0 ] et Uss = L1 (Iss ; U ).
Démonstration. Nous nous contenterons d’esquisser la preuve. On observe que toute fonction
0
u ∈ Us peut être identifiée à un couple de fonctions (u1 , u2 ) ∈ Uss × Us0 en posant u1 = u|Iss0 et
0
u2 = u|Is0 . D’une part, le contrôle u1 conduit à la trajectoire x1 ≡ x sur Iss telle que x1 (s) = ξ.
D’autre part, le contrôle u2 conduit à la trajectoire x2 ≡ x sur Is0 telle que x2 (s0 ) = x1 (s0 ). En
utilisant l’additivité du critère le long de la trajectoire, on constate que
Z 
V (s, ξ) = inf g(t, xu (t), u(t)) dt + h(xu (T ))
u∈Us Is
Z nZ o
= inf g(t, x1 (t), u1 (t)) dt + g(t, x2 (t), u2 (t)) dt + h(x2 (T ))
(u1 ,u2 )∈Uss0 ×Us0 Iss
0
Is0
Z nZ o
= inf 0 g(t, x1 (t), u1 (t)) dt + inf g(t, x2 (t), u2 (t)) dt + h(x2 (T ))
u1 ∈Uss Iss0 u2 ∈Us0 I s0
Z 
0 0
= inf 0 g(t, x1 (t), u1 (t)) dt + V (s , x1 (s )) ,
u1 ∈Uss Iss0

93
Chapitre 8. Équation de Hamilton–Jacobi–Bellman (HJB)

ce qui conclut la preuve.


On rappelle que le Hamiltonien associé au système de contrôle non-linéaire (8.1) et au
critère (8.3) est l’application H : [0,T ] × Rd × Rd × U → R telle que

H(t, x, p, u) = p† f (t, x, u) + g(t, x, u). (8.8)

En outre, on définit le Hamiltonien minimisé comme l’application H[ : [0,T ] × Rd × Rd → R


telle que
H[ (t, x, p) = inf H(t, x, p, u). (8.9)
u∈U

Théorème 8.4 (Équation HJB). En tout point (s, ξ) ∈ [0,T [ × Rd où la fonction valeur est
différentiable, elle satisfait l’équation HJB
 
∂V ∂V
(s, ξ) + H[ s, ξ, (s, ξ) = 0, (8.10)
∂s ∂ξ
et elle vérifie en outre la condition à l’instant final

V (T, ξ) = h(ξ), ∀ξ ∈ Rd . (8.11)

Exemple 8.5. Dans l’exemple considéré à la remarque 8.2, on a H(x, p, u) = pu et U = [−1, 1],
si bien que le Hamiltonien minimisé vaut H[ (x, p) = −|p|. On avait vu que la fonction valeur
est égale à V (s, ξ) = h(T − s − |ξ|). On vérifie facilement qu’en tout (s, ξ) où la fonction V
est régulière (i.e., si ξ 6= 0), elle satisfait l’équation HJB ∂V
∂s
− | ∂V
∂ξ
| = 0.

Démonstration. La preuve repose sur le principe d’optimalité de Bellman (cf. le théorème 8.3).
Pour simplifier, on se restreint au cas où le sous-ensemble U est borné. Soit (s, ξ) ∈ [0,T [×Rd un
point où la fonction valeur est différentiable. On applique le principe d’optimalité de Bellman
avec s0 = s + δ et 0 < δ < T − s. On obtient ainsi
Z 
V (s, ξ) = inf g(t, xu (t), u(t)) dt + V (s + δ, xu (s + δ)) .
u∈Uss+δ Iss+δ

Puisque le sous-ensemble U est borné, les hypothèses sur f impliquent que

sup |xu (t) − ξ|Rd ≤ Cδ,


t∈Iss+δ

uniformément en δ et en u. On en déduit que


Z
xu (s + δ) = ξ + f (s, ξ, u(t)) dt + o(δ),
Iss+δ

uniformément en u. Comme la fonction V est supposée différentiable en (s, ξ), on obtient


  Z 
∂V ∂V † 1
V (s + δ, x(s + δ)) = V (s, ξ) + δ (s, ξ) + (s, ξ) f (s, ξ, u(t)) dt + o(δ).
∂s ∂ξ δ Iss+δ

94
8.1 Fonction valeur

De plus, les hypothèses sur g impliquent que


Z Z
g(t, xu (t), u(t)) dt = g(s, ξ, u(t)) dt + o(δ).
Iss+δ Iss+δ

En reportant dans le principe d’optimalité de Bellman, en simplifiant par V (s, ξ) et en divisant


par δ, et comme les termes en o(δ) sont uniformes en u, il vient
 Z  Z 
∂V 1 ∂V † 1
(s, ξ) + inf g(s, ξ, u(t)) dt + (s, ξ) f (s, ξ, u(t)) dt = o(1).
∂s u∈Uss+δ δ Iss+δ ∂ξ δ Iss+δ

On conclut en remarquant que (s et ξ sont ici fixés)


 Z  Z 
1 ∂V † 1
inf g(s, ξ, u(t)) dt + (s, ξ) f (s, ξ, u(t)) dt
u∈Uss+δ δ Iss+δ ∂ξ δ Iss+δ
 
n ∂V †
o ∂V
= inf g(s, ξ, v) + (s, ξ) f (s, ξ, v) = inf H s, ξ, (s, ξ), v .
v∈U ∂ξ v∈U ∂ξ

Cela repose sur l’observation élémentaire que l’on a inf u∈Uss+δ 1δ Iss+δ Φ(u(t)) dt = inf v∈U Φ(v)
R

où Φ : Rk → R. Pour montrer ce résultat, notons I1 le premier infimum et I2 le deuxième.


Pour tout u ∈ Uss+δ , on a Φ(u(t)) ≥ inf v∈U Φ(v), pour tout t ∈ Iss+δ , si bien que I1 ≥ I2 . De
plus, pour tout v ∈ U , en considérant la fonction constante égale à v, on obtient
Z
1
Φ(v) ≥ inf Φ(u(t)) dt,
u∈Uss+δ δ Iss+δ

ce qui implique que I2 ≥ I1 et complète la preuve.

Remarque 8.6. [Unicité de la solution régulière] On peut montrer que si une fonction W
suffisamment régulière (à savoir, W ∈ C 0 ([0,T ] × Rd ) ∩ C 1 ([0,T [ × Rd )) satisfait l’équation
HJB (8.10) et la condition en temps final (8.11) et si le sous-ensemble U est borné, alors on
a W ≡ V . En d’autres termes, l’équation HJB a au plus une solution régulière. Ce résultat
d’unicité s’étend au cas où le sous-ensemble U est non-borné sous hypothèse de décroissance
de W quand |ξ| → +∞ uniformément en t (voir par exemple la preuve du théorème 5.2 dans
la référence [8]). Le lecteur désireux d’en savoir plus sur l’équation HJB pourra également
consulter le livre [2].

Proposition 8.7 (Synthèse d’un feedback optimal). On suppose que la fonction valeur V est
suffisamment régulière, i.e.,

V ∈ C 0 ([0,T ] × Rd ) ∩ C 1 ([0,T [ × Rd ). (8.12)

On suppose que pour tout (s, ξ) ∈ [0,T ] × Rd , on peut trouver un feedback optimal
 
∂V
ũ(s, ξ) ∈ arg min H s, ξ, (s, ξ), v . (8.13)
v∈U ∂ξ

95
Chapitre 8. Équation de Hamilton–Jacobi–Bellman (HJB)

(L’existence d’un tel feedback optimal est assurée par les hypothèses sur f et g ; en général,
on n’a pas unicité, ni dépendance continue en (s, ξ).) On suppose enfin que l’on peut choisir
le feedback ũ(s, ξ) de sorte à ce que le système différentiel
dx
(t) = f (t, x(t), ũ(t, x(t))), ∀t ∈ [0,T ], x(0) = x0 , (8.14)
dt
admette une solution x ∈ AC([0,T ]; Rd ). Dans ces conditions,

u(t) = ũ(t, x(t)) (8.15)

est un contrôle optimal sur [0,T ].


Démonstration. On a
d ∂V ∂V
V (t, x(t)) = (t, x(t)) + (t, x(t))† f (t, x(t), u(t)), p.p. t ∈ [0,T ].
dt ∂s ∂ξ
Comme la fonction V satisfait l’équation HJB, on a
 
∂V ∂V
(t, x(t)) + H[ t, x(t), (t, x(t)) = 0.
∂s ∂ξ
Par définition de u, on a
   
∂V ∂V
H[ t, x(t), (t, x(t)) = H t, x(t), (t, x(t)), u(t) .
∂ξ ∂ξ

Comme H(t, x, p, u) = p† f (t, x, u) + g(t, x, u), on obtient


d
V (t, x(t)) = −g(t, x(t), u(t)), p.p. t ∈ [0,T ].
dt
On en déduit que
T
Z
d
V (0, x0 ) = V (0, x(0)) = V (T, x(T )) − V (t, x(t)) dt
0 dt
Z T
= h(x(T )) + g(t, x(t), u(t)) dt = J(0, x0 ; u),
0

ce qui montre que u est bien un contrôle optimal.


Proposition 8.8 (Fonction valeur et état adjoint). On suppose qu’il existe un contrôle op-
timal u : [0,T ] → U On note x = xu : [0,T ] → Rd la trajectoire correspondante. Soit
p : [0,T ] → Rd l’état adjoint introduit dans le PMP, i.e., tel que dp
dt
(t) = − ∂f
∂x
(t, x(t), u(t))† p(t)−
∂g
∂x
(t, x(t), u(t)), pour tout t ∈ [0,T ], et p(T ) = ∂h
∂x
(x(T )). On suppose que la fonction valeur V
est différentiable en (s, x(s)) pour tout s ∈ [0,T ]. Dans ces conditions, on a
∂V
p(s) = (s, x(s)), ∀s ∈ [0,T ]. (8.16)
∂ξ

96
8.2 Application au système LQ

Démonstration. Pour s < T , on a V (s, x(s)) = J(s, x(s); u|Is ) de par le principe d’optimalité
de Bellman. Pour tout ξ ∈ Rd , on a V (s, ξ) = inf u∈Us J(s, ξ; u) ≤ J(s, ξ; u|Is ). La fonction
ξ 7→ V (s, ξ) − J(s, ξ, u|Is ) est donc maximale en ξ = x(s). Par suite, on a

∂ ∂
V (s, x(s)) = J(s, x(s), u|Is ), ∀i ∈ {1:d}.
∂ξi ∂ξi
On vérifie aisément que
Z
∂ ∂g ∂h
J(s, x(s), u|Is ) = (t, x(t), u(t))† yi (t) dt + (x(T ))† yi (T ),
∂ξi Is ∂x ∂x

où ẏi (t) = ∂f


∂x
(t, x(t), u(t))yi (t), pour tout t ∈ Is , et yi (s) = ei = (δij )j∈{1:d} . En introduisant
l’état adjoint et en intégrant par parties en temps, il vient
Z
∂ d
p(t)† yi (t) dt + p(T )† yi (T ) = p(s)† ei .

J(s, x(s), u|Is ) = −
∂ξi Is dt

∂h ∂V
Enfin, en s = T , il vient p(T ) = ∂ξ
(x(T )) = ∂ξ
(T, x(T )) puique V (T, ξ) = h(ξ).

8.2 Application au système LQ


On considère la famille de systèmes LQ (avec cible nulle pour simplifier)

ẋu (t) = Axu (t) + Bu(t), ∀t ∈ Is , xu (s) = ξ, u ∈ L2 (Is ; Rk ), (8.17a)


Z n
1 1 o 1
J(s, ξ; u) = u(t)† Ru(t) + xu (t)† Qxu (t) dt + xu (T )† Dxu (T ). (8.17b)
Is 2 2 2

Le Hamiltonien est
1 1
H(x, p, u) = p† (Ax + Bu) + u† Ru + x† Qx, (8.18)
2 2
et le Hamiltonien minimisé est
1 1
H[ (x, p) = min H(x, p, u) = p† Ax − p† BR−1 B † p + x† Qx, (8.19)
u∈Rk 2 2

l’unique minimiseur étant ũ = −R−1 B † p. La fonction valeur satisfait la condition finale


V (T, ξ) = 12 ξ † Dξ et l’équation HJB
 †  †
∂V ∂V 1 ∂V ∂V 1
+ Aξ − BR−1 B † + ξ † Qξ = 0. (8.20)
∂s ∂ξ 2 ∂ξ ∂ξ 2

On peut vérifier que la solution de l’équation HJB est de la forme


1
V (s, ξ) = ξ † P (s)ξ, (8.21)
2
97
Annexe A. Stabilité des systèmes dynamiques

où P : [0,T ] → Rd×d est solution de l’équation de Riccati. En effet, en reportant l’expres-
sion (8.21) dans (8.20) et en utilisant la symétrie de P (s) pour tout s ∈ [0,T ], il vient
 
† 1 † 1 † −1 † 1
ξ Ṗ (s) + P (s) A − P (s) BR B P (s) + Q ξ = 0, (8.22)
2 2 2
ce qui implique que la partie symétrique de la matrice entre parenthèses est nulle, ce qui
n’est rien d’autre que l’équation de Riccati. On notera au passage que pour le système LQ, la
fonction V est régulière sur [0,T ] × Rd (on notera également l’unicité du contrôle optimal ).
Exemple 8.9. [Mouvement d’un point matériel] On considère le mouvement d’un point
matériel avec un critère quadratique :
Z T
1 1
ẋu (t) = u(t), x(s) = ξ, J(s, ξ; u) = (u(t)2 + xu (t)2 ) dt + xu (T )2 .
s 2 2
Le Hamiltonien est H(x, p, u) = pu + 12 (x2 + u2 ), et le Hamiltonien minimisé est H[ (x, p) =
1
2
(x2 − p2 ) avec ũ = −p comme unique minimiseur. On obtient l’équation HJB et la condition
finale   2 
∂V 1 2 ∂V 1
+ ξ − = 0, V (T, ξ) = ξ 2 .
∂s 2 ∂ξ 2
1 0
En cherchant une solution de la forme V (s, ξ) = 2 µ(s)ξ , il vient µ (s) = µ(s)2 −1 et µ(T ) = 1,
2

d’où µ ≡ 1. Le contrôle optimal (sous forme de feedback) est


∂V
ũ(s, ξ) = − (s, ξ) = −µ(s)ξ = −ξ,
∂ξ
si bien que dxdt
(t) = −x(t) ; d’où x(t) = x0 e−t et u(t) = −x0 e−t . En guise de variante, on peut
RT
considérer le critère J(s, ξ; u) = s 12 (u(t)2 + xu (t)2 ) dt comme dans l’exemple 4.9. L’équation
HJB est inchangée, mais la condition finale devient V (T, ξ) = 0. Il vient µ0 (s) = µ(s)2 − 1 et
µ(T ) = 0, d’où µ(s) = tanh(T − s). Le feedback optimal est ũ(s, ξ) = − tanh(T − s)ξ, si bien
x0 x0
que dx
dt
(t) = − tanh(T −t)x(t) ; d’où x(t) = cosh(T )
cosh(T −t) et u(t) = − cosh(T )
sinh(T −t).

8.3 Bilan : PMP ou HJB ?


Pour résumer les principaux résultats que nous avons vus sur le PMP et l’équation HJB,
nous pouvons conclure avec les commentaires suivants. Le PMP
— fournit une condition nécessaire d’optimalité ;
— fournit le contrôle optimal en boucle ouverte (fonction du temps) ;
— repose sur la résolution d’équations différentielles ordinaires ;
— ne s’applique (sauf rares exceptions) qu’aux systèmes déterministes.
En revanche, la programmation dynamique via la résolution de l’équation HJB
— fournit une condition suffisante d’optimalité ;
— fournit le contrôle optimal en boucle fermée (fonction de l’état) ;
— repose sur la résolution d’une équation aux dérivées partielles (ce qui devient rapide-
ment intractable lorsque la dimension d de l’espace des états croit) ;
— s’applique aux systèmes déterministes et stochastiques.

98
Annexe A

Stabilité des systèmes dynamiques

On se place ici en horizon de temps infini.

A.1 Notions de stabilité


On considère une fonction f ∈ C 1 (Rd ; Rd ), une condition initiale x0 ∈ Rd et le système
dynamique autonome

ẋ(t) = f (x(t)), ∀t ≥ 0, x(0) = x0 . (A.1)

Définition A.1 (Point d’équilibre). On dit que le vecteur x ∈ Rd est un point d’équilibre
de (A.1) si
f (x) = 0 (∈ Rd ). (A.2)

Définition A.2 (Stabilité des points d’équilibre). Soit x ∈ Rd un point d’équilibre de (A.1).
(i) On dit que le point d’équilibre x ∈ Rd est stable (on parle également de stabilité orbitale)
si
∃0 > 0, ∀ ∈ ]0, 0 ], ∃δ > 0, ∀x0 ∈ B(x, δ), x(t) ∈ B(x, ), ∀t ≥ 0, (A.3)
où B(x, δ) désigne la boule fermée de centre x et de rayon δ.
(ii) On dit que le point d’équilibre x ∈ Rd est localement asymptotiquement stable
(LAS) si il est stable et de plus

lim x(t) = x, ∀x0 ∈ B(x, δ). (A.4)


t→+∞

On dit que le point d’équilibre x ∈ Rd est globalement asymptotiquement stable (GAS)


si il est stable et de plus
lim x(t) = x, ∀x0 ∈ Rd . (A.5)
t→+∞

Une illustration est présentée à la figure A.1.

99
Annexe A. Stabilité des systèmes dynamiques

B(x, ) B(x, )

B(x, δ) B(x, δ)

x x

Figure A.1 – Point d’équilibre stable (à gauche) et point d’équilibre localement asymptoti-
quement stable (à droite).

La stabilité des points d’équilibre s’analyse très facilement dans le cas linéaire. Soit A ∈
Rd×d . On considère le système dynamique linéaire

ẋ(t) = Ax(t), ∀t ≥ 0, x(0) = x0 . (A.6)

Il est clair que x = 0 est point d’équilibre et que c’est le seul point d’équilibre si la matrice A
est inversible. L’étude de la stabilité du point d’équilibre x = 0 repose sur l’étude du spectre
de la matrice A que l’on note σ(A) ⊂ C. Pour une valeur propre λ ∈ σ(A), on désigne par
<(λ) sa partie réelle.
Lemme A.3 (Stabilité, cas linaire). On considère le point d’équilibre x = 0 ∈ Rd .
(i) Si <(λ) ≤ 0, ∀λ ∈ σ(A), et toutes les valeurs propres à partie réelle nulle sont simples,
alors x = 0 est un point d’équilibre stable.
(ii) Si <(λ) < 0, ∀λ ∈ σ(A) (on dit que la matrice A est Hurwitz), alors x = 0 est un point
d’équilibre GAS.
(iii) S’il existe une valeur propre λ ∈ σ(A) telle que <(λ) > 0, alors le point d’équilibre x = 0
est instable.
L’analyse de la stabilité des points d’équilibre dans le cas non-linéaire est plus délicate.
Une première analyse, locale, peut se faire par linéarisation.
Lemme A.4 (Stabilité locale, cas non-linéaire). Soit x ∈ Rd un point d’équilibre du système
dynamique (A.1). On introduit la matrice
∂f
A= (x) ∈ Rd×d . (A.7)
∂x
(i) Si la matrice A est Hurwitz, alors le point d’équilibre x est LAS.
(ii) S’il existe une valeur propre λ ∈ σ(A) telle que <(λ) > 0, alors le point d’équilibre x est
instable.
˙
Démonstration. Ces résultats se montrent en posant δx(t) = x(t) − x de sorte que δx(t) =
f (x + δx(t)) = Aδx(t) + o(δx).

100
A.2 Fonction de Lyapunov et principe d’invariance de LaSalle

Exemple A.5. [Pendule inversé] On considère un pendule inversé, i.e., avec la masse vers
le haut et la tige vers le bas. On considère pour simplifier une masse et une longueur unités
(m = 1, l = 1). On suppose que le pendule a un mouvement dans un plan et on repère
l’extrémité supérieure du pendule par son angle θ avec la verticale (dans le sens horaire). Le
système dynamique s’écrit
θ̈(t) = sin(θ(t)).
En posant x = (x1 , x2 )† = (θ, θ̇)† ∈ R2 , on obtient
 
x2
ẋ(t) = f (x(t)), f (x) = .
sin(x1 )

On constate que x = (0, 0)† est point d’équilibre. De plus, en évaluant la matrice
 
∂f 0 1
A= (x) = ,
∂x 1 0
on constate que σ(A) = {−1, 1}, si bien que ce point d’équilibre est instable.
Exemple A.6. [Oscillateur anharmonique amorti] Soit une fonction g ∈ C 1 (R; R) vérifiant
g(0) = 0, g 0 (0) > 0 et xg(x) > 0, pour tout x 6= 0. On s’intéresse au mouvement d’un point
matériel (de masse unité) sous le champ de force décrit par la fonction g et d’un terme d’amor-
tissement (dû par exemple au frottement). Ce mouvement est régi par le système différentiel
d’ordre deux en temps
ẍ(t) + η ẋ(t) + g(x(t)) = 0, ∀t ≥ 0,
où le paramètre réel η ≥ 0 quantifie le terme d’amortissement. En posant X(t) = (x(t), ẋ(t))† ,
on obtient  
X2
Ẋ(t) = F (X(t)), F (X) = .
−ηX2 − g(X1 )
On constate que X = (0, 0)† est point d’équilibre. De plus, on obtient
   
∂F 0 1 ∂F 0 1
A= (X) = , A= (X) = .
∂X −g 0 (X1 ) −η ∂X −g 0 (0) −η
p
Si η < 2 g 0 (0), les 2 valeurs propres de A sont imaginaires pures et simples ; par conséquent,
p
X = (0, 0)† est point d’équilibre stable du système linéarisé. En revanche, si η ≥ 2 g 0 (0),
alors la matrice A est Hurwitz, et le point d’équilibre X = (0, 0)† est GAS pour le système
linéarisé et LAS pour le système non-linéaire.

A.2 Fonction de Lyapunov et principe d’invariance de


LaSalle
Un outil puissant pour aller plus loin dans l’étude de la stabilité d’un point d’équilibre
d’un système dynamique non-linéaire est la notion de fonction de Lyapunov. Soit x ∈ Rd un
point d’équilibre du système dynamique (A.1) et soit Ω un ouvert de Rd contenant x.

101
Annexe A. Stabilité des systèmes dynamiques

Définition A.7 (Fonction de Lyapunov). On dit que la fonction V : Ω → R est une fonction
de Lyapunov en x sur Ω si (i) V est de classe C 1 sur Ω ; (ii) V (x) < V (x), pour tout
x ∈ Ω \ {x} ; (iii) on a
(∇V (x), f (x))Rd ≤ 0, ∀x ∈ Ω, (A.8)
où (·, ·)Rd désigne le produit scalaire usuel sur Rd . On a donc

d
V (x(t)) = (∇V (x(t)), f (x(t)))Rd ≤ 0, ∀t ≥ 0, (A.9)
dt
ce qui signifie que la fonction t 7→ V (x(t)) décroı̂t le long des trajectoires. Si l’inégalité (A.8)
est stricte sur Ω \ {x}, on dit que la fonction de Lyapunov est stricte. Enfin, on dit que la
fonction de Lyapunov est propre sur Ω si l’image réciproque de tout compact dans V (Ω) est
un compact. Une illustration est présentée à la figure A.2.

x0

x(t)

Figure A.2 – Graphe d’une fonction de Lyapunov en un point d’équilibre x et trajectoire


t 7→ x(t).

Théorème A.8 (Lyapunov). Soit x ∈ Rd un point d’équilibre du système dynamique (A.1)


et soit Ω un ouvert de Rd contenant x. On suppose qu’il existe une fonction de Lyapunov en x
sur Ω. Alors, le point d’équilibre x est stable. De plus, si la fonction de Lyapunov est stricte,
alors le point d’équilibre x est LAS. Enfin, si la fonction de Lyapunov est propre sur Ω, alors
le point d’équilibre x est GAS sur Ω, i.e.,

lim x(t) = x, ∀x0 ∈ Ω. (A.10)


t→+∞

Démonstration. Voir par exemple la section 5.7 de l’ouvrage [10].

Exemple A.9. [Oscillateur anharmonique amorti] On reprend l’exemple A.6 de l’oscillateur


harmonique amorti, i.e., le système dynamique
 
X2
Ẋ(t) = F (X(t)), F (X) = .
−ηX2 − g(X1 )

102
A.3 Stabilisation par retour d’état

On a vu que X = (0, 0) est point d’équilibre du système. On constate que


Z X1
1
V (X) = X22 + g(x) dx
2 0

est une fonction de Lyapunov en X = (0, 0)† sur R2 . En effet, on a V (X) ≥ 0 et V (X) = 0 si
et seulement si X = (0, 0) ; en outre,
 
X2
(∇V (X), F (X))R2 = (g(X1 ) X2 ) = −ηX22 ≤ 0.
−ηX2 − g(X1 )

On en déduit que le point d’équilibre X = (0, 0)† est stable. Comme la fonction de Lyapunov
n’est pas stricte, on ne peut, à ce stade, aller plus loin dans l’application du théorème de
Lyapunov A.8.

Théorème A.10 (Principe d’invariance de LaSalle). Soit x ∈ Rd un point d’équilibre du


système dynamique (A.1) et soit Ω un ouvert de Rd contenant x. On suppose qu’il existe
une fonction de Lyapunov en x sur Ω et que celle-ci est propre. On note S le plus grand
sous-ensemble de {x ∈ Ω | (∇V (x), f (x))Rd = 0} invariant par la dynamique. Alors, on a

lim d(x(t), S) = lim inf |x(t) − y|Rd = 0, ∀x0 ∈ Ω. (A.11)


t→+∞ t→+∞ y∈S

Démonstration. Voir [5].

Le principe d’invariance de LaSalle est utile si on sait montrer que S = {x}, i.e., que
le sous-ensemble S est réduit au seul point d’équilibre x. Dans ce cas, on peut déduire du
théorème A.10 que le point d’équilibre x est GAS même si la fonction de Lyapunov n’est pas
stricte.

Exemple A.11. [Oscillateur anharmonique amorti] On reprend à nouveau l’exemple A.6


de l’oscillateur harmonique amorti. On a vu ci-dessus que (∇V (X), F (X))R2 = −ηX22 ≤ 0
(rappelons que η > 0). On cherche le plus grand sous-ensemble S ⊂ {X ∈ R2 | X2 = 0}
invariant par la dynamique. Comme on doit avoir Ẋ1 (t) = X2 (t) = 0, il vient X1 (t) = X1,0 , et
donc 0 = Ẋ2 (t) = g(X1,0 ), d’où X1,0 = 0. En conclusion, S = {X} = {(0, 0)† }. Par le principe
d’invariance de LaSalle, le point d’équilibre X = (0, 0)† est GAS.

A.3 Stabilisation par retour d’état


On considère le système de contrôle linéaire autonome

ẋ(t) = Ax(t) + Bu(t), ∀t ≥ 0, x(0) = x0 , (A.12)

avec A ∈ Rd×d et B ∈ Rd×k .

103
Annexe A. Stabilité des systèmes dynamiques

Définition A.12 (Boucle par retour d’état). On dit que le système de contrôle linéaire auto-
nome (A.12) est bouclé par retour d’état (on dit aussi bouclé par feedback) s’il existe
une matrice K ∈ Rk×d telle que
u(t) = Kx(t), ∀t ≥ 0. (A.13)
La matrice K est appelée matrice de feedback. Dans ces conditions, le système linéaire de
contrôle bouclé par retour d’état s’écrit
ẋ(t) = (A + BK)x(t), ∀t ≥ 0. (A.14)
Définition A.13 (Stabilisation asymptotique). On dit que le système de contrôle linéaire est
stabilisable asymptotiquement s’il existe une matrice de feedback K ∈ Rk×d telle que la
matrice A + BK soit Hurwitz, i.e.,
<(λ) < 0, ∀λ ∈ σ(A + BK). (A.15)
Lorsque le système de contrôle linéaire est stabilisable asymptotiquement, toute trajectoire
du système bouclé (A.14) tend vers le point d’équilibre x = 0, i.e., le point d’équilibre x = 0
est GAS pour le système bouclé.
Proposition A.14 (Contrôlabilité =⇒ Stabilisable asymptotiquement). Si le système de
contrôle linéaire (A.12) est contrôlable, il est stabilisable asymptotiquement.
Démonstration. La preuve de ce résultat repose sur un résultat d’algèbre linéaire, le théorème
de placement des pôles A.15, qui est rappelé ci-dessous (pour la preuve, on pourra se référer à
celle du théorème 13.34 dans [11]). Le système de contrôle linéaire (A.12) étant contrôlable, les
matrices A et B vérifient la condition de Kalman (1.16). Grâce au théorème A.15, on déduit
l’existence d’une matrice K ∈ Rk×d telle que le polynôme caractéristique de A + BK soit tel
que χA+BK (λ) = (λ + 1)d . Ceci montre que la matrice A + BK est Hurwitz. Par suite, le point
d’équilibre x = 0 est GAS pour le système bouclé.
Théorème A.15 (Placement des pôles). On note χM le polynôme caractéristique d’une ma-
trice carrée M , i.e., χM (λ) = det(λI − M ). Soit A ∈ Rd×d et B ∈ Rd×k . On suppose que les
matrices A et B vérifient la condition de Kalman (1.16). Alors, pour tout polynôme π unitaire
de degré d, il existe une matrice K ∈ Rk×d telle que
χA+BK (λ) = π(λ). (A.16)
On considère maintenant le système de contrôle non-linéaire autonome
ẋ(t) = f (x(t), u(t)), ∀t ≥ 0, x(0) = x0 , (A.17)
où la fonction f : Rd × Rk → R est de classe C 1 . On suppose que la paire (x, u) ∈ Rd × Rk
est telle que f (x, u) = 0. Ainsi, x est point d’équilibre pour le système dynamique ẋ(t) =
f (x(t), u). Le système dynamique linéarisé en ce point est ẏ(t) = Ay(t) + Bv(t) avec
∂f ∂f
A= (x, u), B= (x, u). (A.18)
∂x ∂u
104
A.3 Stabilisation par retour d’état

Corollaire A.16 (Système non-linéaire bouclé). On suppose que le système linéarisé est sta-
bilisable asymptotiquement par le feedback v(t) = Ky(t). Alors, le point d’équilibre (x, u) est
LAS pour le système non-linéaire bouclé

ẋ(t) = f (x(t), u + K(x(t) − x)), ∀t ≥ 0. (A.19)

Exemple A.17. [Pendule inversé] On rappelle que la dynamique du pendule inversé est décrite
par l’équation différentielle d’ordre deux

θ̈(t) = sin(θ(t)) − u(t) cos(θ(t)).

On considère la paire (x, u) = (0, 0). On obtient


   
0 1 0
A= , B= .
1 0 −1

Il vient  
0 −1
C = (B, AB) = ,
−1 0
ce qui montre que la condition de Kalman est vérifiée, et donc la contrôlabilité locale du
système non-linéaire. On peut choisir la matrice de feedback K = (2 2), ce qui donne
 
0 1
A + BK = ,
−1 −2

et par suite χA+BK (λ) = (λ + 1)2 . La commande en boucle fermée s’écrit u(t) = 2(θ(t) +
θ̇(t)).

105
Annexe A. Stabilité des systèmes dynamiques

106
Bibliographie

[1] Jean-Pierre Aubin. Mathematical methods of game and economic theory, volume 7 of
Studies in Mathematics and its Applications. North-Holland Publishing Co., Amsterdam-
New York, 1979.
[2] Martino Bardi and Italo Capuzzo-Dolcetta. Optimal control and viscosity solutions of
Hamilton-Jacobi-Bellman equations. Systems & Control : Foundations & Applications.
Birkhäuser Boston, Inc., Boston, MA, 1997. With appendices by Maurizio Falcone and
Pierpaolo Soravia.
[3] H. Brezis. Functional analysis, Sobolev spaces and partial differential equations. Univer-
sitext. Springer, New York, 2011.
[4] R. Fletcher. Practical methods of optimization. Vol. 1. John Wiley & Sons, Ltd., Chi-
chester, 1980. Unconstrained optimization, A Wiley-Interscience Publication.
[5] Henry Hermes and Joseph P. LaSalle. Functional analysis and time optimal control.
Academic Press, New York-London, 1969. Mathematics in Science and Engineering, Vol.
56.
[6] Alberto Isidori. Nonlinear control systems. Communications and Control Engineering
Series. Springer-Verlag, Berlin, third edition, 1995.
[7] E. B. Lee and L. Markus. Foundations of optimal control theory. Robert E. Krieger
Publishing Co., Inc., Melbourne, FL, second edition, 1986.
[8] Pierre-Louis Lions. Contrôle de modèles dynamiques. Cours polycopié. École Polytech-
nique, 2016.
[9] R. Tyrrell Rockafellar and Roger J.-B. Wets. Variational analysis, volume 317 of Grund-
lehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences]. Springer-Verlag, Berlin, 1998.
[10] Eduardo D. Sontag. Mathematical control theory, volume 6 of Texts in Applied Mathema-
tics. Springer-Verlag, New York, second edition, 1998. Deterministic finite-dimensional
systems.
[11] Emmanuel Trélat. Contrôle optimal. Mathématiques Concrètes. Vuibert, Paris, 2005.
Théorie & applications.
[12] Richard Vinter. Optimal control. Systems & Control : Foundations & Applications.
Birkhäuser Boston, Inc., Boston, MA, 2000.

107

Vous aimerez peut-être aussi