Optidyn
Optidyn
Optidyn
OPTIMISATION DYNAMIQUE
Nizar TOUZI
CREST, [email protected]
http://www.crest.fr/pageperso/lfa/touzi/touzi.htm
1
Contents
1 Introduction 5
1.1 Rappels : optimisation statique . . . . . . . . . . . . . . . . . 5
1.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Les résultats d’existence . . . . . . . . . . . . . . . . . 7
1.1.3 Condition nécessaire d’optimalité d’Euler . . . . . . . . 8
1.1.4 Conditions suffisantes d’optimalité . . . . . . . . . . . 10
1.1.5 Contraintes d’égalité et d’inégalité . . . . . . . . . . . . 11
1.2 Introduction à l’optimisation dynamique . . . . . . . . . . . . 14
1.2.1 Modèle de consommation optimale en temps discret . . 14
1.2.2 Modèle à horizon fini . . . . . . . . . . . . . . . . . . . 16
1.2.3 Modèle à horizon infini . . . . . . . . . . . . . . . . . . 19
2
3 Principe du maximum de Pontryagin 42
3.1 formulation de Lagrange du problème . . . . . . . . . . . . . . 42
3.2 Formulations équivalentes . . . . . . . . . . . . . . . . . . . . 43
3.3 Equation différentielle contrôlée : Existence et unicité . . . . . 45
3.4 Enoncé du principe du maximum de Pontryagin . . . . . . . . 46
3.5 Démonstration du principe du maximum de Pontryagin . . . . 47
3.6 Contraintes sur l’état terminal du système . . . . . . . . . . . 54
3.7 Réduction heuristique à un problème de calcul des variations . 57
3.8 Une condition suffisante d’optimalité . . . . . . . . . . . . . . 58
3.9 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.9.1 Régulateur linéaire quadratique . . . . . . . . . . . . . 61
3.9.2 Modèle à deux biens de consommation . . . . . . . . . 62
3.9.3 Croissance optimale avec ressource épuisable . . . . . . 65
5 Le problème d’existence 84
5.1 Variables de contrôle admissibles . . . . . . . . . . . . . . . . 85
5.2 Un résultat d’existence . . . . . . . . . . . . . . . . . . . . . . 87
3
Ces notes de cours correspondent à un enseignement de deuxième année
de l’ENSAE. Le cours a été organisé en sept séances de deux heures. Bien
évidemment, il n’a pas été possible de traiter tous les points prévus. En
particulier, j’ai renvoyé à ces notes pour certains points techniques, et je me
suis borné à en expliquer l’intuition. Le dernier chapitre de ces notes n’a pas
été abordé en cours, et est présenté dans ces notes à titre de complément.
Bien qu’ayant relu attentivement ces notes, je reste persuadé qu’il reste
plusieurs imperfections. Je demande aux élèves de m’en excuser, et de me les
signaler afin d’en améliorer la qualité. Leurs camarades de l’année prochaine
leur en seront reconnaissants.
4
Chapter 1
Introduction
∃ ? x∗ ∈ K : φ := ϕ(x∗ ) . (1.1.2)
Dans le cas où la réponse à cette question est positive, il est intéressant de
se poser le problème d’unicité du minimum.
b. Si l’existence d’une solution au problème (1.1.1) est assurée, on
peut alors écrire des conditions nécessaires d’optimalité du premier ordre
5
(d’Euler). Dans le cas non contraint (K = E), la condition nécessaire se
réduit à la condition de nullité du gradient au point de minimum.
Si l’ensemble des décisions possibles K est décrit par des contraintes
d’égalité et d’inégalité, les méthodes de dualité classiques conduisent alors
au théorème de Kuhn et Tucker, qui se réduit au théorème de Lagrange en
absence de contraintes d’inégalité.
Notons que les conditions nécessaires d’optimalité peuvent être utilisées
pour résoudre le problème d’existence (1.1.2). En effet, deux cas peuvent se
présenter :
- Si aucun point de E ne vérifie les conditions nécessaires du premier
ordre, alors le problème (1.1.1) n’admet pas de solution dans K.
- Si les conditions nécessaires du premier ordre permettent de sélectionner
un ensemble non vide de points de E, on peut recourir à des conditions
suffisantes d’optimalité pour en discuter l’optimalité.
où ε : E −→ IR est une fonction qui tend vers zéro quand |h| → 0. Quand
E est de dimension finie Dϕ(x) est le gradient de ϕ en x, et on a :
X ∂ϕ
Dϕ(x) · h = hi ,
i ∂xi
où (∂ϕ/∂xi )(x) est la dérivée partielle au point x par rapport à la variable
xi .
6
- Un sous-ensemble K d’un espace vectoriel est convexe si et seulement
si, pour tous x, y ∈ K et λ ∈ [0, 1], λx + (1 − λ)y ∈ K.
- Soit K un ensemble convexe. Une fonction ϕ : K −→ IR est convexe
(resp. strictement convexe) si et seulement si, pour tous x, y ∈ K et λ ∈ [0, 1],
ϕ (λx + (1 − λ)y) ≤ (resp. <) λϕ(x) + (1 − λ)ϕ(y).
Comme K est compact, on peut extraire une suite (xnk )k≥0 qui converge
vers un élément x∗ ∈ K. On a bien évidemment ϕ(x∗ ) ≥ φ. Pour obtenir
l’inégalité inverse, on utilise l’hypothèse de semi-continuité de φ :
t
u
En pratique, ce théorème est difficile à utiliser quand l’espace E est de
dimension infinie. En dimension finie, les ensembles compacts s’identifient
aux ensembles fermés bornés, et le théorème ci-dessus est souvent utilisé sous
la forme suivante.
7
Alors le problème (1.1.1) admet une solution, i.e. il existe x∗ ∈ K tel que φ
= ϕ(x∗ ).
φ = lim ϕ(xnk ) = +∞ ,
k→∞
ce qui est exclu par le fait que ϕ prend des valeurs dans IR.
2. Soit M := supn≥0 |xn |, et KM := K ∩ {x ∈ E : |x| ≤ M }. Comme
E est de dimension finie et K est fermé, il est clair que l’ensemble KM est
un compact de E. Par ailleurs, comme xn ∈ KM pour tout n, on déduit
que φ = supx∈KM ϕ(x). Le résultat d’existence est maintenant obtenue par
application directe du théorème 1.1.1. t
u
8
que cette notion soit généralisable pour des fonctions non différentiables,
nous allons nous concentrer dans ce cours sur le cas régulier. Afin de pren-
dre en compte la restriction des décisions possibles à K, nous avons besoin
d’introduire la notion suivante.
hn −→ y , λn −→ 0 , et x + λn hn ∈ K .
Il est facile de vérifier que T (x, K) est un cône convexe fermé. Cette
définition, un peu compliquée, exprime le fait que T (x, K) est l’ensemble des
directions ”qui rentrent dans K en x”. Si K est un ensemble convexe, on
peut la simplifier considérablement, et la réduire à la définition naturellement
attendue des directions rentrant dans K.
hn −→ y , λn −→ 0 , et x∗ + λn hn ∈ K .
9
et, en utilisant la différentiabilité de ϕ au point x∗ , on obtient par passage à
la limite :
Dϕ(x∗ ) · |y|−1 y ≥ 0 .
t
u
Dϕ(x∗ ) = 0 .
où B(x, r) est la boule ouverte centrée en x et de rayon r. On dira que x est
un minimum global pour le problème (1.1.1) si φ = ϕ(x∗ ).
Pour écrire des conditions suffisantes d’optimalité, nous allons supposer
que la fonction objectif ϕ est deux fois différentiable au point x∗ . Rappelons
que ceci veut dire qu’il existe une application bilinéaire symétrique D2 ϕ :
E × E −→ IR telle que
1
ϕ(x∗ + h) = ϕ(x∗ ) + Dϕ(x∗ ) · h + D2 ϕ(x∗ )(h, h) + |h|2 ε(h) ,(1.1.5)
2
où ε(h) −→ 0 quand h → 0. On dira que x est un point régulier pour ϕ si ϕ
est deux fois différentiable en x. Si E est de dimension finie d, on a :
d
∗ ∂2ϕ
2
(x∗ ) hi hj .
X
D ϕ(x )(h, h) =
i,j=1 ∂xi ∂xj
10
Théorème 1.1.4 Soit x∗ ∈ K un point régulier pour ϕ, vérifiant la condi-
tion d’Euler (1.1.4). Supposons que :
D2 ϕ(x∗ )(h, h) < 0 pour tout h ∈ T (K, x∗ ), h 6= 0 .
Alors x∗ est une solution locale de (1.1.1).
Corollaire 1.1.3 Si K est convexe et ϕ est convexe, alors tout point x∗ de
différentiabilité de ϕ vérifiant la condition d’Euler (1.1.4) est une solution
globale de (1.1.1).
11
Proposition 1.1.1 Supposons que b soit continue en x, et que bj soit différentiable
en x pour tout j ∈ J(x). S’il existe y ∈ IRn tel que
y · Dbj (x) ≤ 0 , j ∈ J conc (x) et y · Dbj (x) < 0 , j ∈ J(x) \ J conc (x) ,
12
On utilise maintenant l’expression de T (K, x∗ ), conséquence du fait que x∗
est un point K−qualifié. La condition d’Euler fournit alors la propriété
suivante :
j∈J(x∗ )
De même que dans le cas plus général des contraintes d’inégalité, si aj est
différentiable en x pour tout j = 1, . . . , m, on a
13
La démonstration de cette proposition peut être consultée par exemple
dans .... Dans le cadre de contraintes a l’égalité, le théorème de Kuhn et
Tucker se réduit à la forme suivante.
14
On voit alors immédiatement que la richesse de l’agent est régie par la
dynamique
où
u : IN × IR+ −→ IR
(t, ξ) 7−→ u(t, ξ) .
Pour tout t ∈ IN, on supposera que la fonction ξ 7−→ u(t, ξ) est croissante,
strictement concave, continuement dérivable sur IR+ , et vérifie la condition
d’Inada :
∂u
uξ (t, 0+ ) := lim (t, ξ) = +∞ . (1.2.1)
ξ&0 ∂ξ
T
où A0 (x) est l’ensemble des plans de consommation c ∈ IR+ tels que U (c)
est bien défini (en tant que série, si T = +∞) et vérifiant la contrainte de
budget :
c
X0,x (t) ≥ 0 pour tout 0 ≤ t ≤ T . (1.2.3)
15
Remarque 1.2.1 La condition d’Inada (1.2.1) simplifie le traitement du
problème car elle assure que tout plan de consommation c situé sur le bord
T T
∂IR+ de IR+ est dominé (au sens du critère U ) par un autre plan de consom-
mation situé à l’intérieur du domaine.
En effet, comme la richesse initiale x est strictement positive, le plan de
consommation (c(t))0≤t≤T = 0 (qui consiste a jeter le capital initial) ne peut
être optimale. Soient alors deux dates t0 et t1 , et un plan de consommation
c ∈ A0 (x) tel que c(t0 ) = 0 et x1 := c(t1 ) > 0. Consiérons le plan de
consommation
16
Ici, |z| := |zi |.
P
Comme u0ξ (t, .) est strictement décroissante et continue pour tout 0 ≤ tleT ,
elle admet une inverse I(t, .). Si on suppose de plus que
17
avec :
−1
TX
c
U (t, c) := u(s, c(s)) + u(T, X0,x (T )) ,
s=t
c ∈ A(t + 1, x − ξ)
−1
TX
c
= sup u(t, ξ) + sup u(s, c(s)) + u(T, X0,x−ξ (T ))
0≤ξ≤x c∈A(t+1,x−ξ) s=t+1
= sup u(t, ξ) + V (t + 1, x − ξ) .
0≤ξ≤x
t
u
18
A présent, observons que la fonction valeur du problème dynamique
(1.2.5) est connue à la date terminale :
Par conséquent, on peut déterminer toutes les fonctions V (t, x) par une
procédure itérative rétrograde en utilisant le principe de la programmation
dynamique.
On peut également identifier le plan de consommation optimal par la
condition du premier ordre :
où on a encore utilisé la remarque 1.2.1 qui assure que le plan de consomma-
tion optimal est situé à l’intérieur du domaine.
Nous détaillerons plus les propriétés de cette approche dans le paragraphe
suivant.
avec :
X X
U (c) = u 0, x − c(t) + u(t, c(t)) ,
t≥1 t≥1
19
et
n o
n
A(x) := c ∈ IR+ : |c|1 ≤ x .
s≥1
Exercice .1 Faire les calcul dans le cas u(t, ξ) = β t ξ γ /γ, où γ < 1 est un
paramètre donné.
avec :
!
X X
U (t, c) := u t, x − c(s) + u(s, c(s)) ,
s>t s>t
20
et
n o
IN
A(x) := c ∈ IR+ : |c|1 ≤ x .
Remarquons que V (x) = V (0, x). Dans notre context d’horizon infini, la
fonction objectif est encore additive dans le temps, et la condition de con-
caténation des plan de consommation
21
où γ < 1 est un paramètre donné. Soit k0 un réel suffisamment grand, et k :
IN −→ ]0, ∞[ une fonction définie par :
h i1−γ
k(0) := k0 et βk(t + 1) = k(t)1/1−γ − 1 pour tout t ∈ IN .
Alors v = V .
et par suite v ≥ V .
Inversement, on fixe ε > 0 et on se donne une suite (δs )s≥t de réels
P
strictement positifs telle que s≥t δs = ε. Comme v vérifie le principe de la
programmation dynamique, on obtient l’existence de c(t) ∈ A(x) tel que :
22
i.e. c(t) est δt −optimal pour le problème de maximisation du principe de la
programmation dynamique. De même, il existe c(s) ∈ [0, x − c(t) − . . . −
c(s − 1)], s ≥ t, tel que :
−1
TX −1
TX
!
v(t, x) ≤ v T, x − c(s) + u(t, ct ) + δt
s=t s=t
La suite c ainsi construite est bien dans A(x). En faisant tendre T vers
l’infini, on déduit de notre hypothèse que :
X
v(t, x) ≤ ε + u(t, ct ) ,
s≥t
s≥t
s≥t+1
s≥t+1
23
On vérifie que c est bien dans A(x) et on a les inégalités suivantes :
24
Démonstration. D’après la propriété d’optimalité de ĉ dans le problème de
maximisation de l’équation de la programmation dynamique, on voit que :
25
Chapter 2
2.1 Problème
Soient t0 < t1 ∈ IR et F : [t0 , t1 ] × IR× IRn −→ IR une fonction de classe C 1 .
Dans ce chapitre, nous étudions une première classe de problèmes dynamiques
qui s’écrivent sous la forme :
où
Z t1
ϕ(x) := F (t, x(t), ẋ(t)) dt .
t0
Ainsi le cas où la valeur terminale de la variable d’état n’est pas contrainte
est obtenu pour I = J = K = ∅.
26
Remarque 2.1.1 Soit G : IRn −→ IR une fonction de classe C 1 , et con-
sidérons le critère avec coût terminal :
Z t1
ϕ̃(x) := F (t, x(t), ẋ(t)) dt + G (x(t1 )) ,
t0
Alors, en introduisant
d
Fv (t, x∗ (t), ẋ∗ (t)) = Fx (t, x∗ (t), ẋ∗ (t)) pour tout t ∈ [t0 , t1 ] .
dt
27
Remarque 2.2.1 L’équation d’Euler locale est une condition nécessaire d’op-
timalité. Elle ne stipule pas l’existence d’une solution au problème de calcul
des variations (2.1.1).
xε := x∗ + εh .
Ceci conduit à
Z t1 Z t1
∗ ∗
Fx (t, x (t), ẋ (t)) · h(t)dt + Fv (t, x∗ (t), ẋ∗ (t)) · ḣ(t)dt = 0 . (2.2.1)
t0 t0
28
Observons à présent que la fonction
Z t
h(t) := {−H(s) + Fv (s, x∗ (s), ẋ∗ (s))} ds
t0
d
Fv (t, x∗ (t), ẋ∗ (t)) = Fx (t, x∗ (t), ẋ∗ (t)) pour tout t ∈ [t0 , t1 ] .
dt
Ainsi la condition d’Euler locale pour le problème (2.1.2) ne fait pas intervenir
la fonction de coût terminal G.
29
Définition 2.2.1 Soit x : [t0 , t1 ] −→ IRn . On dit que x est continuement
1
différentiable par morceaux, et on note x ∈ Cpm ([t0 , t1 ], IRn ), s’il existe une
partition t0 = s0 < . . . < sm = t1 de l’intervalle [t0 , t1 ] telle que
• x ∈ C 0 ([t0 , t1 ], IRn ),
• x ∈ C 1 (]si−1 , si [, IRn ) pour tout i = 1, . . . , m,
• ẋ admet des limites à droite et à gauche finies en si pour tout i =
0, . . . , m.
x(1) = 1
1
On remarque qu’il existe une solution de ce problème dans Cpm ([−1, 1], IR)
donnée par
où
Z t1
ϕ(x) := F (t, x(t), ẋ(t)) dt .
t0
30
En regardant de près la démonstration précédente, on déduit l’extension
suivante de l’équation d’Euler.
I, J et K ⊂ {1, . . . , n}
31
Etant donné un point x1 de IRn , on considère le problème
φ := inf ϕ(x) (2.3.1)
x ∈ C 1 ([t0 , t1 ], IRn )
x(t0 ) = x0
x (t1 ) ≤ xi1 , i ∈ I
i
xj (t1 ) ≥ xj1 , j ∈ J
xk (t1 ) = xk1 , k ∈ K
où
Z t1
ϕ(x) := F (t, x(t), ẋ(t)) dt .
t0
et on notera
L(x) := [I(x) ∪ J(x) ∪ K]c .
32
Démonstration. Nous commençons par remarquer que x∗ est aussi solution
du problème de calcul des variation avec contrainte d’égalité sur la valeur
terminale de l’état du système :
inf ϕ(x) .
x ∈ C 1 ([t0 , t1 ], IRn )
x(t0 ) = x0
x(t1 ) = x∗ (t1 )
33
Comme x∗ vérifie l’équation d’Euler locale, encore d’après le (i), on about à :
x(t0 ) = x0
xi (t1 ) ≤ xi1 , i ∈ I
xj (t1 ) ≥ xj1 , j ∈ J
xk (t1 ) = xk1 , k ∈ K
34
(ii) Les conditions de transversalité sécrivent :
Fvi (t1 , x∗ (t1 ), ẋ∗ (t1 )) + Gxi (x∗ (t1 )) ≤ 0 pour i ∈ I(x∗ ) ,
Fvj (t1 , x∗ (t1 ), ẋ∗ (t1 )) + Gxj (x∗ (t1 )) ≥ 0 pour j ∈ J(x∗ ) ,
Fv` (t1 , x∗ (t1 ), ẋ∗ (t1 )) + Gx` (x∗ (t1 )) = 0 pour ` ∈ L(x∗ ) .
x(t0 ) = x0
x(t1 ) − x1 ∈ C(I, J, K)
Théorème 2.4.1 Supposons que la fonction (ξ, v) 7−→ F (t, ξ, v) est con-
vexe pour tout t ∈ [t0 , t1 ]. Soit x̄ une fonction de C 1 ([t0 , t1 ], IRn ) vérifiant les
contraintes du problème (2.4.1), l’équation d’Euler locale, ainsi que les condi-
tions de transversalité correspondantes. Alors x̄ est une solution du problème
(2.4.1).
2.5 Exemples
2.5.1 Problème quadratique unidimensionnel
On considère le problème
Z 1 h i
inf x(t)2 + ẋ(t)2 dt .
x ∈ C 1 ([0, 1], IR) 0
x(0) = 1
36
On a alors F (t, ξ, v) = ξ 2 +v 2 , Fx (t, ξ, v) = 2ξ, Fv (t, ξ, v) = 2v, et la condition
d’Euler locale s’écrit :
37
où
u : IR+ −→ IR
ξ −→ u(ξ)
est une fonction croissante, strictement concave et vérifiant la condition
d’Inada
u0 (0+) = +∞ , (2.5.2)
qui, comme on l’a montré dans la remarque 1.2.1, permet d’ignorer la con-
trainte de positivité de la consommation. D’après (2.5.1), la version temps
continu du problème de choix optimal de consommation s’écrit :
Z T
sup e−βt u (−ẋ(t)) dt .
0
x ∈ C 1 ([0, 1], IR)
x(0) = x0
x(T ) ≥ 0
(1 − γ)ẍ(t) + β ẋ(t) = 0 .
38
Compte tenu de la condition initiale x(0) = x0 et de la contrainte terminale
saturée x(T ) = 0, cette équation différentielle admet comme solution unique :
1 − e−βt/(1−γ)
" #
x(t) = x0 1− .
1 − e−βT /(1−γ)
Enfin, on remarque que l’on est dans le cadre d’application du théorème 2.4.1.
On est alors assuré que x est une solution de notre problème, c’est d’ailleurs
la solution unique par stricte concavité de u.
ẏ = −r(t) . (2.5.4)
39
terminale. Pour se ramener à un problème de calcul de variations, il suffit
de remplacer les contrôles c(t) et r(t) en fonction des variables d’état (y, k)
et leur vitesse (ẏ, k̇) :
h(t, x1 , x2 , v1 , v2 ) := ax1−α
2 (−v1 )α − v2 .
si bien que
La condition d’Euler locale s’écrit :
d −c(t)−1 aαz(t)α−1 0 −ẏ(t)
−1
= c(t)−1 α
où z(t) := .
dt −c(t) a(1 − α)z(t) k(t)
z(t)−1−α ż(t) = −a ,
40
Cette équation se résout explicitement. Tenant compte de la contrainte
k(T ) = 0, on obtient l’expression de k(t) (à deux constantes près) :
!1/α
(1−α)/α 1/α b2 + αT
k(t) = b1 a (b2 + αt) ln .
b2 + αt
k(0) = k0 et y(0) = y0 .
41
Chapter 3
Principe du maximum de
Pontryagin
appelée équation d’état. Ici, u(.) est une fonction de [t0 , t1 ] dans U ⊂ IRk .
C’est la variable de contrôle sur le système. Pour des raisons techniques liées
essentiellement au problème d’existence du chapitre 5, la variable de contrôle
sera supposée continue par morceaux. On notera par
0
U := Cpm [t0 , t1 ], U )
42
Etant donnée une fonction de coût F : [t0 , t1 ] × IRn × U −→ IR, on définit
le problème de minimisation :
Z t1
inf F (t, xu (t), u(t)) dt , (3.1.2)
u∈U t0
xu (t0 ) = x0
43
compte tenu de l’équation différentielle qui régit l’évolution du système contrôlé.
Ainsi, en introduisant
44
3.3 Equation différentielle contrôlée : Exis-
tence et unicité
Commençons par préciser la notion de continuité par morceaux.
Définition 3.3.1 Une fonction u : [t0 , t1 ] −→ IRk est continue par morceaux
si
- u admet des limites à droite et à gauche en tout point de ]t0 , t1 [, une
limite à droite en t0 , et une limite à gauche en t1 ,
- l’ensemble des points de ]t0 , t1 [ où u n’est pas continue est fini.
45
tel que
|f (t, ξ1 , ν) − f (t, ξ2 , ν)| ≤ K |ξ1 − ξ2 | , ξ1 , ξ2 ∈ IRn , (t, ν) ∈ [t0 , t1 ] × U ,
|f (t, ξ, ν)| ≤ K (1 + |ξ| + |ν|) , (t, ξ, ν) ∈ [t0 , t1 ] × IRn × U .
(3.3.2)
Alors, pour toute variable de contrôle u ∈ U, l’équation différentielle (3.1.1)
admet une unique solution vérifiant une condition initiale donnée x(t0 ) =
x0 ∈ IRn .
Ce résultat est un cas particulier du théorème 5.1.1 qui sera démontré
dans le chapitre 5.
46
Remarquons que ce théorème reste vrai sans l’hypothèse (3.4.2). Nous
imposons cette condition afin de simplifier la démonstration. Nous terminons
ce paragraphe par le vocabulaire asocié à l’énoncé précédent.
- La fonction p introduite dans l’énoncé prédent est appelée état adjoint du
système.
- L’équation différentielle qui régit sa dynamique est appelée équation d’état
adjoint.
- La condition terminale sur p est appelée condition de transversalité.
- On a l’habitude de regrouper l’équation d’état adjoint avec l’équation d’état,
définissant ainsi le système Hamiltonien :
ẋ(t) = ∂H (t, x∗ (t), u∗ (t), p(t)) , x(t0 ) = x0 ,
∂p
ṗ(t) = − ∂H (t, x∗ (t), u∗ (t), p(t)) , p(t ) = 0 .
(3.4.3)
∂x 1
47
Démonstration. En multipliant (3.5.2) par e−β(t−a) , on obtient :
Z t
d
−β(t−a)
e f (s)ds ≤ αe−β(t−a) pour tout t ∈ [a, b] ,
dt a
On réinjecte enfin cette inégalité dans (3.5.2) pour obtenir le résultat voulu.
t
u
yε = 0 sur [0, τ − ε] .
Lemme 3.5.2 Sous les conditions (3.3.2) sur f , il existe une constant c telle
que :
48
Démonstration. (i) Pour t ∈ ]τ − ε, τ ], on a
où kϕk∞ = max[t0 ,t1 ] |ϕ| et K 0 est une constante strictement positive. La
fonction yε est continue par morceaux comme différence de deux fonctions
continues par morceaux. On peut alors appliquer le lemme de Gronwall pour
obtenir :
0
|yε (t)| ≤ K 0 ε eK ε(t−τ +ε) ≤ 2K 0 ε pour t ∈ ]τ − ε, τ ] , (3.5.3)
49
Lemme 3.5.3 Supposons que f vérifie les conditions (3.3.2), et que le gra-
dient partiel fx existe, est continu, et vérifie (3.4.2). Alors, la fonction zε
converge simplement sur [t0 , t1 ] vers la fonction z définie par :
z(t) = 0 ; t ∈ [0, τ [
z(τ ) = f (τ, x∗ (τ ), ν) − f (τ, x∗ (τ ), u∗ (τ )) (3.5.5)
ż(t) = fx (t, x∗ (t), u∗ (t)) z(t) ; t ∈ [τ, t1 [ .
où εηε (t) = ◦ (|y ε (t)|). En utilisant la condition (3.4.2) sur fx , on obtient une
meilleure estimation sur ηε . En effet, pour une certaine combinaison convexe
x̄(t) de xε (t) et x∗ (t), on a :
|εηε | = |fx (t, x̄(t), u∗ (t)) − fx (t, x∗ (t), u∗ (t))| · |yε (t)|
≤ C |x̄(t) − x∗ (t)|α |yε (t)| ≤ C |yε |1+α ≤ C 0 ε1+α , τ − ε < t(3.5.6)
≤τ ,
50
Par continuité de la fonction t 7−→ fx (t, x∗ (t), ν) z ε (t), on voit aussi que
Z τ
fx (t, x∗ (t), ν) z ε (t)dt −→ 0 quand ε −→ 0 .
τ −ε
où εηε (t) = ◦ (|y ε (t)|). En utilisant la condition (3.4.2) comme dans la
première étape de cette démonstration, on obtient l’éstimation suivante pour
ηε :
|ηε | ≤ C 0 εα , τ ≥ t ≤ t1 . (3.5.7)
żε (t) − ż(t) = fx (t, x∗ (t), u∗ (t)) [zε (t) − ż(t)] + ηε (t) ,
et par suite :
Z t
|zε (t) − z(t)| ≤ |zε (τ ) − z(τ )| + |ηε (s)|ds
τ
Z t
+ |fx (s, x∗ (s), u∗ (s))| · |zε (s) − ż(s)| ds .
τ
Comme fx est continue, on voit que la quantité fx (s, x∗ (s), u∗ (s)) est bornée
sur l’intervalle [τ, t1 ]. En utilisant en plus (3.5.7), on otient alors l’existence
d’une constante C telle que
Z t
α
|zε (t) − z(t)| ≤ |zε (τ ) − z(τ )| + C ε + |zε (s) − ż(s)|ds .
τ
51
ce qui montre bien la convergence simple de zε vers z d’après la convergence
de zε (τ ) vers z(τ ) établie dans la première partie de cette démonstration.
t
u
Comme p et z sont continues, ceci montre que la fonction t 7−→ p(t) · z(t) est
constante sur [τ, t1 ], et par suite p(t1 )·z(t1 ) = p(τ )·z(τ ). D’après l’expression
de z(τ ) dans (3.5.5) et la condition (3.5.8), on obtient alors :
52
Etape 4 : Retour à la formulation de Lagrange. Nous allons maintenant
appliquer le résultat obtenu dans l’étape précédente au problème de Mayer
inf G (y(t1 )) ,
u∈U
y u (t0 ) − y0 = 0
q(t) · g (t, y ∗ (t), u∗ (t)) = min q(t) · g (t, y ∗ (t), ν) pour t ∈ [t0 , t1 ].(3.5.9)
ν∈U
53
et
ṗ(t) = Fx (t, x∗ (t), u∗ (t)) + p(t) · fxT (t, x∗ (t), u∗ (t)) , p(t1 ) = 0 .
H (t, y ∗ (t), u∗ (t), p(t)) = min H (t, y ∗ (t), ν, p(t)) pour tout t ∈ [t0 , t1 ] ,
ν∈U
où
54
Afin de simplifier l’écriture, on utilise la formulation de Mayer
y0 := (xT0 , 0)T , y1 := (xT1 , 0)T , G(ξ, ζ) = ζ pour tout (ξ, ζ) ∈ IRn × IR, et
D(I, J, K) := C(I, J, K) × IR .
55
Nous sommes maintenant dans le cadre d’application du principe du max-
imum de Pontryagin énoncé dans le théorème 3.4.1 : supposons que u∗ est
une variable de contrôle optimale dans U pour le problème (3.6.4), soit x∗
∗
:= xu létat du système associé, alors il existe un état adjoint q : [t0 , t1 ] −→
IRn défini par l’équation d’état adjoint
q(t1 ) = Ly (y(t1 ), λ) ,
tel que
56
telle que pour tout t ∈ [t0 , t1 ] :
(i) H (t, x∗ (t), u∗ (t), p(t)) = min H (t, x∗ (t), ν, p(t)),
ν∈U
(ii) ṗ(t) = −Hx (t, x∗ (t), u∗ (t), p(t))
(iii) p vérifie les conditions de transversalité :
sans contraintes sur l’état terminal, où la dynamique du système est gou-
vernée par l’équation d’état
57
une contrainte à l’égalité dans un problème de minimisation par rapport aux
variables x, ẋ, u. Ceci conduit à introduire un multiplicateur de Lagrange
p(t) ∈ IRn pour chaque t ∈ [t0 , t1 ], et à définir le Lagrangien :
Z t1
L (x, ẋ, u, p) := [F (t, x(t), u(t)) − p(t) · ẋ(t) + p(t) · f (t, x(t), u(t))] dt
t0
Z t1
= [H (t, x(t), u(t), p(t)) − p(t) · ẋ(t)] dt ,
t0
58
∗
Théorème 3.8.1 Soit u∗ ∈ U et x∗ = xu l’état contrôlé associé. Supposons
que x∗ vérifie les contraintes du problème (3.8.1), ainsi que les conditions
nécessaires du théorème 3.6.1. On suppose de plus que la fonction
est convexe en ξ pour tout (t, π) ∈ [t0 , t1 ] × IRn . Alors la variable de contrôle
u∗ est solution du problème (3.8.1).
H (t, x∗ (t), u∗ (t), p(t)) = min H (t, x∗ (t), ν, p(t)) = H ∗ (t, x∗ (t), p(t)) ,
ν∈U
59
En utilisant l’hypothèse de convexité de H ∗ (t, ξ, π) par rapport à ξ, qui assure
que :
H ∗ (t, x(t), p(t)) ≥ H ∗ (t, x∗ (t), p(t)) + Hx∗ (t, x∗ (t), p(t)) · [x(t) − x∗ (t)] ,
où on a utilisé le fait que xk (t1 ) = x∗ k (t1 ) = xk1 pour tout k ∈ K. Enfin,
remarquons que xi (t1 ) − xi1 ≤ 0 pour i ∈ I(x∗ ) et xj (t1 ) − xj1 ≥ 0 pour
j ∈ J(x∗ ). L’inégalité (3.8.2) découle de la condition de transversalité du
théorème 3.6.1 :
t
u
60
3.9 Exemples
3.9.1 Régulateur linéaire quadratique
Dans cet exemple très classique, la variable de contrôle u prend ses valeurs
dans U = IRp et l’équation d’état du système est linéaire en (x, u) :
ẋ = A(t)x(t) + B(t)u(t) ,
xu (t0 ) = x0
p(t1 ) = 0 .
Le couple (x, p) est ainsi défini par le système linéaire du premier ordre :
ẋ(t) A(t) − 21 B(t)N (t)−1 B(t)T x(t)
= ,
ṗ(t) 2M (t) A(t)T p(t)
x(t0 ) = x0 , p(t1 ) = 0 .
62
2
dans U = IR+ . Soit x0 > 0 un capital initial donnée, on cherche alors à
résoudre le problème :
Z T
sup e−δt U (c1 (t), c2 (t)) dt ,
0
(c1 , c2 ) ∈ U
x(0) = x0
x(T ) ≥ 0
ṗ(t) = −r(t)p(t)dt .
x∗ (T ) = 0 . (3.9.3)
pT := p(T ) ≥ 0 .
63
Le Hamiltonien du système est donné par :
−δt ∂U
e
(c∗1 (t), c∗2 (t)) = p(t)
∂σ1 (3.9.4)
∂U ∗
e−δt (c1 (t), c∗2 (t)) = p(t)y(t) ,
∂σ2
sans se soucier de la condition de positivité sur les consommations c1 et c2 ,
grâce à (3.9.2).
U (σ1 , σ2 ) = ln [V (σ1 , σ2 )] ,
64
Enfin, en écrivant la condition (3.9.3), on détermine la valeur de la constante
1 − e−δt /δ
pT = RT RT RT ,
r(s)ds r(v)dv
x0 e 0 + 0 s(u)e u du
identifiant ainsi complètement l’état optimal du système et l’état adjoint.
Pour obtenir les fonctions consommation optimale ci (.), il suffit maintenant
de résoudre le système (3.9.4).
3. Pour aller plus loin dans les calculs, on peut maintenant spécifier la
fonction V sous la forme
V (σ1 , σ2 ) := σ1α σ21−α ,
où α est un paramètre dans l’intervalle ouvert ]0, 1[...
avec des variables d’état contrôlées x := (y, k) définies par l’équation d’état :
ẏ(t) = −r(t) et k̇(t) = ak(t)1−α r(t)α − c(t) .
Le Hamiltonien du système s’ćrit
h i
H(y, k, c, r, π, µ) := ln c − πr + µ ak 1−α rα − c .
Il s’agit d’une fonction strictement concave en (c, r), on obtient alors le max-
imum par la condition du premier ordre :
1
c∗ (t)
− q(t) = 0
−p(t) + αaq(t)k ∗ (t)1−α r ∗ (t)α−1 = 0 .
(3.9.5)
65
La dynamique des variables d’état adjoint est régie par l’équation différentielle
adjointe :
!α
r∗ (t)
ṗ(t) = 0 et q̇(t) = −a(1 − α) ∗ q(t) . (3.9.6)
k (t)
ż(t) q̇(t)
(1 − α) = ,
z(t) q(t)
z(t)−(1+α) ż(t) = −a .
66
Cette équation se résout explicitement. Tenant compte de la contrainte
k ∗ (T ) = 0, on obtient l’expression de k ∗ (t) (à deux constantes près) :
!1/α
∗ α 1/α b2 + αT
k (t) = a (b2 + αt)1/α ln .
π b2 + αt
Enfin, pour déterminer les constantes π et b, il ne reste plus qu’à écrire que :
k ∗ (0) = k0 et y ∗ (0) = y0 .
67
Chapter 4
Approche de la programmation
dynamique
68
4.1 Formulation dynamique du problème
L’approche de Bellman pour la résolution du problème (4.0.1) consiste à
exploiter le caractère dynamique du système. Pour celà on commence par
introduire la version dynamique du problème en plaçant l’origine des temps
à des dates t ∈ [t0 , t1 ].
L’équation d’état du système est maintenant définie par une variable de contrôle
u ∈ Ut et une condition initiale au temps t :
Le problème (4.0.1) correspond au cas où l’origine des temps est t0 et est
donné par V (t0 , x0 ). L’approche de Bellman consiste à déduire V (0, x0 ) à
partir de la caractérisation de la fonction valeur V comme fonction des deux
variables t et xt .
69
4.2 Principe de la programmation dynamique
Théorème 4.2.1 Soient t ∈ [t0 , t1 [ et xt ∈ IRn donnés. Alors, pour tout réel
s ∈ [t, T ], on a :
Z s
V (t, xt ) = inf F (r, x(r), u(r)) dr + V (s, x(s)) .
u∈Ut t
w := u1[t,s[ + v1[s,t1 [
70
définition de J que :
Z s
W (t, y) ≤ F (r, x(r), uε (r)) dr + V (s, x(s))
Zt s
≤ F (r, x(r), uε (r)) dr + J (s, x(s), ũε )
t
= J (t, xt , uε )
≤ V (t, y) + ε ,
et l’inégalité voulue découle du caractère arbitraire du paramètre ε > 0. u
t
Remarque 4.2.1 Observons que l’argument essentiel de la démonstration
est la possibilité de recollement, ou de concaténation, des variables de contrôle.
Celà n’aurait pas été possible si on s’était restreint à des variables de contrôle
continues
Remarque 4.2.2 La principe de la programmation dynamique ci-dessus dit
en particulier que la fonction
Z s
s 7−→ F (r, x(r), u(r)) dr + V (s, x(s))
t
est une fonction croissante, pour tout choix de la variable de contrôle u ∈ Ut .
Remarque 4.2.3 S’il existe un contrôle optimal u∗ ∈ Ut pour le problème
(4.1.1), i.e. V (t, xt ) = J(t, xt , u∗ ), alors la fonction
Z s
s 7−→ F (r, x∗ (r), u∗ (r)) dr + V (s, x∗ (s))
t
∗
est constante, où on a noté x∗ := xu . En effet, d’après la propriété de
décroissance ci-dessus et le fait que V (t1 , xt1 ) = G(xt1 ), on a :
Z t1
V (t, xt ) ≤ F (r, x(r), u∗ (r)) dr + V (t1 , x∗ (t1 ))
t
Z t1
= F (r, x(r), u∗ (r)) dr + G (x∗ (t1 ))
t
= J(t, xt , u∗ ) = V (t, xt ) .
Remarque 4.2.4 D’après la remarque précédente, on voit que si u∗ ∈ Ut est
un contrôle optimal pour le problème V (t, xt ) de (4.1.1), alors la restriction
de u∗ à l’intervalle [s, t1 ] est un contrôle optimal pour le problème V (s, x∗ (s))
pour tout s ∈ [t, t1 ].
71
4.3 Equation de Hamilton-Jacobi
On rappelle la définition du Hamiltonien du système
73
Comme uε est une variable de contrôle ε− optimale, on a :
V (t∗ , ξ ∗ ) + ε ≥ J(t∗ , ξ ∗ , uε )
Z t∗ +hε
= F (r, xε (r), uε (r)) dr + J (t0 + hε , xε (t0 + hε ), ũε )
t∗
Z t∗ +hε
≥ F (r, xε (r), uε (r)) dr + V (t0 + hε , xε (t0 + hε )) ,
t∗
et par suite :
t∗ +hε
( )
Z
∂ϕ
−ε ≥ (r, xε (r)) + H (r, xε (r), uε (r), Dx ϕ(r, xε (r))) dr
t∗ ∂t
Z t∗ +hε ( )
∂ϕ ∗
≥ (r, xε (r)) + H (r, xε (r), Dx ϕ(r, xε (r))) dr
t∗ ∂t
≥ 0,
74
- soit on utilise la théorie des solutions de viscosité qui nécessite unique-
ment de vérifier que la fonction valeur est localement bornée afin de pou-
voir définir ses enveloppes semi continues supérieure et inférieure; le lecteur
intéressé peut consulter l’ouvrage de Fleming et Soner [3].
∂W
W (T, ξ) ≤ G(ξ) et − (t, ξ) − H ∗ (t, ξ, Dx W (t, ξ)) ≤ 0 ,
∂t
75
alors W ≤ v.
(ii) Si
∂W
W (T, ξ) = G(ξ) , (t, ξ) − H ∗ (t, ξ, Dx W (t, ξ)) = 0 ,
−
∂t
et il existe une variable de contrôle u∗ ∈ Ut telle que pour tout s ∈ [t, T ] :
alors V = W .
76
(ii) On ré-écrit l’argument ci-dessus avec la variable de contrôle u∗ introduite
dans la partie (ii) du théorème, et on vérifie que toutes les inégalités sont en
fait des égalités. t
u
ẋ∗ (t) = g (t, x∗ (t)) := f (t, x∗ (t), ν̂ [t, x∗ (t), ν, Wx (t, x∗ (t))]) .
4.5 Exemples
4.5.1 Régulateur linéaire quadratique
Reprenons une version de type Bolza de l’exemple du paragraphe 3.9.1. Rap-
pelons que la variable de contrôle u prend ses valeurs dans U = IRp et
l’équation d’état du système est linéaire en (x, u) :
ẋ = A(t)x(t) + B(t)u(t) ,
77
M et N étant deux fonctions définies sur [t0 , t1 ] et à valeurs respectivement
dans SI++ ++
R (n) et SIR (p) (ensemble des matrices symétriques semi définies
positives de taille n et p), et Q ∈ SI+
R (p).
Le Hamiltonien du système
est une fonction convexe par rapport à la variable de contrôle ν, puisque N (t)
est une matrice positive. On calcule immédiatement la valeur du contrôle
optimal en minimisant le Hamiltonien par rapport à la variable de contrôle
1
H ∗ (t, ξ, π) = H(t, ξ, u∗ (t), π) avec u∗ (t) := − N (t)−1 B(t)T p(t) ,
2
et
1
H ∗ (t, ξ, π) = ξ · M (t)ξ + π · A(t)ξ − π · B(t)N (t)−1 B(t)T π .
4
L’équation d’Hamilton-Jacobi s’écrit alors :
!
∂V ∂V
0 = (t, ξ) + H ∗ t, ξ, (t, ξ)
∂t ∂x
∂V ∂V
= (t, ξ) + ξ · M (t)ξ + (t, ξ) · A(t)ξ
∂t ∂x
1 ∂V ∂V
− (t, ξ) · B(t)N (t)−1 B(t)T (t, ξ) .
4 ∂x ∂x
On cherche alors une solution de l’équation d’Hamilton-Jacobi sous la forme
Remarquons tout d’abord que V (T, ξ) = ξ · Qξ, ce qui est compatible avec
la forme ci-dessus et impose
K(T ) = Q .
où
ξγ
u(ξ) := ,
γ
γ < 1 étant un paramètre donné. Rappelons que la contrainte de positivité de
la consommation peut être ignorée, comme il a été expliqué dans la remarque
1.2.1. Le problème de choix optimal de consommation s’écrit :
sup U (c) ,
c∈U
où U est l’ensemble des fonctions continues par morceaux de [t0 , t1 ] dans IR+ .
Dans cet exemple, Le Hamiltonien est donné par
79
et
1 − γ −βt βt −γ/(1−γ)
H ∗ (t, ξ, π) = e πe
γ
L’équation d’Hamilton-Jacobi s’écrit alors :
!
∂V ∂V
0 = (t, ξ) + H ∗ t, ξ, (t, ξ)
∂t ∂x
∂V 1 − γ −βt βt −γ/(1−γ)
= (t, ξ) + e πe
∂t γ
On cherche alors une solution de l’équation d’Hamilton-Jacobi sous la forme
Remarquons que V (T, ξ) = e−βT u(ξ) et, par suite, la fonction A doit vérifier
la condition terminale
A(T ) = 1 .
soit :
d n o β
A(t)1/(1−γ) = A(t)1/(1−γ) − 1 .
dt 1−γ
Il ne reste plus qu’à vérifier que la fonction V (t, ξ) ainsi trouvée vérifie toutes
les conditions du théorème de vérification...
80
4.5.3 Fonction valeur non régulière en des points isolés
Une relecture de la démonstration du théorème 4.4.1 révèle que l’énoncé du
théorème reste vrai dans le cas où la fonction W (candidat pour la fonction
valeur) est de classe C 1 sauf en des points isolés.
Dans cet exemple, nous reprenons l’exemple du paragraphe 4.3 dans lequel
la fonction valeur V est de classe C 1 sauf en zéro, point isolé du domaine.
Rappelons qu’il s’agit du problème d’optimisation dynamique suivant :
U = [−1, 1] .
H(t, ξ, ν, π) := νπ ,
et par suite
81
4.6 Principe du maximum et programmation
dynamique
4.6.1 Remarques générales
Rappelons que le principe du maximum de Pontryagin conduit à la résolution
d’un système d’équations différentielles ordinaires pour l’état optimal du
système et l’état adjoint associé, avec la donnée d’une condition initiale
pour l’état optimal du système et une condition terminale pour l’état ad-
joint. Quant à l’approche par la programmation dynamique, elle conduit à
la résolution d’une équation aux dérivées partielles avec la donnée d’une con-
dition terminale. Voici quelques remarques sur la comparaison de ces deux
approches :
- La résolution d’une équation aux dérivées partielles est a priori plus difficile
que la résolution d’un système d’équations différentielles ordinaires.
- L’approche par la programmation dynamique est particulièrement intéressante
dans le cas où on a une idée‘a priori sur la forme de la solution. Ceci est
le cas pour le problème de consommation optimale du paragraphe 4.5.2, ou
celui du régulateur quadratique linéaire du paragraphe 4.5.1.
- Dans la cas où on a recours à des méthodes numériques pour la résolution
du problème, l’approche du principe du maximum présente l’inconvénient
d’avoir une condition initiale pour la variable d’état et une condition finale
pour la variable d’état adjoint. On est alors amené à mettre en place des
méthodes numériques de type forward-backward qui peuvent être assez lour-
des à gérer. L’équation d’Hamilton-Jacobi évite cette difficulté puisqu’elle ne
fait intervenir qu’une condition terminale pour la fonction valeur du problème
dynamique.
82
programmation dynamique. Pour celà, nous allons ignorer toutes les dif-
ficultés liées à la régularité de la fonction valeur V (t, x) du problème dy-
namique, et nous allons considérer la fonction
p(t) := Dx V (t, x∗ (t)) ; t0 ≤ t ≤ t1 . (4.6.1)
Comme V (t1 , .) = G, on voit que la fonction p vérifie la condition de tranb-
sversalité
p(t1 ) = Dx G (x(t1 )) .
Nous allons maintenant vérifier que p vérifie l’équation d’état adjoint :
ṗ(t) = −Hx∗ (t, x∗ (t), p(t)) , (4.6.2)
ce qui permet de conclure que la fonction p est l’état adjoint introduit dans le
principe du maximum de Pontryagin. Pour obtenir (4.6.2), on dérive (4.6.1)
par rapport à t :
d
ṗ(t) = {Dx V (t, x∗ (t))}
dt ( )
∂ ∂V
= (t, x (t)) + Dxx V (t, x∗ (t)) ẋ∗ (t) .
∗
∂x ∂t
En remarquant que ẋ∗ (t) = f (t, x∗ (t), u∗ (t)) = (∂H ∗ /∂p) (t, x∗ (t), Dx V (t, x∗ (t))),
on voit que :
( )
∂ ∂V
ṗ(t) = (t, x∗ (t))
∂x ∂t
∂H ∗
+Dxx V (t, x∗ (t)) (t, x∗ (t), Dx V (t, x∗ (t))) . (4.6.3)
∂p
Enfin, en utilisant l’équation d’Hamilton-Jacobi, on a :
( )
∂ ∂V ∂
(t, x∗ (t)) = − {H ∗ (t, x∗ (t), Dx V (t, x∗ (t)))}
∂x ∂t ∂x
∂H ∗
= − (t, x∗ (t), Dx V (t, x∗ (t)))
∂x
∂H ∗
−Dxx V (t, x∗ (t)) (t, x∗ (t), Dx V (t, x∗ (t))) ,
∂p
et on obtient alors (4.6.2) en remplaçant dans (4.6.3).
83
Chapter 5
Le problème d’existence
84
2. on montre ensuite l’existence d’une variable de contrôle admissible u∗ telle
∗
que x∗ = xu .
U := {u : [t0 , t1 ] −→ U mesurable} ,
85
Théorème 5.1.1 Supposons que la fonction f vérifie les conditions de Lip-
schitz et de croissance linéaire
défini par :
Z t
T x(t) := x0 + f (s, x(s), u(s)) ds ; t0 ≤ t ≤ t1 .
t0
86
On calcule alors :
Z t
kT x − T yk∞ ≤ |f (s, x(s), u(s)) − f (s, y(s), u(s))| ds
t0
≤ Kαkx − yk∞ .
Comme α < K −1 , ceci prouve que T est contractant et possède, par conséquent,
un unique point fixe.
3. Pour finir la démonstration, il reste à montrer l’existence d’une solution
maximale sur l’intervalle [t0 , t1 ]. Cette partie de la démonstration utilise
la condition de croissance linéaire sur f , et ne diffère en aucun point de
la démonstration classique dans le cas où u est continu, voir par exemple
Shwartz [5], théorème 4.2.10. t
u
87
Démonstration. Il suffit d’estimer directement pour t0 ≤ s ≤ t ≤ t1 :
Z t
|x(t) − x(s)| ≤ |f (r, x(r), u(r))| dr
s
Z t
≤ K (1 + |x(r) − x(s)| + |x(s)| + |u(r)|) dr (5.2.1)
s
Z t
≤ K1 1 + (|x(r) − x(s)| + |x(s)|) dr ,
s
pour une certaine constante K” > 0, et on obtient une borne uniforme pour
x(.) en utilisant le lemme de Gronwall 3.5.1. On déduit alors de (5.2.1) que :
Théorème 5.2.2 Supposons que U est compact, G est continu, f vérifie les
conditions de Lipschitz et de croissance linéaire (5.1.1), et que l’ensemble
N (t, x) := {f (t, x, ν) : ν ∈ U }
est convexe pour tout (t, x) ∈ [t0 , t1 ] × IRn . Alors, le problème d’optimisation
dynamique 5.0.1 admet une solution,
i.e. il existe une variable de contrôle
∗
u∗ ∈ U telle que V = G xu (t1 ) .
88
n
où on a noté xn := xu . D’après le lemme 5.2.1 et le critère de compacité
d’Ascoli, on déduit l’existence d’une sous-suite, que l’on continuera à désigner
par (xn )n≥0 , et d’une fonction continue x∗ telles que
3. Montrons à présent que ẋ∗ (t) ∈ N ∗ (t) := N (t, x∗ (t)) p.p. Commençons
par remarquer que, pour tout paramètre a > 0, l’ensemble
89
4. D’après la convergence uniforme de xn vers x∗ , on a :
x∗ (t + h) − x∗ (t) xn (t + h) − xn (t)
= lim
h n→∞ h
1 Z t+h
= n→∞
lim f (s, xn (s), un (s)) ds .
h t
Pour h ≤ δa , on déduit de l’étape précédente que f (s, xn (s), un (s)) ∈ N (s, xn (s))
⊂ Oa pour tout s ∈ [t, t + h]. Comme Oa est convexe, on voit que
x∗ (t + h) − x∗ (t)
∈ Oa ,
h
et par suite ẋ∗ (t) ∈ Oa pour presque tout t ∈ [t0 , t1 ]. Comme le paramètre
a > 0 est arbitraire, on en déduit que
5. Par définition de l’ensemble N (t, x∗ (t)), on a ainsi montré que ẋ∗ (t) =
f (t, x∗ (t), u∗ (t)) pour un certain u∗ (t) ∈ U . Pour montrer que u∗ ∈ U, il reste
à faire appel à un théorème de sélection mesurable pour assurer la possibilité
de choisir une telle fonction u∗ qui soit de plus mesurable... t
u
90
Bibliography
[3] Fleming W.H. et Soner H.M. (1993), Controlled Markov Processes and
Viscosity Solutions, Springer-Verlag.
91