0% found this document useful (0 votes)
128 views168 pages

Mfepoly PDF

This document contains notes for a course on mathematics for economists. It combines material from previous versions of courses taught at other institutions with additional specially prepared content. As such, some parts are in French and notational conventions may vary between sections. The document covers topics in topology, normed spaces, convexity, differential and static optimization, and dynamic optimization.

Uploaded by

Hưng Nguyễn
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
128 views168 pages

Mfepoly PDF

This document contains notes for a course on mathematics for economists. It combines material from previous versions of courses taught at other institutions with additional specially prepared content. As such, some parts are in French and notational conventions may vary between sections. The document covers topics in topology, normed spaces, convexity, differential and static optimization, and dynamic optimization.

Uploaded by

Hưng Nguyễn
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 168

Notes for the course

MATHEMATICS FOR
ECONOMISTS
Guillaume CARLIER

MQEF, X-HEC, academic year 2008-2009

This set of notes gathers previous versions of courses taught at Dauphine


and ENSAE together with additional material specially intended for this
course. This explains why some parts are written in French and why notations may vary from one part to the other. There are certainly many
typos in the current version, so feel free to make suggestions for an improved
presentation.

Contents
I

Topology

1 Metric spaces
1.1 Basic definitions . . . . . . . . . . .
1.2 Topology of metric spaces . . . . .
1.3 Cauchy sequences, complete spaces
1.4 Compactness . . . . . . . . . . . .
1.5 Continuity . . . . . . . . . . . . . .
1.6 Banach fixed-point Theorem . . . .
1.7 Baires Theorem . . . . . . . . . . .
1.8 Set-valued maps . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

2 Normed spaces
2.1 Basic definitions . . . . . . . . . . . . . . . .
2.2 Finite dimensional spaces . . . . . . . . . . .
2.3 Banach Spaces . . . . . . . . . . . . . . . .
2.3.1 Definitions and properties . . . . . .
2.3.2 Examples of Banach Spaces . . . . .
2.4 Hilbert Spaces . . . . . . . . . . . . . . . . .
2.5 Continuous linear and bilinear maps . . . . .
2.6 Characterization . . . . . . . . . . . . . . .
2.6.1 Spaces of linear continuous maps . .
2.6.2 Bilinear continuous maps . . . . . . .
2.6.3 A useful isomorphism . . . . . . . . .
2.6.4 Linear maps in Banach Spaces . . . .
2.7 One has to be cautious in infinite dimensions
3 Convexity
3.1 Convex sets and convex functions .
3.2 Projection on a closed convex set of
3.3 Separation of convex sets . . . . . .
3.4 The Farkas-Minkowksi Lemma . . .
5

.
a
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

9
9
10
14
15
20
23
24
25

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

26
26
28
29
29
30
33
36
36
38
40
42
44
45

. . . . . . . .
Hilbert space
. . . . . . . .
. . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

49
49
51
54
56

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

4 Fixed-point theorems
59
4.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2 Brouwer, Kakutani and Schauder Theorems . . . . . . . . . . 60
4.3 Existence of Nash equilibria . . . . . . . . . . . . . . . . . . . 64

II

Differential calculus

66

5 First-order differential calculus


5.1 Several notions of differentiability . . . .
5.2 Calculus rules . . . . . . . . . . . . . . .
5.3 Inequalities, Mean-value Theorems . . .
5.4 Partial derivatives . . . . . . . . . . . . .
5.5 The finite-dimensional case, the Jacobian
5.6 Calculus . . . . . . . . . . . . . . . . . .

. . . .
. . . .
. . . .
. . . .
matrix
. . . .

.
.
.
.
.
.

.
.
.
.
.
.

6 Second-order differential calculus


6.1 Definitions . . . . . . . . . . . . . . . . . . . . . . .
6.2 Schwarzs symmetry theorem . . . . . . . . . . . .
6.3 Second-order partial derivatives . . . . . . . . . . .
6.4 Taylor formula . . . . . . . . . . . . . . . . . . . .
6.5 Differentiable characterizations of convex functions

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

67
67
72
73
78
79
82

.
.
.
.
.

83
83
84
86
88
91

7 Local invertibility and implicit functions theorems


96
7.1 Local invertibility . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.2 Implicit functions . . . . . . . . . . . . . . . . . . . . . . . . . 99

III

Static Optimization

101

8 Generalities and unconstrained optimization


102
8.1 Existence theorems . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2 Optimality conditions . . . . . . . . . . . . . . . . . . . . . . . 108
9 Problems with equality constraints
9.1 Some linear algebra . . . . . . . . . . . . . . . .
9.2 Lagrange first-order optimality conditions . . .
9.3 The Lagrangian and the generalized Lagrangian
9.4 Second-order optimality conditions . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

111
112
114
118
120

10 Problems with equality and inequality constraints


10.1 Notations . . . . . . . . . . . . . . . . . . . . . . .
10.2 Preliminaries . . . . . . . . . . . . . . . . . . . . .
10.3 Kuhn and Tucker optimality conditions . . . . . . .
10.4 Lagrangian . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

124
124
125
127
129

11 Problems depending on a parameter


132
11.1 Continuous dependence and Berges Theorem . . . . . . . . . 132
11.2 Envelope Theorems . . . . . . . . . . . . . . . . . . . . . . . . 133

IV

Dynamic Optimization

136

12 Problems in discrete time


12.1 Examples . . . . . . . . . . . . . . . . . . . . . .
12.1.1 Shortest path on a graph . . . . . . . . . .
12.1.2 One sector optimal growth . . . . . . . . .
12.1.3 Optimal management of a forest . . . . . .
12.2 Finite horizon . . . . . . . . . . . . . . . . . . . .
12.2.1 Dynamic programming principle . . . . . .
12.2.2 Backward induction . . . . . . . . . . . . .
12.3 Infinite horizon . . . . . . . . . . . . . . . . . . .
12.4 Notations and assumptions . . . . . . . . . . . . .
12.4.1 Existence . . . . . . . . . . . . . . . . . .
12.4.2 The value function and Bellmans equation
12.4.3 Blackwells theorem . . . . . . . . . . . . .
12.4.4 Back to optimal policies . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

13 Calculus of variations
13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Existence . . . . . . . . . . . . . . . . . . . . . . . . .
13.3 Euler-Lagrange equations and transversality conditions
13.4 An economic example . . . . . . . . . . . . . . . . . . .
14 Optimal control
14.1 Introduction . . . . . . . . . . . . . . . . .
14.2 Controlled differential equations . . . . . .
14.3 Pontryagins principle . . . . . . . . . . . .
14.4 Dynamic Programming and HJB equations
14.5 Hamilton-Jacobi-Bellman equations . . . .
14.6 Feedback control and sufficient condition .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

137
137
137
139
139
140
141
143
144
144
146
147
147
149

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

150
. 150
. 151
. 152
. 154

.
.
.
.
.
.

156
. 156
. 156
. 158
. 164
. 164
. 166

Part I
Topology

Chapter 1
Metric spaces
1.1

Basic definitions

D
efinition 1.1 Soit E un ensemble non vide. On appelle distance sur E
toute application d : E E R+ verifiant les proprietes:
1. (symetrie) d(x, y) = d(y, x) pour tout (x, y) E E,
2. d(x, y) = 0 x = y
3. (inegalite triangulaire) d(x, z) d(x, y) + d(y, z) pour tout (x, y, z)
E E E.
On appelle espace metrique la donnee dun couple (E, d) o`
u d est une distance
sur E.
Bien noter que dans la definition precedente on a d 0. Noter egalement
que la definition precedente implique aussi |d(x, z) d(y, z)| d(x, y), pour
tout (x, y, z) E E E.
Exemple 1.1 Pour E = R, d(x, y) := |x y| est la distance usuelle. Pour
E = Rn , x = (x1 , ..., xn ) et y = (y1 , ..., yn ) on consid`ere souvent les distances:
d1 (x, y) :=

n
X

|xi yi |, d (x, y) := maxi=1,..,n |xi yi |

i=1

et la distance euclidienne:
d2 (x, y) := (

n
X
i=1

(xi yi )2 ) 2 .

Exemple 1.2 Soit E un ensemble non vide et definissons pour (x, y) E 2 ,


d(x, y) = 1 si x 6= y et d(x, y) = 0 si x = y on verifie aisement que d est une
distance sur E (appelee distance grossi`ere sur E).
Nous verrons par la suite dautres exemples dans le cadre des espaces
vectoriels normes.

1.2

Topology of metric spaces

Soit (E, d) un espace metrique, x E et r > 0, on notera BE (x, r) (ou


simplement B(x, r) sil ny a pas dambiguite) la boule ouverte de centre x
et de rayon r:
B(x, r) := {y E : d(x, y) < r}
et B E (x, r) (ou simplement B(x, r) sil ny a pas dambiguite) la boule fermee
de centre x et de rayon r 0:
B(x, r) := {y E : d(x, y) r}.
Le terme de boule provient du cas de la distance euclidienne (la distance
d2 definie plus haut). A titre dexercice, dessinez dans R2 , la boule B(0, 1)
pour les trois distances d1 , d2 et d , quen pensez vous?
D
efinition 1.2 Soit (E, d) un espace metrique et A E, on dit que A est
bornee ssi il existe x E et r > 0 tels que A B(x, r).
Si A est une partie de E, on definit son diam`etre diam(A) par:
diam(A) := sup{d(x, y), (x, y) A2 }.
On verifie aisement que A est bornee ssi diam(A) est fini.
On peut maintenant definir les ensembles ouverts de (E, d):
D
efinition 1.3 Soit (E, d) un espace metrique et A une partie de E. On dit
que:
1. A est ouvert ssi pour tout x A, r > 0 tel que B(x, r) A,
2. A est ferme ssi E \ A est ouvert.
3. A est un voisinage de x E ssi r > 0 tel que B(x, r) A.

10

Autrement dit, un ensemble est ouvert ssi il est voisinage de chacun de ses
points. Lensemble des ouverts de (E, d) sappelle la topologie de E induite
par la distance d. On verifie aisement quune boule ouverte (resp. fermee)
est ouverte (resp. fermee).
Proposition 1.1 Soit (E, d) un espace metrique, on a alors:
1. E et sont ouverts,
2. une reunion (quelconque) douverts est ouverte,
3. une intersection FINIE douverts est ouverte.
La demonstration est elementaire et laissee au lecteur qui sentraienera
ainsi a` se familiariser avec les definitions...
Par passage au complementaire, on obtient les enonces correspondant aux
fermes:
1. E et sont fermes,
2. une reunion FINIE de fermes est fermee,
3. une intersection (quelconque) de fermes est fermee.
Exemple 1.3 Il est a
` noter limportance du mot FINIE dans les enonces
precedents. En effet, soit pour n N , lintervalle ouvert In :=] 1/n, 1/n[,
lintersection de ces ouverts est {0} qui nest pas ouverte. La reunion des
intervalles fermes Jn := [0, 1 1/n] est lintervalle [0, 1[ qui nest ni ouvert
ni ferme.
D
efinition 1.4 Soit (E, d) un espace metrique, A une partie de E et x E
on dit que:
` A ssi r > 0 tel que B(x, r) A (autrement
1. x est un point interieur a
dit A est un voisinage de x),
2. x est un point adherent a
` A ssi r > 0, B(x, r) rencontre A.
3. x est un point fronti`ere de A ssi r > 0, B(x, r) rencontre A et E \ A.
On appelle interieur de A et lon note int(A) lensemble des points interieurs
de A. On appelle adherence de A et lon note A, lensemble des points
adherents a
` A. On appelle fronti`ere de A et lon note A lensemble des
points fronti`ere de A. Enfin on dit que A est dense dans E ssi A = E.
11

On a clairement les inclusions:


int(A) A A,
et il est facile de montrer (faites le en exercice...):
A = A \ int(A).
Let us also remark that A is dense in E iff A U 6= for every open set
U , or equivalently A B(x, r) 6= for every x E and r > 0.
Exemple 1.4 Il convient de noter que int(A) peut tr`es bien etre lensemble
vide (considerer dans R: {0}, N, Q, un ensemble fini...). Concernant la
densite: Q et R \ Q sont denses dans R, ]0, 1[ est dense dans [0, 1] etc....
On a aussi les proprietes importantes:
Proposition 1.2 Soit (E, d) un espace metrique, A une partie de E, on a:
1. int(A) est ouvert et cest le plus grand ouvert contenu dans A,
2. A est ferme et cest le plus petit ferme contenant A.
Preuve:
Montons dabord que int(A) est ouvert: soit x int(A) alors r > 0 tq
B(x, r) A, donc si y B(x, r/2) on a B(y, r/2) B(x, r) A ce qui
montre que y int(A) et donc B(x, r/2) int(A). int(A) est donc ouvert et
evidemment int(A) A. Montrons maintenant que int(A) est le plus grand
ouvert contenu dans A. Soit U ouvert avec U A et soit x U , comme U
est ouvert r > 0 tq B(x, r) U mais comme U A il vient B(x, r) A et
donc x int(A) ce qui montre U int(A) et ach`eve la preuve.
La demonstration du point 2) est similaire et donc laissee au lecteur.
2
Lenonce precedent implique en particulier les caracterisations:
A ouvert A = int(A),
et
A ferme A = A.
Exercice 1.1 Soit (E, d) un espace metrique et A une partie de E. Montrer
que:
A = E \ int(E \ A), int(A) = E \ E \ A.
12

Exercice 1.2 Dans Rn muni de la distance d (cf Exemple 1.1), determiner


ladherence de B(x, r) et linterieur de B(x, r).
Beaucoup de proprietes topologiques dans les espaces metriques peuvent
se traduire par des proprietes sequentielles (i.e. en utilisant des suites):
retenez ce principe, lutilisation de suites rend souvent les demonstrations
plus simples que le maniement des definitions generales. Rappelons dabord
ce quest une suite convergente:
D
efinition 1.5 Soit (E, d) un espace metrique et (xn ) une suite delements
de E, on dit que x E est limite de la suite (xn ) (ce que lon notera xn x
ou limn xn = x) ssi : > 0, N N t.q. n N , d(xn , x) . On dit
que (xn ) est convergente si elle admet une limite.
Quand limn xn = x, on dit aussi que xn converge vers x. Remarquons
que la convergence de (xn ) vers x (dans E) est equivalente a` la convergence
vers 0 de d(xn , x) (dans R).
Il convient de noter que si une suite est convergente alors elle admet une
UNIQUE limite (cette propriete sexprime en disant que les espaces metriques
sont separes):
Proposition 1.3 Soit (E, d) un espace metrique et (xn ) une suite convergente delements de E, alors sa limite est unique.
Preuve:
Supposons que (xn ) admette pour limite x et y dans E. On a 0 d(x, y)
d(x, xn )+d(xn , y) ainsi en passant a` la limite en n + on obtient d(x, y) =
0 i.e. x = y do`
u lunicite. 2
Proposition 1.4 Soit (E, d) un espace metrique, A une partie de E, on a:
1. soit x E, x A ssi x est limite dune suite delements de A,
2. A est ferme ssi pour toute suite convergente (xn ) delements de A, la
limite de cette suite appartient a
` A.
Preuve:
2) decoule de 1) et du fait que A est ferme ssi A = A. Supposons x A, alors
pour tout n N , B(x, 1/n) rencontre A, soit donc xn AB(x, 1/n) comme
d(x, xn ) 1/n, xn converge vers x. Reciproquement suposons que x soit la
limite dune suite (xn ) delements de A montrons que x A. Soit r > 0,
pour n assez grand d(x, xn ) < r ainsi, comme xn A, on a A B(x, r) 6= .
Finalement r > 0 etant arbitraire on a bien x A.
2
13

Exercice 1.3 En vous inspirant de la demonstration precedente montrer


que x A ssi x est limite dune suite delements de A et limite dune suite
delements de E \ A.
Exercice 1.4 Soit (E, d) un espace metrique et A une partie non vide de E.
Pour tout x E on definit la distance de x a
` A par:
d(x, A) := inf{d(x, a) a A}
1. Montrer que x A ssi d(x, A) = 0.
2. Montrer que lensemble An := {x E : d(x, A) < 1/n} est ouvert
(n N ).
3. Determiner nN An .
4. Deduire de ce qui prec`ede que tout ferme peut secrire comme une intersection denombrable douverts.

1.3

Cauchy sequences, complete spaces

D
efinition 1.6 Soit (E, d) un espace metrique et (xn )n une suite delements
de E, on dit que (xn )n est de Cauchy ssi: > 0, N N t.q. pour tout
(p, q) N2 avec p N et q N on a: d(xp , xq ) .
La definition precedente peut aussi sexprimer en disant que (xn )n est de
Cauchy ssi
sup d(xp , xq ) 0 quand N +.
pN, qN

Evidemment, toute suite convergente est de Cauchy (sen persuader!),


la reciproque nest cependant pas vraie: les espaces metriques pour lesquels
cette reciproque est vraie sont dits complets:
D
efinition 1.7 Soit (E, d) un espace metrique, on dit que (E, d) est complet
ssi toute suite de Cauchy delements de E converge dans E.
Exemple 1.5 Le corps des rationnels Q muni de la distance usuelle (induite
par celle de R) nest pas complet P
(en effet, il est facile de verifier que la suite
de rationnels definie par xn := nk=0 1/(k!) est de Cauchy, on montre par
ailleurs quelle ne peut pas converger vers un rationnel). En revanche R muni
de sa distance usuelle est complet. De meme, Rn muni de nimporte laquelle
des distances d1 , d2 , d est complet. Nous verrons dautres exemples aux
chapitres suivants.
14

Voici une premi`ere propriete des espaces complets:


Proposition 1.5 Soit (E, d) un espace metrique complet et (Fn ) une suite
decroissante de fermes non vides dont le diam`etre tend vers 0, alors lintersection
des Fn est non vide.
Preuve:
Soit dn := diam(Fn ) et soit pour tout n N, xn Fn . Pour tout couple
dentiers p et q avec p, q N on a: d(xp , xq ) dN et comme dN tend vers 0
quand N +, ceci montre que la suite (xn ) est de Cauchy : elle converge
donc, appelons x sa limite. Comme x est la limite de la suite delements de
Fn , (xp )pn , et comme Fn est ferme on a x Fn ce qui ach`eve la preuve.
2
Notons pour clore ce paragraphe quune suite de Cauchy est necessairement
bornee (sen persuader) donc en particulier les suites convergentes sont bornees.

1.4

Compactness

Rappelons dabord quelques definitions relatives aux suites extraites et valeur


dadherence.
D
efinition 1.8 Soit E un ensemble non vide et (xn )n une suite delements
de E, on appelle sous-suite (ou suite extraite) de la suite (x n )n toute suite
de la forme (x(n) )n avec une application strictement croissante de N dans
N.
D
efinition 1.9 Soit (E, d) un espace metrique et (xn ) une suite delements
de E. On dit que x est valeur dadherence de (xn ) ssi lune des assertions
equivalentes suivantes est satisfaite:
1. (xn ) admet une sous-suite qui converge vers x,
2. > 0, N N, n N t.q. d(xn , x) ,
3. > 0 lensemble {n N : d(xn , x) } est infini.
Exercice 1.5 Prouver lequivalence des trois assertions precedentes.
Exercice 1.6 Prouver que si est comme dans la definition 1.8 alors (n)
n pour tout n.
Exemple 1.6 La suite (1)n admet deux valeurs dadherence: 1 et 1.
15

D
efinition 1.10 On dit que lespace metrique (E, d) est compact ssi toute
suite delements de E admet une sous-suite convergente. On dit quune partie
A de lespace metrique (E, d) est compacte ssi toute suite delements de A
admet une sous-suite convergente dans A.
Proposition 1.6 Soit (E, d) un espace metrique. Si A est une partie compacte de E alors A est fermee et borne.
Preuve:
Soit (xn )n AN une suite convergente, notons x E sa limite. Comme
A est compacte, (xn )n admet une sous suite qui converge dans A, une telle
sous-suite converge necessairement vers x (sen persuader...) do`
u x A ce
qui montre que A est fermee.
Supposons que A ne soit pas bornee on a alors diam(A) = + et donc il
existe deux suites (xn ) AN , et (yn ) AN telles que
lim d(xn , yn ) = +.
n

(1.1)

Comme A est compacte on peut trouver des sous suites (x(n) ) et (y(n) )
convergeant respectivement vers les elements x et y de A, on a donc
d(x(n) , y(n) ) d(x(n) , x) + d(x, y) + d(y, y(n) ) d(x, y)
ce qui contredit (1.1).
2
Attention: un ferme borne nest pas necessairement compact, nous aurons
loccasion de revenir sur ce point.
Les parties compactes dun metrique compact sont faciles a` caracteriser
puisque:
Proposition 1.7 Soit (E, d) un espace metrique compact et A une partie de
E alors A est une partie compacte de E ssi A est ferme dans E.
Preuve:
Si A est compacte alors A est fermee dans E dapr`es la proposition precedente.
Supposons A fermee et soit (xn ) AN , par compacite de E, (xn ) admet une
sous-suite qui converge vers une limite x E, A etant ferme x A et donc
la sous suite converge aussi vers x dans A ce qui prouve que A est compacte.
2
Notons que la notion de compacite est plus forte que celle de completude:
Proposition 1.8 Tout espace metrique compact est complet.
16

Preuve:
Soit (E, d) un espace metrique compact et (xn )n une suite de Cauchy dans E.
Comme E est compact, (xn ) admet une valeur dadherence x E. Montrons
que (xn ) converge vers x: soit > 0 , comme la suite est de Cauchy, il existe
N1 tq pour tous entiers p, q N1 on a: d(xp , xq ) /2. Comme x est valeur
dadherence, il existe N2 N1 tel que d(xN2 , x) /2. Ainsi pour tout
p N2 on a: d(xp , x) d(xp , xN2 ) + d(xN2 , x) . Ce qui montre que (xn )
converge vers x et donc que (E, d) est complet.
2
Bien noter que la reciproque est fausse: R est complet mais pas compact
(car non borne!). Remarquons aussi au passage que dans la demonstration
precedente nous avons etabli le resultat:
Lemme 1.1 Soit (E, d) un espace metrique et (xn )n une suite d elements
de E alors (xn )n converge ssi (xn )n est de Cauchy et admet une valeur
dadherence.
Th
eor`
eme 1.1 Dans R muni de sa distance usuelle, tout ferme borne est
compact.
Preuve:
Soit F un ferme borne de R, puisque F est borne, F est inclus dans un
segment [a, b] de R, sans perte de generalite, nous pouvons supposer que
F [0, 1]. Soit (xn )n F N [0, 1]N , on va montrer que (xn ) admet une
sous-suite qui est de Cauchy en procedant comme suit. Pour tout p N , on
decompose [0, 1] en 2p segments de longueur 2p :
[0, 1] =

p 1
2[

Ikp , Ikp := [k2p , (k + 1)2p ].

k=0

Pour p = 1 lun des deux intervalles I11 et I21 que lon notera J1 est tel que
lensemble {n N : xn J1 } est infini. On ecrit ensuite
[
Ik2
J1 =
k{0,..,4} : Ik2 J1
et comme precedemment k {0, ..., 4} tq lun des intervalles I12 , ..., I42 que
lon notera J2 verifie:
J2 J1 , et lensemble {n N t.q. xn J2 } est infini.
On construit ainsi par recurrence une suite decroissantes dintervalles fermes
J1 J2 .... Jp tel que Jp est de longueur 2p et pour tout p, lensemble
{n N : xn Jp } est infini.
17

Soit n1 le premier entier k tq xk J1 , n2 le premier entier k n1 + 1 tq


xk J2 , ..., np le premier entier k np1 + 1 tq xk Jp . La suite (xnp )p
est une sous-suite de (xn )n . Notons maintenant que par construction, on a
pour tout r, s p, (xns , xnr ) Jp et comme Jp est de diam`etre 2p , on a
|xns xnr | 2p et donc (xnp )p est de Cauchy. Comme R est complet, (xnp )p
converge et comme F est ferme sa limite est dans F . Ceci montre que (xn )
admet une sous-suite convergente dans F , F est donc compact.
2
Exercice 1.7 Soit (E, d) un espace metrique compact et (xn )n E N montrer
que la suite (xn )n converge ssi elle admet une unique valeur dadherence.
The following important Theorem (Bolzano-Weierstrass) gives a characterization of compactness in metric spaces in terms of finite open coverings:
Theorem 1.1 Let (E, d) be a metric space. Then (E, d) is a compact metric
space iff for every family of open sets (Oi )iI such that E = iI Oi there is
a finite set J I such that E = iJ Oi (finite covering property).
Proof:
First let us assume that (E, d) has the finite covering property and let us
remark that it implies that if Fn is a sequence of nonempty closed subsets
of E such that Fn+1 Fn then n Fn is nonempty (otherwise On = E \ Fn
would be an open covering of E and there would exist a finite covering which
would imply that some Fn would be empty). Now let (xn )n E N , for every
n, let us set:
Fn := {xk , k n}
we then have F := n Fn 6= and it is easy to check that F is the set of
cluster points of the sequence (xn ).
Conversely let us assume that (E, d) is compact an let us prove that it
has the finite covering propoerty. Let (Oi )iI be a family of open sets such
that E = iI Oi .
Claim 1: there exists > 0 such that for every x E, there is a i I
such that B(x, ) Oi .
If it was not the case (taking = 1/n), for every n there would exist
some xn such that B(xn , 1/n) is not included in any Oi . Since E is compact
(taking a subsequence if necessary), we may assume that xn converges to
some x that belongs to the open set Oi0 , but for n large enough one should
have B(xn , 1/n) Oi0 which gives the desired contradiction.
Claim 2: For every r > 0, E can be covered by finitely many open balls
of radius r.
18

Otherwise, there exists r > 0 such that E cannot be covered by finitely


many open balls of radius r. We may then choose x1 E, x2
/ B(x1 , r), x3
/
n
B(x1 , r) B(x2 , r), ...., xn+1
/ k=1 B(xk , r). By construction d(xp , xq ) r
for every p 6= q hence (xn ) does not have any Cauchy subsequence and
therefore no cluster point, which yields the contradiction.
Let > 0 be as in Claim 1 and take r = in Claim 2, there are points
x1 , ..., xn such that E = nj=1 B(xj , ) and B(xj , ) Oij for some ij E.
This proves that the finite family (Oij )j=1,...,n is a covering of E.
2
Compact metric spaces are separable i.e. admit a countable dense subset:
Proposition 1.9 Let (E, d) be a compact metric space, then it is separable
in the sense that there is a countable set (xn )n E N that is dense in E.
Proof:
By the Bolzano-Weierstrass theorem for every n N there exists finitely
many points (xni )iIn such that E is covered by the union of the open balls
B(xni , 1/n). The set n {xni , i In } is countable and dense in E by construction.
2
In a compact metric space, we have a convenient criterion for a sequence
to converge:
Proposition 1.10 Let (E, d) be a compact metric space and let (xn )n E N
then the sequence (xn ) converges if and only if it possesses a unique cluster
point.
Proof:
Of course if (xn ) converges it has a unique cluster point. Now assume that
some subsequence (x(n) ) converges to some x but x is not the limit of (xn ).
This means that : 0 > 0, such that for every N , there is some n N such
that d(x, xn ) 0 . This implies that (xn ) admits a subsequence (x(n) ) such
that d(x(n) , x) 0 for all n. By compactness of (E, d), (x(n) ) possesses a
cluster point y and d(y, x) 0 > 0, which implies that (xn ) has two distinct
cluster points.
2
Finally, we leave as an exercise, the following criterion for compactness:
Definition 1.1 A metric space (E, d) is precompact iff for every > 0, E
can be covered by finitely many open balls of radius > 0
Theorem 1.2 Let (E, d) be a metric space then (E, d) is compact iff it is
precompact and complete
19

1.5

Continuity

D
efinition 1.11 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une application de E1 dans E2 et x E1 . On dit que f est continue en x ssi > 0,
> 0 t.q. d1 (x, y) d2 (f (x), f (y)) . On dit que f est continue sur
E1 ssi f est continue en chacun de ses points.
Exemple 1.7 Soit (E, d) un espace metrique, x0 E et definissons x E,
f (x) := d(x, x0 ). On a alors |f (x) f (y)| d(x, y) et donc (en prenant
simplement = dans la definition precedente) f est continue sur E.
Proposition 1.11 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une
application de E1 dans E2 . Alors les assertions suivantes sont equivalentes:
1. f est continue sur E1 ,
2. pour tout ouvert O de E2 , f 1 (O) est un ouvert de E1 ,
3. pour tout ferme F de E2 , f 1 (F ) est un ferme de E1 ,
4. pour toute suite (xn ) delements de E1 on a:
lim xn = x dans E1 lim f (xn ) = f (x) dans E2 .
n

Preuve:
On va montrer 1) 2) 3) 4) 1).
1) 2): soit O un ouvert de E2 , x f 1 (O) et y := f (x) O, comme
O est ouvert, > 0 tq B(y, ) O. Par continuite de f en x, > 0 tq
pour tout x0 E1 , x0 B(x, ) f (x0 ) B(f (x), ) = B(y, ) O, ainsi
B(x, ) f 1 (O) donc f 1 (O) est un voisinage de x, comme x est un point
arbitraire de f 1 (O) on en deduit que f 1 (O) est ouvert.
2) 3): (par passage au complementaire), soit F ferme de E2 , et soit O
louvert O := E2 \F , dapr`es 2), f 1 (O) est ouvert mais f 1 (O) = E1 \f 1 (F )
donc f 1 (F ) = E1 \ f 1 (O), ainsi f 1 (F ) est ferme.
3) 4): soit (xn ) E N une suite convergente de limite x E1 et
supposons par labsurde que f (xn ) ne converge pas vers f (x). Alors > 0
tq N N, nN N tq
d2 (f (xnN ), f (x)) .

(1.2)

Posons F := E2 \ B(f (x), ), F est ferme (complementaire dune boule ouverte) et donc par 3), f 1 (F ) est ferme. Notons que (1.2) signifie que xnN
20

f 1 (F ) pour tout N . Comme (xnN ) converge vers x quand N + et


comme f 1 (F ) est ferme, on en deduit que x f 1 (F ) i.e. d2 (f (x), f (x))
ce qui est absurde.
4) 1): supposons que f ne soit pas continue en un point x de E1 , alors
il existe > 0 tq pour tout > 0, il existe x E1 tel que d1 (x , x) et
d2 (f (x ), f (x)) > . En prenant n := 1/n et en notant xn := xn on a alors
d1 (xn , x) 1/n et d2 (f (xn ), x) > > 0 ce qui contredit lassertion 4).
2
Proposition 1.12 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une
application continue de E1 dans E2 . Si E1 est compact alors f (E1 ) est une
partie compacte de E2 .
Preuve:
Soit (zn ) := f (xn ) (avec xn E1 ) une suite de f (E1 ). Comme E1 est
compact, xn admet une sous suite (x(n) ) convergente, f etant continue la
sous suite z(n) = f (x(n) ) est aussi convergente. Ceci montre donc que f (E1 )
est compact.
2
Corollaire 1.1 Si (E, d) est compact et f est continue de E dans R (muni
de sa distance usuelle) alors f atteint ses bornes sur E.
Preuve:
f (E) est un compact de R cest donc un ferme borne en particulier ses bornes
sont finies et appartiennent a` f (E). 2
Le corollaire precedent peut etre vu comme un resultat dexistence en
optimisation. Il implique en effet que lorsque E est compact, les probl`emes
doptimisation:
sup{f (x), x E} et inf{f (x), x E}
admettent au moins une solution, autrement dit le sup. (resp. inf.) precedent
est un max. (resp. min.).
Exercice 1.8 Soit f une fonction continue de R dans R telle que:
lim f (x) = +

|x|+

montrer que linfimum de f sur R est atteint.

21

Exercice 1.9 Soit A une partie compacte dun espace metrique (E, d), on
definit:
dA (x) := inf{d(x, a), a A}.
Montrer que linf precedent est atteint. Montrer que dA (.) est continue sur
E.
D
efinition 1.12 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une application de E1 dans E2 . On dit que f est uniformement continue sur E1 ssi
> 0, > 0 t.q. pour tout (x, y) E12 , d1 (x, y) d2 (f (x), f (y)) .
Attention: il convient de bien distinguer la definition precedente de celle
de continuite (dans la definition de la continuite en un point, depend de
et du point considere, alors que dans la definition de luniforme continuite
ne depend que de , cest precisement pour cela que lon parle duniformite).
Exercice 1.10 Trouvez une fonction de R dans lui meme qui soit uniformement
continue. Trouvez une fonction de R dans lui meme qui soit continue et non
uniformement continue.
Rappelons la definition des applications Lipschitziennes:
D
efinition 1.13 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une application de E1 dans E2 et k R+ . On dit que f est k-Lipschitzienne (ou Lipschitzienne de rapport k) ssi pour tout (x, y) E1 E1 on a d2 (f (x), f (y))
kd1 (x, y). On dit enfin que f est Lipschitzienne ssi k 0 tel que f soit
k-Lipschitzienne.
Exercice 1.11 Soit (E, d) un espace metrique. Montrer que:
1. Pour tout x0 E, lapplication x 7 d(x, x0 ) est 1-Lipschitzienne.
2. Pour toute partie non vide A de E lapplication
x 7 dA (x) := inf{d(x, a), a A}
est 1-Lipschitzienne.
Exercice 1.12 Montrer que les applications lipschitziennes de (E 1 , d1 ) dans
(E2 , d2 ) sont uniformement continues. Trouver une application uniformement
continue de R dans R qui nest pas Lipschitzienne.
Exercice 1.13 Montrer quune fonction continue et periodique de R dans R
est uniformement continue.
22

Exercice 1.14 Soit f : R R uniformement continue. Montrer quil existe


deux constantes a et b telles que |f (x)| a|x| + b, x R.
Le resultat suivant (Theor`eme de Heine) enonce que si lespace de depart
est compact alors les notions de continuite et de continuite uniforme coincident:
Th
eor`
eme 1.2 Soit (E1 , d1 ) et (E2 , d2 ) deux espaces metriques, f une application continue de E1 dans E2 . Si (E1 , d1 ) est compact alors f est uniformement continue sur E1 .
Preuve:
Supposons, par labsurde que f ne soit pas uniformement continue alors il
existe > 0, il existe deux suites delements de E1 , (xn ) et (yn ) telles que
d1 (xn , yn ) tende vers 0 et d2 (f (xn ), f (yn)) pour tout n. E1 etant compact
on peut extraire des sous-suites convergentes de (xn ) et (yn ) de limites respectives x et y. En passant a` la limite on obtient x = y et d2 (f (x), f (y)) > 0
ce qui est absurde.
2

1.6

Banach fixed-point Theorem

Th
eor`
eme 1.3 Soit (E, d) un espace metrique complet et f une contraction
de E, cest a
` dire une application de E dans E telle quil existe k ]0, 1[ tel
que:
d(f (x), f (y)) kd(x, y), (x, y) E E.
Alors f admet un unique point fixe: il existe un unique x E tel que f (x) =
x. De plus, pour tout x0 E, si on definit par recurrence la suite xn par
xn+1 = f (xn ), pour n 0, la suite xn converge vers x quand n +.
Preuve:
On commence dabord par montrer lunicite, supposons que f admette deux
points fixes x1 et x2 . Comme f (x1 ) = x1 et f (x2 ) = x2 , on a alors d(x1 , x2 ) =
d(f (x1 ), f (x2 ) kd(x1 , x2 ) et comme k < 1, il vient d(x1 , x2 ) = 0 donc
x1 = x2 do`
u lunicite.
Montrons maintenant lexistence. Soit x0 E, definissons la suite xn
comme dans lenonce et montrons que celle-ci est de Cauchy. On commence
par remarquer que pour tout n N on a d(xn+1 , xn ) = d(f (xn ), f (xn1 ))
kd(xn , xn1 ) en iterant largument on a donc aussi:
d(xn+1 , xn ) k n d(x1 , x0 )
23

(1.3)

Pour q p N on a donc:
d(xp , xq ) d(xp , xp+1 ) + ... + d(xq1 , xq ) d(x1 , x0 )(k p + .... + k q1 )
kN
d(x1 , x0 )
1k
comme k ]0, 1[, k N tend vers 0 quand N +, linegalite precedente
implique donc que (xn ) est de Cauchy et donc admet une limite x dans E
puisque (E, d) est complet. On verifie aisement que f est continue donc
xn+1 = f (xn ) converge vers f (x) on a donc x = f (x). 2
Il faut bien retenir que le theor`eme precedent indique tr`es simplement
comment trouver le point fixe dune contraction f : on part de x0 ARBITRAIRE (cest assez remarquable) et on calcule les iterees x1 = f (x0 ),
x2 = f (x1 )... cette suite converge vers le point fixe de f (noter aussi que
la vitesse de convergence est geometrique: d(x, xn ) k n d(x, x0 )).
Noter que dans le theor`eme precedent lhypoth`ese de contraction (k < 1)
est fondamentale. Pour sen convaincre considerer f (x) = x + 1 dans R...

1.7

Baires Theorem

Another important property of complete metric spaces is given by the next


result, due to Baire:
Theorem 1.3 Let (E, d) be a complete metric space and On be a sequence
of open and dense subsets of E, then n On is a dense subset of E.
Proof:
Let U be some open set, we have to prove that n On U 6= . First let
us fix x0 E and r0 > 0 such that B(x0 , r0 ) U . Since B(x0 , r0 ) is open
and O1 is dense there exists x1 and 0 < r1 r0 /2 such that B(x1 , r1 )
B(x0 , r0 ) O1 . Inductively, we construct a sequence xn in E and rn > 0
such that B(xn+1 , rn+1 ) B(xn , rn ) On+1 and rn+1 rn /2. Since xn is a
Cauchy sequence, it converges to some x. By construction x B(x0 , r0 ) U
and x B(xn , rn ) for all n, thus x n On , which completes the proof.
2
Taking complements, we get the equivalent formulation
Corollary 1.1 Let (E, d) be a complete metric space and Fn be a sequence
of closed subsets of E, if int(Fn ) = for all n then int(n Fn ) = .
In particular, we have the following, which is often useful
24

Corollary 1.2 Let (E, d) be a complete metric space and Fn be a sequence


of closed subsets of E, such that n Fn = E then there is some n0 such that
Fn0 has nonempty interior.

1.8

Set-valued maps

D
efinition 1.14 Soit X et Y deux espaces metriques et soit F une correspondance a
` valeurs compactes non vides de X dans Y , et soit x X on
dit que:
1. F est hemi-continue superieurement (h.c.s.) en x si pour toute suite
xn convergeant vers x dans X et pour toute suite yn F (xn ), la suite
yn admet une valeur dadherence dans F (x).
2. F est hemi-continue inferieurement (h.c.i.) en x si pour tout y F (x)
et pour toute suite xn convergeant vers x dans X, il existe yn F (xn )
telle que yn converge vers y dans Y .
3. F est continue si F hemi-continue superieurement et inferieurement
en chaque point de X.
Dans le cas o`
u X et Y sont des metriques compacts, dire que F est h.c.s.
revient simplement a` dire que son graphe:
graph(F ) := {(x, y) : x X, y F (x) }
est ferme. Noter que dans ce cas F est automatiquement a` valeurs compactes.
Remarquons que dans le cas univoque i.e. F (x) = {f (x)} on a equivalence
entre F est h.c.s., F est h.c.i et f est continue. Si X = Y = R et
F (x) = [f (x), g(x)] avec f et g deux fonctions continues telles que f g alors
F est une correspondance continue. Pour fixer les idees, il est bon davoir en
memoire les exemples suivants:
La correspondance F de R dans R definie par:

si x < 0
0
F (x) =
[0, 1] si x = 0

1
si x > 0
est h.c.s. mais pas h.c.i. en 0.
La correspondance G de R dans R definie par:

0
si x 0
G(x) =
[1, 1] si x > 0
est quant a` elle h.c.i. mais pas h.c.s. en 0.
25

Chapter 2
Normed spaces
2.1

Basic definitions

D
efinition 2.1 Soit E un R-espace vectoriel, on appelle norme sur E toute
application : k.k: E R+ verifiant:
1. kxk = 0 x = 0,
2. kx + yk kxk + kyk, (x, y) E 2 ,
3. kxk = ||kxk , (, x) R E.
On appelle espace vectoriel norme (evn) la donnee dun couple (E, k.k)
avec E un espace vectoriel reel et k.k une norme sur E.
Une norme definit une distance sur E (et donc une topologie, des fermes,
des compacts...) donnee par:
d(x, y) := kx yk, (x, y) E 2 .
Bien noter ici que les evn ne sont quun cas particulier des espaces metriques
etudies au chapitre precedent. En particulier une norme definit une distance
mais une distance nest pas necessairement associee a` une norme (prendre
lexemple de la distance grossi`ere).
Notons aussi que kxk = k xk et |kxk kyk| kx yk.
Exemple 2.1 Pour E = Rn , nous avons deja rencontre les normes:
kxk := max(|x1 |, .., |xn |), kxk1 :=

n
X
i=1

26

|xi |, kxk2 := (

n
X
i=1

|xi |2 )1/2

Nous verrons par la suite, que pour tout p 1:


n
X
kxkp := (
|xi kp )1/p

(2.1)

i=1

definit une norme sur Rn . On peut construire de nombreux autres exemples


(par exemple en notant que la somme ou le max dun nombre fini de normes
est encore une norme).
Exemple 2.2 E = C 0 ([a, b], R) munie de la norme
kf k := max{|f (t)|, t [a, b]}.
Sur E on peut aussi considerer les normes:
Z b
Z b
f 2 )1/2
|f |, kf k2 := (
kf k1 :=
a

ou plus generalement pour tout p 1:


Z b
|f |p )1/p .
kf kp := (
a

Exemple 2.3 E = l

:= {(xn )n R : (xn )n bornee} munie de la norme


kxk := sup |xn |, n N.

D
efinition 2.2 Soit E un R-ev, k.k1 et k.k2 deux normes sur E on dit que
ces deux normes sont equivalentes ssi il existe deux constantes strictement
positives a et b telles que pour tout x E on ait:
akxk1 kxk2 bkxk1 .
La notion de normes equivalentes est importante car deux normes equivalentes
ont les memes ouverts, les memes fermes, les memes bornes, les memes compacts, les memes suites convergentes etc... autrement dit elles definissent la
meme topologie (.... et le meme calcul differentiel) .
Exemple 2.4 Sur Rn , les normes k.k1 et k.k sont equivalentes: en effet,
on a clairement pour tout x Rn , kxk1 kxk et kxk1 nkxk . Nous
verrons au paragraphe 2.2 que sur Rn , en fait, TOUTES les normes sont
equivalentes.
Exemple 2.5 Considerons sur E := C 0 ([0, 1], R) les normes k.k1 et k.k
comme dans lexemple 2.2. Il est facile de voir que pour tout f E on
a: kf k1 kf k mais ces 2 normes ne sont pas equivalentes pour autant.
En effet, considerons la suite de fonctions fn (t) := max(0, n(1 nt)), on a
kfn k = n et kfn k1 = 1/2, il ne peut donc exister de constante positive a
telle que kfn k akfn k1 pour tout n N .
27

2.2

Finite dimensional spaces

En dimension finie, nous allons voir que toute les normes sont equivalentes, ce
qui signifie en pratique que lon peut utiliser sur Rn nimporte quelle norme
sans changer de topologie, on parle alors simplement de la topologie de Rn
sans preciser la norme.
Th
eor`
eme 2.1 Les parties compactes de (Rk , k.k ) sont ses parties fermees
bornees. En particulier toute suite bornee de (Rk , k.k ) admet une sous-suite
convergente.
Preuve:
Soit F une partie fermee bornee de Rk pour la norme k.k . Il existe alors
M > 0 telle que F B(0, M ) = [M, M ]k . Soit (xn )n F N ([M, M ]k )N ,
en vertu du theor`eme 1.1, [M, M ] est un compact de R, on peut donc
extraire une sous-suite1 (x(n) )n telle que pour i = 1, ..., k la suite des i`emes composantes (xi,(n) )n converge vers une limite xi R. Notons x =
(x1 , ..., xk ), pour tout i on a |xi,(n) xi | 0 quand n + et donc
lim kx(n) xk = 0.
n

Ainsi (xn ) converge vers x, enfin x F car F est ferme ce qui ach`eve la
preuve.
2
Th
eor`
eme 2.2 Si E est un espace vectoriel reel de dimension finie alors
toutes les normes sur E sont equivalentes.
Preuve:
Sans perte de generalite supposons E = Rn . Soit N une norme sur Rn , nous
allons montrer que N est equivalente a` la norme k.k de Rn (si toutes les
normes sont equivalentes a` une norme donnee alors par transitivite elles
sont toutes equivalentes entre elles). Soit P
(e1 , ..., en ) une base de Rn et soit
x Rn que lon ecrit dans cette base x = ni=1 xi ei , on a:
N (x) = N (

n
X
i=1

xi e i )

n
X

|xi |N (ei ) (

i=1

n
X

N (ei ))kxk

i=1

donc N (x) Ckxk pour tout x Rn (C =


N (ei )). On a donc pour
tout x, y:
|N (x) N (y)| |N (x y)| Ckx yk
(2.2)
1

En realite, il faut effectuer plusieurs extractions successives, les details sont laisses au
lecteur...

28

ce qui montre en particulier que N est continue de (Rn , k.k ) dans R.


Soit S := {x Rn : kxk = 1}, S est un ferme borne de (Rn , k.k ) et
donc un compact en vertu du theor`eme 2.1. Dapr`es (2.2), N atteint donc
son infimum sur S soit donc x0 S tq N (x0 ) = minS N comme x0 S on a
x0 6= 0 et donc N (x0 ) > 0 posons = N (x0 ). Pour x 6= 0, x/kxk S et
donc:


N (x)
x
.
N
kxk
kxk

La derni`ere inegalite etant aussi satisfaite pour x = 0, ceci ach`eve de montrer


que N et k.k sont equivalentes. 2
En combinant les theor`emes 2.1 et 2.2, on obtient le resultat suivant dont
la preuve est laissee au lecteur:
Th
eor`
eme 2.3 Soit (E, k.k) un evn reel de dimension finie, les parties compactes de (E, k.k) sont ses parties fermees et bornees. En particulier, toute
suite bornee de (E, k.k) admet une sous-suite convergente.

2.3
2.3.1

Banach Spaces
Definitions and properties

On a vu au chapitre precedent limportance de la notion de completude dans


le cadre general des espaces metriques, ainsi les evn complets appeles espaces
de Banach jouent un role tr`es important en analyse:
D
efinition 2.3 On appelle espace de Banach tout evn qui muni de la distance associee a
` sa norme est complet.
Soit (E, k.k) un evnPet (xn )n E N , on rappelle que la serie de terme
general xn (notation: ( n xn ), vocabulaire: seP
rie a` valeurs dans E) est la
suite formees par ses sommes partielles: Sn := kn xk .
P
D
efinition 2.4 P
Soit (E, k.k) un evn et ( n xn )n une serie a
` valeurs dans
E. On dit que ( n xn )n est convergente ssi la suite de ses sommes partielles
converge dans (E, k.k), on appelle
somme de la serie P
la limite des sommes
P+
partielles quon note simplement
P n=0 xn . On dit que ( n xn )n est normalement convergente ssi la serie ( n kxn k)n est convergente dans R.
P
On rappelle que la serie (`a termes positifs) ( n kxn k)n converge ssi la
suite de ses sommes partielles est de Cauchy:
> 0, N N tq p q N ,

p
X

k=q+1

29

kxk k

(2.3)

P+

kxk k tend vers 0 quand n +.


P
Proposition 2.1 Soit P
(E, k.k) un espace de Banach et ( n xn ) une
P serie
a
` valeurs dans E, si ( n xn ) est normalement convergente alors ( n xn )
converge dans E.
dans ce cas la suite des restes

k=n

Preuve:
P
Il suffit de montrer que la suite des sommes partielles Sn := kn xk est de
Cauchy, or on a pour p q:
kSp Sq k

p
X

kxk k

k=q+1

+
X

kxk k

(2.4)

k=q+1

comme la serie est normalement convergente, le membre de droite de (2.4)


tend vers 0 quand q +, (Sn )n est donc de Cauchy et la serie converge.
2
Attention: la convergence normale est suffisante pour la convergence mais
pas necessaire (dans R considerer la serie alternee de terme general (1) n /n
qui est convergente mais non absolument convergente).
Exercice 2.1 Soit (E, k.k) un evn, montrer que (E, k.k) est un espace de
Banach ssi toute serie a
` valeurs dans E normalement convergente est absolument convergente.
P
Exercice 2.2 Soit (fn ) une suite bornee de (C 0 ([0, 1], R), k.k) etP( n n )
une serie a
` valeurs dans R convergente, montrer que la serie ( n n fn )
converge dans (C 0 ([0, 1], R), k.k) (on pourra utiliser le theor`eme 2.5).

2.3.2

Examples of Banach Spaces

Evidemment tout R-ev de dimension finie muni dune norme quelconque est
un espace de Banach:
Proposition 2.2 RN muni de nimporte quelle norme est un espace de Banach.
Preuve:
Soit (xn )n (RN )N une suite de Cauchy pour la norme k.k (le choix dune
norme nimporte pas ici puisquen dimension finie toutes les normes sont
equivalentes). Il est clair que chaque suite formee par les composantes: (x1n )n ,
..., (xN
n )n est de Cauchy dans R et comme R est complet, ces suites convergent
respectivement vers des limites x1 , ..., xN . Il est alors clair que (xn )n converge
dans RN vers x = (x1 , ..., xN ). 2
30

Exercice 2.3 Prouver que RN est complet comme suit. Soit (xn )n une suite
de Cauchy dans Rk , montrer que
1. (xn )n est bornee et admet une sous-suite convergente,
2. en deduire que (xn )n converge et conclure.
Passons maintenant a` quelques exemples despaces de Banach de dimension infinie. Soit X un ensemble, (E, k.k) un espace de Banach et B(X, E)
lensemble des applications bornees de X dans E:
B(X, E) := {f : X E tq sup kf (x)k < +}

(2.5)

xX

on verifie trivialement que B(X, E) est un ev et que sur E:


kf k := sup kf (x)k

(2.6)

xX

est une norme appelee norme de la convergence uniforme (ou simplement


norme uniforme).
Remarque.
Il faut bien distinguer la convergence uniforme et la convergence simple
((fn ) converge uniformement vers f lorsque kfn f k tend vers 0 alors que
(fn ) converge simplement vers f lorsque (fn (x)) converge vers f (x) dans
(E, k.k) pour tout x X). Evidemment si (fn ) converge uniformement vers
f alors (fn ) converge simplement vers f mais la reciproque est fausse (trouvez
des contre-exemples).
Th
eor`
eme 2.4 Soit X un ensemble, et (E, k.k) un espace de Banach alors
(B(X, E), k.k ) est un espace de Banach.
Preuve:
Soit (fn )n une suite de Cauchy de (B(X, E), k.k ), ce qui signifie:
> 0, N N t.q. p, q N, x X, kfp (x) fq (x)k .

(2.7)

Nous allons prouver que (fn )n converge dans (B(X, E), k.k ) en passant
par trois etapes.
Etape 1: identification dune limite ponctuelle
Soit x X (fixe), (2.7) implique en particulier que la suite (fn (x))n E N
est de Cauchy et comme (E, k.k) est un Banach, elle converge: soit f (x) sa
limite.
31

Etape 2: f B(X, E)
Dapr`es (2.7), il existe N tel que pour tout p, q N , et pour tout x X
on a:
kfp (x) fq (x)k 1.
(2.8)
Pour x X fixe, prenons p = N , faisons tendre q vers + dans (2.8), comme
fq (x) converge vers f (x) on obtient kfN (x) f (x)k 1 mais comme x X
est arbitraire dans linegalite precedente, nous obtenons:
sup kf (x) fN (x)k 1 (f fN ) B(X, E)

xX

et comme fN B(X, E) on en deduit que f B(X, E).


Etape 3: (fn )n converge vers f dans (B(X, E), k.k )
Soit > 0, d apr`es (2.7), il existe N tq pour tout p, q N et tout x X
on a kfp (x) fq (x)k . Comme precedemment, fixons x X, prenons
p N et faisons tendre q vers +, on obtient alors:
kfp (x) f (x)k .

(2.9)

Mais comme (2.9) a lieu pour tout p N et tout x X on a:


p N, kfp f k .
ce qui ach`eve la preuve. 2
Notons que dans ce qui prec`ede, lensemble de depart X est totalement
arbitraire. Un cas particulier interessant est celui o`
u X = N, en effet dans

ce cas B(N, E) = l (E) est lespace des suites bornees delements de E.


En munissant l (E) de la norme uniforme et en appliquant le theor`eme
precedent on a ainsi:
Corollaire 2.1 Soit (E, k.k) un espace de Banach, alors l (E) muni de la
norme uniforme est un espace de Banach.
Un autre cas interessant est celui o`
u X est muni dune distance d, dans
ce cas on peut sinteresser a` lespace vectoriel Cb0 (X, E) des applications
continues et bornees2 de X dans E. En munissant Cb0 (X, E) de la norme
uniforme definie par (2.6), on a:
Th
eor`
eme 2.5 Soit (X, d) un espace metrique et (E, k.k) un espace de Banach, alors (Cb0 (X, E), k.k ) est un espace de Banach.
2

Notons au passage que si (X, d) est compact alors toute application f continue de
(X, d) dans (E, k.k) est bornee puisque f (X) est compact donc borne.

32

Preuve:
Soit (fn )n une suite de Cauchy de (Cb0 (X, E), k.k ), dapr`es le theor`eme
2.4, nous savons que (fn )n converge vers une limite f B(X, E) dans
(B(X, E), k.k ), il nous suffit donc de montrer que f est continue pour pouvoir conclure.
Soit > 0 et soit N tq pour tout n N on ait:
kfn f k

(2.10)

Soit x0 X, comme fN est continue en x0 , il existe > 0 tel que:


x B(x0 , ), kfN (x0 ) fN (x)k

(2.11)

Pour x B(x0 , ) on a:
kf (x) f (x0 )k kf (x) fN (x)k + kfN (x) fN (x0 )k + kfN (x0 ) f (x0 )k
kf fN k + /3 + kf fN k
(avec (2.10))
ce qui montre que f est continue en x0 .
2
Exercice 2.4 Soit (E1 , N1 ),...(EK , NK ) des espaces de Banach et soit E :=
E1 ... EK montrer que sur E:
N (x1 , .., xK ) :=

K
X

Ni (xi ), M (x1 , .., xk ) := max Ni (xi ).


i=1,..,K

i=1

sont des normes equivalentes et que E muni dune de ces normes est un
espace de Banach.

2.4

Hilbert Spaces

D
efinition 2.5 Soit E un R-ev, on appelle produit scalaire (ps) sur E toute
application h., .i : E E R qui est:
1. bilineaire: pour tout x E (fixe) y 7 hx, yi est lineaire, et pour tout
y E (fixe) x 7 hx, yi est lineaire,
2. symetrique: hx, yi = hy, xi, (x, y) E E,
33

3. definie positive: hx, xi 0, x E et hx, xi = 0 x = 0.


Notons les identites faciles a` etablir en utilisant la bilinearite et la symetrie:
hx + y, x + yi = hx, xi + hy, yi + 2 hx, yi ,
hx y, x yi = hx, xi + hy, yi 2 hx, yi , (x, y) E E.

(2.12)

D
efinition 2.6 On appelle espace prehilbertien la donnee dun couple (E, h., .i)
avec E un R-ev et h., .i un produit scalaire sur E.
La donnee dun produit scalaire permet de definir une norme sur E, et
ce grace a` linegalite de Cauchy-Schwarz:
Proposition 2.3 Soit (E, h., .i) un espace prehilbertien.
1. pour tout (x, y) E E on a linegalite de Cauchy-Schwarz:
| hx, yi | (hx, xi)1/2 (hy, yi)1/2 .

(2.13)

De plus il y a egalite dans (2.13) ssi x et y sont lies.


lapplication x 7 (hx, xi)1/2 est une norme sur E appelee norme associee au
ps h., .i.
Preuve:
1): Definissons pour tout t R,
g(t) := hx + ty, x + tyi = t2 hy, yi + 2t hx, yi + hx, xi
g est un trinome en t (non degenere si y 6= 0 mais si y = 0 les 2 membres de
(2.13) valent 0) et g(t) 0 t par positivite du ps. Le discriminant de g est
donc negatif soit:
(hx, yi)2 hx, xi hy, yi ,
on obtient (2.13) en prenant la racine carree de linegalite precedente.
Il est clair que si x et y sont lies, il y a egalite dans (2.13). Reciproquement
si il y a egalite dans (2.13) alors le discriminant de g est nul et donc g admet
une racine double t0 R, mais g(t0 ) = 0 ssi x + t0 y = 0 et donc x et y sont
lies.

34

2): Notons kxk := (hx, xi)1/2 , comme h., .i est un ps, on a kxk = 0 ssi
x = 0. La bilinearite implique clairement kxk = ||kxk. Reste a` montrer
linegalite triangulaire: soit (x, y) E E on a
kx + yk2 =kxk2 + kyk2 + 2 hx, yi
kxk2 + kyk2 + 2kxkkyk (dapr`es Cauchy-Schwarz)
=(kxk + kyk)2
ce qui ach`eve de montrer que k.k est une norme sur E. 2
Notons k.k la norme associee au ps h., .i remarquons que la connaissance
de cette norme permet de retrouver le produit scalaire par lidentite suivante (identite de polarisation):
1
hx, yi = (kx + yk2 kxk2 kyk2 ).
2
Mentionnons aussi lidentite du parallelogramme:
kx + yk2 + kx yk2 = 2(kxk2 + kyk2 ).

(2.14)

(2.15)

Remarque. Il decoule de linegalite de Cauchy-Schwarz que pour tout


x H, la forme lineaire y 7 hx, yi est continue sur H.
D
efinition 2.7 Soit (E, h., .i) un espace prehilbertien. On dit que (E, h., .i)
est un espace de Hilbert ssi E muni de la norme associee a
` h., .i est complet.
P
Exemple 2.6 E = Rn muni du produit scalaire usuel: hx, yi := N
i=1 xi yi .
Plus generalement, toute matrice carree de taille n symetrique et definie
positive A definit un ps sur Rn via:
hx, yi := x0 Ay.
Evidemment, le cas du ps usuel correspond a
` A = In .
P
Exemple 2.7 l2 lespace des suites reelles (xn ) tq
|xn |2 < + muni du
produit scalaire:
X
hx, yi :=
xn y n .
n0

Exemple 2.8 Lespace de Lebesgue L2 ([0, 1], R) muni de:


Z 1
f (t)g(t)dt
(f, g) 7
0

est un Hilbert mais C ([0, 1], R) muni de la meme structure est seulement
prehilbertien.
35

Etant donne un espace prehilbertien (H, h., i), on dit que deux vecteurs
u et v sont orthogonaux ssi hu, vi = 0. Pour A H on appelle orthogonal
de A lensemble:
A := {x H : hx, yi = 0, y A}.
On verifie sans peine que A est un sev ferme de H car intersection de sev
fermes.

2.5

Continuous linear and bilinear maps

Dans ce qui suit etant donnes (E, k.kE ) et (F, k.kF ) deux e.v.n, on notera
L(E, F ) (resp. Lc (E, F )) lespace vectoriel des applications lineaires (resp.
lineaires continues) de E dans F . Pour E = F , on notera simplement L(E)
(resp. Lc (E, F )) lespace vectoriel des endomorphismes (resp. endomorphismes continus) de E.

2.6

Characterization

Th
eor`
eme 2.6 Soit (E, k.kE ) et (F, k.kF ) deux e.v.n, et f L(E, F ), les
assertions suivantes sont equivalentes:
1. f Lc (E, F ),
2. f est continue en un point,
3. f est bornee sur la boule unite fermee de E, B E (0, 1),
4. il existe une constante M 0 tq kf (x)kF M kxkE x E,
5. f est Lipschitzienne sur E.
Preuve:
1) 2) est evident.
2) 3): supposons f continue en x0 E, alors r > 0 telle que pour
tout x B E (x0 , r) on ait:
kf (x) f (x0 )kF 1.

(2.16)

Soit u B E (0, 1) on a x0 + ru B E (x0 , r) et donc avec (2.16), il vient:


kf (x0 + ru) f (x0 )kF = kf (ru)kF = rkf (u)kF 1
36

(2.17)

on en deduit donc que u B E (0, 1), on a kf (u)kF 1/r.


3) 4): Supposons donc quil existe M > 0 telle que:
kf (u)kF M , u B E (0, 1).

(2.18)

Soit x E avec x 6= 0, on a x/kxkE B E (0, 1) ainsi avec (2.18):


kf (x/kxkE )kF =

kf (x)kF
M kf (x)kF M kxkE .
kxkE

(2.19)

et la derni`ere inegalite dans (2.19) est evidente pour x = 0.


4) 5): Par linearite, on a pour tout (x, y) E E:
kf (x) f (y)kF = kf (x y)kF M kx ykE

(2.20)

ce qui montre que f est M -Lipschitzienne sur E.


5) 1) est evident.
2
Exemple 2.9 Soit E := C 0 ([1, 1], R). Considerons sur E, la norme 1:
kf k1 :=

|f (t)|dt
1

et la norme uniforme:
kf k := max{|f (t)|, t [1, 1]}.
Soit enfin pour tout f E, T (f ) := f (0). T est clairement une forme
lineaire sur E (i.e. T L(E, R)) et pour tout f E:
|T (f )| kf k
si bien que T est continue lorsque E est muni de la norme uniforme.
Nous allons voir que T nest PAS continue lorsque E est munie de la
norme k.k1 . Pour cela, considerons la suite de fonctions:
fn (t) := max(0, n(1 n|t|)), t [1, 1], n N .
Un calcul elementaire montre que kfn k1 = 1 pour tout n et T (fn ) = n +.
Ainsi T nest pas bornee sur la boule unite fermee de (E, k.k1 ) et donc T nest
pas continue.
37

Exercice 2.5 Les notations etant celles de lexercice precedent, etudier la


continuite de lapplication (lineaire!) S de E dans R3 definie pour tout f E
par
Z
Z
Z
1

S(f ) := (

t2 f (t)dt,

f (t)dt,

et f (t)dt)

lorsque lon munit E de la norme k.k1 puis de la norme k.k et R3 de


nimporte quelle norme (cf. theor`eme 2.2).
Comme dhabitude, on sattend a` ce que les choses se passent bien en
dimension finie, en effet:
Th
eor`
eme 2.7 Soit (E, k.kE ) et (F, k.kF ) deux e.v.n. Si E est de dimension
finie alors L(E, F ) = Lc (E, F ).
Preuve:
Sans perte de generalite, on suppose que E = Rn et k.kE = k.k . Munissons
P
E dune base (e1 , .., en ). Soit f L(E, F ) et x E, ecrivons x = ni xi ei ,
alors on a:
kf (x)kF = k

n
X

xi f (ei )kF

i=1

n
X

|xi |kf (ei )kF kxkE

i=1

n
X

kf (ei )kF

i=1

ce qui prouve que f Lc (E, F ). 2


Remarque. Remarquons que la conclusion du theor`eme precedent est
en general fausse si cest F qui est de dimension finie (voir les exemples
precedents).

2.6.1

Spaces of linear continuous maps

Th
eor`
eme 2.8 Soit (E, k.kE ) et (F, k.kF ) deux e.v.n.
1. Sur Lc (E, F ) lapplication:
f 7 kf kLc (E,F ) := sup{kf (x)kF : kxkE 1}
definit une norme.
2. Si (F, k.kF ) est un espace de Banach, Lc (E, F ) muni de la norme
definie precedemment est un espace de Banach.

38

Preuve:
Lassertion 1. est evidente et sa preuve laissee au lecteur.
Soit (fn ) une suite de Cauchy de (Lc (E, F ), k.kLc (E,F ) ), soit gn la restriction de fn a` B E (0, 1). On a gn Cb0 (B E (0, 1), F ) car fn est continue et:
kgn k = kfn kLc (E,F ) .

(2.21)

Par definition de gn on a aussi pour tout (p, q) N2 :


kgp gq k = kfp fq kLc (E,F ) .

(2.22)

Ceci implique que (gn ) est de Cauchy dans (Cb0 (B E (0, 1), F ), k.k), donc,
grace au theor`eme 2.5, gn converge vers une limite g dans (Cb0 (B E (0, 1), F ), k.k).
Definissons alors f par f (0) = 0 et:
f (x) = kxkg(

x
).
kxk

(2.23)

Notons dabord que g = f sur B E (0, 1), en effet g(0) = f (0) = 0 et si


x B E (0, 1) \ {0}, pour tout n on a:
kxkgn (

x
x
) = kxkfn (
) = fn (x) = gn (x)
kxk
kxk

et donc g = f sur B E (0, 1), en passant a` la limite dans la relation precedente.


Montrons que f est lineaire: soit (x1 , x2 , t) E E R, pour tout n,
par linearite de fn , on a 3 :
0 =fn (x1 + tx2 ) fn (x1 ) tfn (x2 )
x1 + tx2
x1
x2
=kx1 + tx2 kgn (
) kx1 kgn (
) tkx2 kgn (
)
kx1 + tx2 k
kx1 k
kx2 k
en passant a` la limite on a f (x1 + tx2 ) = f (x1 ) + tf (x2 ). On en deduit donc
que f est lineaire.
Puisque g = f sur B E (0, 1), f est bornee sur B E (0, 1) et donc f
Lc (E, F ). Enfin, comme gn = fn et g = f sur B E (0, 1), on a:
kgn gk = kfn f kLc (E,F )
do`
u lon deduit que fn converge vers f dans (Lc (E, F ), k.kLc (E,F ) ).
2
3

Dans ce qui suit, on fera un leger abus de notation, en posant kxkgn (x/kxk) = 0 pour
x = 0.

39

Remarque. Soit f Lc (E, F ) et x E \ {0} puisque x/kxkE est de norme


1 on a:


x
kf
kF kf kLc (E,F )
kxkE
ce qui par homogeneite donne aussi:

kf (x)kF kf kLc (E,F ) kxkE .

(2.24)

Evidemment (2.24) est aussi verifiee par x = 0. Il faut retenir (2.24) qui
sav`ere tr`es utile dans la pratique.
Remarque.
Notons que dans le theor`eme precedent (comme dans le
theor`eme 2.5) cest lespace darrivee qui doit etre un Banach (lespace de
depart est un evn quelconque).
D
efinition 2.8 Soit (E, k.k) un R-evn, on appelle dual topologique de E et
lon note E 0 lespace vectoriel des formes lineaires continues sur E: E 0 :=
Lc (E, R)
On munit E 0 de la norme duale de la norme de E:
f E 0 , kf kE 0 := sup{|f (x)| : kxkE 1}

(2.25)

Il resulte du theor`eme (2.8) et de la completude de R que (E 0 , k.kE 0 ) est un


espace de Banach.
Attention: ne pas confondre le dual algebrique de E, E := L(E, R) et
son dual topologique E 0 (je vous renvoie aux exemples du debut du chapitre).

2.6.2

Bilinear continuous maps

On va maintenant etendre les resultats precedents aux applications bilineaires.


Les preuves sont analogues a` celles des paragraphes precedents et donc laissees
en exercice au lecteur.
Etant donnes trois R-ev E, F et G, on appelle application bilineaire de
E F a` valeurs dans G toute application:

EF
G
a:
(x, y) 7 a(x, y)
telle que:
pour tout y F , lapplication x 7 a(x, y) est lineaire de E dans G,
40

pour tout x E, lapplication y 7 a(x, y) est lineaire de F dans G.


On note L2 (E F, G) lensemble des applications bilineaires de E F
a` valeurs dans G. On verifie aisement que L2 (E F, G) a une structure de
R-ev.
Exemple 2.10 E = F = Rn , G = R et a(x, y) =

Pn

i=1

xi y i .

Exemple 2.11 E = Mn (R), F = G = Rn et lapplication qui a


` (A, x)
E F associe Ax.
Exemple 2.12 E0 R-ev quelconque, E = F = G = L(E0 ) et lapplication
qui a
` (u, v) E F associe u v.
Lorsque E, F et G sont munies de normes respectives k.kE , k.kF , et k.kG ,
on peut sinteresser a` la continuite des elements de L2 (E F, G). On note
L2,c (E F, G) lensemble des elements continus de L2 (E F, G). Notons que
L2,c (E F, G) est un sev de L2,c (E F, G). On a alors la caracterisation:
Th
eor`
eme 2.9 Soit (E, k.kE ), (F, k.kF ) et (G, k.kG ) trois e.v.n, et a
L2 (E F, G), les assertions suivantes sont equivalentes:
1. a L2,c (E F, G),
2. il existe une constante M 0 tq ka(x, y)kG M kxkE kykF , (x, y)
E F.
Preuve:
Adapter la preuve du theor`eme 2.6.
2
Lorsque E et F sont de dimension finie, on a simplement:
Th
eor`
eme 2.10 Soit (E, k.kE ), (F, k.kF ) et (G, k.kG ) trois e.v.n. Si E et
F sont de dimension finie alors L2 (E F, G) = L2,c (E, F ).
Preuve:
Adapter la preuve du theor`eme 2.10. 2
Th
eor`
eme 2.11 Soit (E, k.kE ), (F, k.kF ) et (G, k.kG ) trois e.v.n

41

1. Sur L2,c (E F, G) lapplication:


a 7 kakL2,c (EF,G) := sup{ka(x, y)kG : kxkE 1, kykF 1}
definit une norme.
2. Si (G, k.kG ) est un espace de Banach, L2,c (E F, G) muni de la norme
definie precedemment est un espace de Banach.
Preuve:
Adapter la preuve du theor`eme 2.8. 2
Noter que si a L2,c (E F, G), on a:
ka(x, y)kG kakL2,c (EF,G) kxkE kykF (x, y) E F.

2.6.3

(2.26)

A useful isomorphism

Nous allons voir ici que lon peut identifier L(E, L(F, G)) (respectivement
Lc (E, Lc (F, G))) a` L2 (E F, G) (respectivement L2,c (E F, G)). Cette
identification est particuli`erement utile en calcul differentiel d`es lors que lon
consid`ere des differentielles dordre 2 ou plus.
Plus precisement, soit v L(E, L(F, G)) et definissons pour tout (x, y)
E F:
av (x, y) := (v(x))(y)
il est immediat de verifier que av est bilineaire: av L2 (E F, G). Soit alors
lapplication:

L(E, L(F, G)) L2 (E F, G)
:
v
7
av
Il est clair que est lineaire (donc si on veut absolument utiliser des notations, L(L(E, L(F, G)), L2 (E F, G))).
Soit maintenant a L2 (E F, G), alors pour tout x E, lapplication
a(x, .) appartient a` L(F, G) (a(x, .)(y) := a(x, y) pour tout y F ). Par
ailleurs par bilinearite on a pour tout (x1 , x2 , ) E 2 F :
a(x1 + x2 , .) = a(x1 , .) + a(x2 , .).
Ce qui signifie que lapplication:

E
L(F, G)
Aa :
x 7 Aa (x) := a(x, .)
42

appartient a` L(E, L(F, G)). Soit maintenant



L2 (E F, G) L(E, L(F, G))
:
a
7
Aa
Soit a L2 (E F, G) et (x, y) E F on a:
( )(a)(x, y) = (Aa (x))(y) = a(x, y)
a, x et y etant arbitraire on a donc
= id sur L2 (E F, G)
= id sur L(E, L(F, G)).
Autrement dit est un isomorphisme et est linverse de . Lisomorphisme
permet donc bien didentifier L(E, L(F, G)) a` L2 (EF, G). Lidentification
precedente est purement algebrique. Supposons maintenant que E, F et G
sont munies de normes respectives k.kE , k.kF , et k.kG . On a alors
Th
eor`
eme 2.12 Soit et definis comme precedemment, on a alors:
1. Soit v L(E, L(F, G)) alors on a:
v Lc (E, Lc (F, G)) (v) L2,c (E F, G).
2. Pour tout v Lc (E, Lc (F, G)), on a:
kvkLc (E,Lc (F,G)) = k(v)kL2,c (EF,G)
Preuve:
Par definition, (v) L2,c (E F, G) ssi il existe M 0 tel que
kv(x)(y)kG M kxkE kykF (x, y) E F.
Ceci equivaut a`: il existe M 0 tel que
x E, v(x) Lc (F, G) et kv(x)kLc (F,G) M kxkE
ce qui signifie exactement que v Lc (E, Lc (F, G)).
Soit v Lc (E, Lc (F, G)), on a:
k(v)kL2,c (EF,G) = sup{k(v(x))(y)kG : kxkE 1, kykF 1}
= sup{kv(x)kLc (F,G) : kxkE 1} = kvkLc (E,Lc (F,G))
2
Le theor`eme 2.12 exprime donc non seulement que Lc (E, Lc (F, G))) et
L2,c (E F, G) sont isomorphes mais en plus isometriques ( est une isometrie
de Lc (E, Lc (F, G)) dans L2,c (E F, G), ces espaces etant munis de leur norme
naturelle).
43

2.6.4

Linear maps in Banach Spaces

In Banach spaces, there are additional properties that follow from Baires
Theorem. The first one is the Banach-Steinhaus theorem, or principle of
uniform boundedness:
Theorem 2.1 Let E be a Banach Space and F be a normed vector space
and let (fi )iI be a family of Lc (E, F ). If,
x E, sup kfi (x)kF < +
iI

then
sup kfi kLc (E,F ) < +.
iI

Proof:
Set En := {x E : kfi (x)kF n i I}, then each En is closed and by
assumption n En = E. It then follows from Baires theorem that En0 has
nonempty interior for some n0 and then there exists r > 0 and x0 E such
that
kfi (x0 + ru)kF n0 , i E, u B E (0, 1)
so that for all u B E (0, 1) and all j I, one has


1
n0 + sup kfi (x0 )kF .
kfj (u)kF
r
iI
2
Another consequence of Baires Theorem is the following open mapping
principle:
Theorem 2.2 Let E and F be two Banach Spaces and f Lc (E, F ) be
continuous and surjective. Then f is an open mapping in the sense that
f (U ) is open in F for every U open in E.
Proof:
Due to the linearity of f it is enough to prove that there exists r0 > 0 such
that BF (0, r0 ) f (BE (0, 1)). Let Fn := nf (BE (0, 1)), since f is surjective, F = n Fn and it follows from Baires Theorem that there exists n0
such that Fn0 has nonempty interior. There exists then y0 E and > 0
such that BF (y0 , ) f (BE (0, n0 )), by linearity, we also have BF (y0 , )
f (BE (0, n0 )) and then BF (0, ) = y0 + BF (y0 , ) f (BE (0, 2n0 )). By
homogeneity, we then have BF (0, r) f (BE (0, 1)) with r = /2n0 .
44

Let us now prove that BF (0, r) f (B E (0, 2)). Let y BF (0, r), there
exists x1 BE (0, 1) such that y f (x1 ) BF (0, r/2), since BF (0, r/2)
f (BE (0, 1/2)), there exists x2 BE (0, 1/2) such that y f (x1 ) f (x2 )
BF (0, r/4). Iterating the argument, we find a sequence (xn )n in E such
that kxn kE 1/2n1 and ky f (x1 + .... + xn )kF r/2n for every n.
Since x1 + .... + xn is a Cauchy sequence, it converges to some x B E (0, 2)
and by continuity y = f (x), which proves that BF (0, r) f (B E (0, 2))
f (BE (0, 5/2)) and then BF (0, r0 ) f (BE (0, 1)) with r0 = 2r/5.
2
We deduce from the previous Theorem the following automatic continuity
result due to Banach:
Theorem 2.3 Let (E, k.kE ) and (F, k.kF ) be two Banach spaces and f
Lc (E, F ), if f is invertible then f 1 Lc (F, E).
We end this section by the following useful result
Theorem 2.4 Let E be a Banach space and let f Lc (E) be such that
kf kLc (E) < 1 then id + f is invertible with
(id + f )

(1)k f k

k=0

Proof:
Since Lc (E) is a Banach Space and kf kLc (E) < 1,
Sn :=

n
X

(1)k f k

k=0

converges. Moreover Sn (id + f ) = id + (1)n f n+1 , we thus get the desired


result by letting n tend to .
2

2.7

One has to be cautious in infinite dimensions

Il sagit dans ce paragraphe dattirer votre attention sur le fait que certaines
proprietes bien commodes des evn de dimension finie sont fausses en dimension infinie:

45

dans un evn de dimension infinie, un ferme borne nest pas automatiquement compact ou, ce qui revient au meme, il peut exister des suites
bornees sans sous-suite convergente,
en dimension infinie, toutes les normes ne sont pas equivalentes (je vous
renvoie a` lexemple 2.5),
en dimension infinie, le choix dune norme a de limportance: muni de
la norme uniforme C 0 ([0, 1], R) est un espace de Banach mais muni de la
norme k.k1 , il nest pas complet, comme nous allons le voir. Autrement
dit, en dimension infinie il nest pas automatique quun evn soit un
Banach.
Bref, un certain nombre de proprietes topologiques automatiques en dimension infinie (completude, compacite des fermes bornes, continuite des
applications lineaires...) sont en defaut d`es que lon passe a` la dimension
infinie.
Passons maintenant en revue quelques exemples.
Une suite born
ee sans valeur dadh
erence dans (Cb0 (R, R), k.k ):
Posons pour x R, f0 (x) := max(0, 1 |x|) et pour tout n N, fn (x) :=
f (x n). La suite (fn ) est bornee dans (Cb0 (R, R), k.k ), en effet: kfn k =
kf0 k = 1. Supposons par labsurde que la suite (fn ) admette une sous suite
(f(n) )n qui converge vers une limite f dans (Cb0 (R, R), k.k). Notons dabord
que fn = 0 sur ] , n 1] on doit donc avoir f = 0 sur ] , (n) 1]
pour tout n et donc f = 0 sur R. Mais si (f(n) ) converge vers 0 (dans
(Cb0 (R, R), k.k)), alors kf(n) k tend vers 0, ce qui est absurde puisque
kf(n) k = 1.
Une suite born
ee sans valeur dadh
erence dans (C 0 ([0, 1], R), k.k):
Soit pour tout n N et tout t [0, 1], fn (t) := t1/n . On a kfn k = 1
pour tout n. Supposons par labsurde quune sous-suite (f(n) )n converge vers
une limite f dans (C 0 ([0, 1], R), k.k). En particulier pour tout t [0, 1],
f(n) (t) converge vers f (t). Comme fn (0) = 0 pour tout n on doit alors avoir
f (0) = 0. Pour t ]0, 1], fn (t) converge vers 1 donc f (t) = 1 pour t ]0, 1]
mais avec f (0) = 0 ceci contredit la continuite supposee de f .
Une suite de Cauchy de (C 0 ([1, 1], k.k1 ) qui ne converge pas:
Pour n N et t [1, 1] definissons

1 si t [1, 1/n]
nt si t [1/n, 1/n]
fn (t) =

1
si t [1/n, 1]
46

Montrons dabord que (fn ) est de Cauchy dans (C 0 ([1, 1], k.k1 ). Pour
cela definissons la fonction (discontinue en 0):

1 si t [1, 0[
0
si t = 0
f (t) =

1
si t ]0, 1].
Un calcul immediat donne:
Z

ainsi pour tout p, q N on a:


Z
kfp fq k1

|fn f | =
1

|fp f | +
1

1
n

(2.27)

|fq f |
1

2
N

(2.28)

ce qui montre que la suite est de Cauchy.


Supposons par labsurde que (fn ) converge dans (C 0 ([1, 1], k.k1 ) vers
une limite g. Soit > 0, pour tout n 1/ on a fn = f sur [1, 1] \ [, ]
on a donc:
Z
kfn gk1
|f g|
[1,1]\[,]

en faisant n + on en deduit que f = g sur [1, 1] \ [, ] et comme


> 0 est quelconque on a f = g sur [1, 1]\{0} ce qui contredit la continuite
supposee de g.
Cet exemple montre que (C 0 ([1, 1], k.k1 ) nest pas un espace de Banach.
Exercice 2.6 Soit fn (t) = tn pour n N et t [0, 1]. Etudier la convergence simple, la convergence uniforme et la convergence en norme k.k 1 de la
suite (fn ) dans C 0 ([0, 1], R).
Montrer que (fn ) est de Cauchy dans (C 0 ([0, 1], R), k.k1 ). Conclure.
One has to be particularly cautious when dealing with compactness issues in infinite-dimensions. Indeed, the compactness of the closed unit ball
(and then of every set with nonempty interior) is ALWAYS false in infinite
dimensions as stated in the next result due to Riesz:
Theorem 2.5 Let E be a normed space then the closed unit ball of E, B is
compact if and only if E is finite dimensional.

47

Proof:
Let us assume that B is compact and let us prove that E is finite dimensional.
By the Bolzano-Weierstrass Theorem, since B is compact it can be covered
by finitely many balls of radius 1/2: B ki=1 B(xi , 1/2) for some x1 , ..., xk
in B. We shall prove that E = F with F the vector space spanned by
x1 , ..., xk . By homogeneity, it is enough to prove that B F . Let then
x B, there is some i0 {1, ...k} and 0 B such that x = xi0 + 0 /2.
Then there exists i1 {1, ...k} and 1 B such that 0 = xi1 + 1 /2 so that
x = xi1 + xi2 /2 + 1 /4. Iterating the argument, at step n, we can write
x = x i0 +

xi 1
xi
n
+ .... + nn + n+1 , with n B
2
2
2

for some indices il all in {1, ..., k}. Put differently, we have
x = yn +

xi
xi
n
, yn = xi0 + 1 + .... + nn F.
n+1
2
2
2

Since (yn ) is a Cauchy sequence in the finite-dimensional space F it converges


to some y F and then x F .
2

48

Chapter 3
Convexity
3.1

Convex sets and convex functions

In what follows, E will denote a real vector space. Let us recall the basic
definitions:
Definition 3.1 A subset C of E is convex if and only for every x and y in
C and every [0, 1], x + (1 )y C.
Basic examples of convex sets are subspaces, half spaces, balls etc... Let
us also remark that intersections or convex sets are convex.
Let us remark that an intersection of convex sets is convex. Let us also
remark that C is convex iff for every P
p N , every x1 , ...., xp C p and every
1 , ...., p such that each i 0 and pi=1 i = 1 one has
p
X

i xi C.

i=1

Pp
Any vector that can be written in the form
i=1 i xi with nonnegative
weights i that sum to 1 is called a convex combination of the vectors xi .
If A is a nonempty subset of E, the intersection of all convex sets containing A is the smallest convex set containing A, it is called the convex hull
of A and denoted co(A). It is easy to check that co(A) is the set of all convex
cobinations of elements of A:
( p
)
p
X
X
co(A) =
i = 1 .
i xi , p N , xi A, i 0,
i=1

i=1

In the case where E has finite dimension d, Caratheodorys Theorem


states that is enough to consider convex combinations of d + 1 points:
49

Theorem 3.1 If dim(E) = d and A is a nonempty subset of E, then


( d+1
)
d+1
X
X
co(A) =
i xi , xi A, i 0,
i = 1 .
i=1

i=1

We omit the proof of this result that we give only for the sake of completeness.
Definition 3.2 Let C a convex subset of E and f : C R, then f is said
to convex iff for all x and y in C and [0, 1], one has f (x + (1 y))
f (x) + (1 )f (y). One says that f is concave if f is convex.
Note that f is a convex function iff its epigraph
Epi(f ) := {(x, ) C R : f (x) }
is a convex subset of E R.
Note also thatPf is convex in C iff for every p N , x1 , ...., xp in C and
i 0 such that pi=1 i = 1, one has:
!
p
p
X
X
i f (xi ).
f
i xi
i=1

i=1

Functions whose sublevels are convex are called quasiconvex:


Definition 3.3 Let C be a convex subset of E and f : C R, then f is
said to be quasiconvex iff for all R, the set {x C : f (x) }, it is
quasiconcave if f is quasiconvex.
Quasiconcave functions are widely used in economics (where the convexity of indifference curves is a widely used assumption). Note that f is
quasiconvex iff for every x and y in C and every [0, 1], one has:
f (x + (1 )y) max(f (x), f (y))
Of course convex functions are quasiconvex but the converse is not true
(for instance f (x) = x3 is quasiconvex on R). On R, a function is quasiconvex iff it is monotone or unimodal (that is, nonincreasing on some half line
(, a] and nondecreasing on the [a, +)). In optimization, the interest of
quasiconvex functions comes from the fact that the set where a quasiconvex
function achieves its minimum is convex.

50

3.2

Projection on a closed convex set of a


Hilbert space

Theorem 3.2 Let (H, h., .i) be a Hilbert space and C be a nonempty closed convex subset
of H. For every x H, there exists a unique element of C called projection
of x on C and denoted pC (x) s.t.:
kx pC (x)k = inf{kx yk , y C}.
Moreover pC (x) is characterized by: pC (x) C and the variational inequalities:
hx pC (x), y pC (x)i 0, y C.

(3.1)

Proof:
Let us denote d2 (x, C) the squared distance of x to C:
d2 (x, C) := inf{kx yk2 , y C}.
Let us recall the following parallelogram identity:
k

u+v 2 1
uv 2
k +k
k = (ku2 k + kvk2 ) , (u, v) H 2 .
2
2
2

(3.2)

Uniqueness
Suppose y1 and y2 belong to C and satisfy:
kx y1 k2 = kx y2 k2 = d2 (x, C).

(3.3)

We have (y1 + y2 )/2 C since C is convex, and then


kx (y1 + y2 )/2k2 d2 (x, C).

(3.4)

Applying (3.2) to u = (x y1 ) and v = (x y2 ) and using (3.3) and (3.4),


we get:
1
d2 (x, C) = (kx y1 k2 + kx y2 k2 )
2
= kx (y1 + y2 )/2k2 + k(y1 y2 )/2k2 d2 (x, C) + k(y1 y2 )/2k2
so that y1 = y2 .
Existence
51

(3.5)

For n N , let yn C be such that:


kx yn k2 d2 (x, C) + 1/n2

(3.6)

Identity (3.2) applied to u = (x yp ) and v = (x yq ) gives


1
(kx yp k2 + kx yq k2 ) = kx (yp + yq )/2k2 + k(yp yq )/2k2 .
2

(3.7)

Since (yp yq )/2 C, we have:


kx (yp + yq )/2k2 d2 (x, C).

(3.8)

From (3.6), (3.7) and (3.8), we thus get


k(yp yq )k2

1
1
+ 2.
2
2p
2q

(3.9)

It follows from (3.9) that (yn ) is a Cauchy sequence thus converges to some
limit denoted pC (x). Since C is closed, pC (x) C and passing to the limit
in (3.6) yields kx pC (x)k2 = d2 (x, C).
Variational characterization
Let y C and t [0, 1], since (1 t)pC (x) + ty C, we have
kx pC (x)k2 kx ((1 t)pC (x) + ty)k2 = kx pC (x) t(y pC (x))k2
= kx pC (x)k2 + t2 ky pC (x))k2 2t hx pC (x), y pC (x)i
(3.10)
Dividing by t and letting t go to 0+ we deduce that pC (x) satisfies (3.1).
Conversely, assume that z C satisfies:
hx z, y zi 0, y C.

(3.11)

Let y C, then we have


kx yk2 = kx zk2 + kz yk2 + 2 hx z, z yi kx zk2
which proves that z = pC (x).
2
Une premi`ere propriete de la projection sur un convexe ferme est donnee
par:

52

Proposition 3.1 Under the same assumptions and notations as in Theorem


3.2, for all (x, y) H 2 , one has:
hx y, pC (x) pC (y)i 0 and kpC (x) pC (y)k kx yk

(3.12)

In particular pC is 1-Lipschitz continuous.


Proof:
Using the variational inequalities characterizing pC (x) and pC (y), we have:
hx pC (x), pC (y) pC (x)i 0 et hy pC (y), pC (x) pC (y)i 0.
Summing these inequalities and using Cauchy-Schwarz inequality yields
kpC (x)pC (y)k2 hpC (x) pC (y), x yi kpC (x)pC (y)kkxyk (3.13)
which proves (3.12).
2
An important special case is when C is a closed subspace of H. In this
case, pC is linear (and continuous thanks to (3.12)): it is the orthogonal
projection on C.
Proposition 3.2 Let C be a closed subspace of the Hilbert space (H, h., .i).
Defining pC as in theorem 3.2, for x H, pC (x) is characterized by:
pC (x) C and (x pC (x)) C .
Moreover, pC Lc (H, C) and pC is called the ortogonal projection on C.
Proof:
If z C and x z C then for every y C we have hx z, y zi = 0 so
that z satisfies (3.1). Conversely (3.1) implies that hx pC (x), y pC (x)i
0 for all y C, taking y = 2pC (x) and y = pC (x)/2 we get hx pC (x), pC (x)i =
0 and then hx pC (x), yi 0 for all y C, since C is a subspace, we deduce
that (x pC (x)) C . Finally, it remains to prove that pC is linear, for x1 ,
x2 in H and t R, set x = x1 + tx2 and z = pC (x1 ) + tpC (x2 ), we have z C
and (x z) C so that z = pC (x). 2
Une consequence importante du theor`eme de projection est que lon peut
identifier un Hilbert a` son dual topologique. Cest lobjet du theor`eme de
representation de Riesz:
Th
eor`
eme 3.1 Soit (H, h., .i) un espace de Hilbert, et f H 0 alors il existe
un unique x H tel que:
f (u) = hx, ui , u H.
53

(3.14)

Preuve:
Lunicite est evidente et laissee au lecteur. Si f = 0, on prend x = 0,
supposons donc f 6= 0, dans ce cas F := ker(f ) est un hyperplan ferme
de H. Soit x0 H tel que f (x0 ) = 1. En appliquant la proposition 3.2,
definissons y0 la projection orthogonale de x0 sur F , on a alors x0 6= y0
puisque x0
/ F et y0 est caracterise par:
y0 F = ker(f ), et (x0 y0 ) F .

(3.15)

en particulier, comme hx0 y0 , y0 i = 0 on a:


hx0 y0 , x0 i = kx0 y0 k2 6= 0

(3.16)

x0 y 0
x0 y 0
=
2
kx0 y0 k
hx0 y0 , x0 i

(3.17)

Definissons alors:
x :=

dapr`es (3.15), x F et donc pour u F on a f (u) = hx, ui = 0. Par


ailleurs:
hx0 y0 , x0 i
= 1 = f (x0 ).
hx, x0 i =
hx0 y0 , x0 i
On conclut que (3.14) est vraie car F Rx0 = H.
2
Remarque. Notons xf la solution de:
hx, ui = f (u), u H.
Et considerons lapplication T de H dans H 0 qui a` f associe xf . Il est facile
de voir que T Lc (H, H 0 ) et que T est un isomorphisme. On a meme mieux
(le demontrer en exercice) : T est une isometrie
kT (f )k = kf kH 0 , f H 0 .

3.3

Separation of convex sets

Th
eor`
eme 3.2 Soit (H, h., .i un espace de Hilbert, x0 H, C un convexe ferme
tel que x0
/ C, alors il existe p H, p 6= 0 et > 0 tels que
hp, x0 i hp, yi , y C.

54

(3.18)

Preuve:
Posons K := C x0 = {y x0 , y C}, K est un convexe ferme et 0
/ K.
Soit p := pK (0) la projection de 0 sur K, comme O
/ K on a p 6= 0, par
ailleurs p verifie les inequations variationnelles:

(h0 p, z pi 0, z K) hp, zi kpk2 > 0, z K .
(3.19)
De (3.19) et K = C x0 , il vient donc:

hp, yi hp, x0 i + kpk2 , y C.

(3.20)

2
Il faut bien comprendre geometriquement ce que signifie le theor`eme
precedent: la separation de x0 et C exprime le fait que x0 et C se situent de
part et dautre dun hyperplan affine (parall`ele a` p ) cest a` dire dans deux
demi-espaces distincts. Le theor`eme precedent est un resultat de separation
stricte (presence du > 0), autrement dit C est inclus dans le demi-espace
ouvert {x H : hp, x x0 i > /2} tandis que x0 est evidemment dans
{x H : hp, x x0 i < /2}.
Remarque. La convexite de C est une hypoth`ese fondamentale : dans R2
/ C et on ne peut pas
soit C = B((0, 0), 1) \ B((0, 1), 1/2), x0 := (0, 3/4)
separer x0 de C.
Soit A et B deux parties non vides dun ev, lensemble A B est defini
par:
A B := {a b, (a, b) A B}.
Lemme 3.1 Soit (H, h., .i) un espace de Hilbert, A et B deux parties non
vides de H. On a:
1. Si A et B sont convexes, alors A B est convexe,
2. Si A est compact et B est ferme, alors A B est ferme.
Preuve:
La preuve de lassertion 1. est immediate et laissee au lecteur. Prouvons 2.,
supposons que la suite xn = an bn ((an , bn ) AB) converge vers une limite
x. Comme A est compact, (an ) admet une sous suite (a(n) ) qui converge
vers un element a de A. On en deduit que b(n) = a(n) x(n) converge vers
a x, comme B est ferme b := a x est dans B donc x A B.
2

55

Remarque. Pour A et B seulement fermes on na pas en general A B


ferme. Dans R2 soit A := R+ {0} et B := {(x, y) R2 : x 1, y 1/x} A
et B sont deux convexes fermes et (0, 0)
/ A B. En considerant an = (n, 0)
et bn = (n, 1/n) il est facile de voir que (0, 0) (A B).
Th
eor`
eme 3.3 Soit (H, h., .i) un espace de Hilbert, K un convexe compact
et C un convexe ferme de H tels que K C = , alors il existe p H, p 6= 0
et > 0 tels que
hp, yi hp, xi , (x, y) K C.

(3.21)

Preuve:
Posons D := K C, D est un convexe ferme de H dapr`es le lemme 3.1 et
0
/ D puisque K C = . En appliquant le theor`eme 3.2, on peut separer
(strictement) 0 de D et donc il existe p H, p 6= 0 et > 0 tels que
0 hp, zi , z D.

(3.22)

Cest a` dire, par definition de D:


hp, yi hp, xi , (x, y) K C.

(3.23)

2
Remarque. Il existe des theor`emes de separation valables dans des cadres
beaucoup plus generaux que celui des espaces de Hilbert. Les ingredients de
demonstration sont cependant plus delicats et depassent le cadre de ce cours.

3.4

The Farkas-Minkowksi Lemma

Rappelons quune partie K dun R-ev E est un cone ssi:


(t, x) R+ K, tx K.
Nous aurons dabord besoin du lemme suivant:
Lemme 3.2 Soit E un evn, q N et (a1 , ...., aq ) E q et soit :
( q
)
X
i ai , (1 , ...., q ) Rq+
K :=
i=1

Alors K est un c
one convexe ferme de E.
56

Preuve:
Le fait que K soit un cone convexe est evident. Pour montrer quil est ferme,
faisons une recurrence sur q. Pour q = 1, le resultat est evident. Faisons
donc lhypoth`ese au rang q 1 que pour tout (a1 , ..., aq ) E q , le cone:
)
( q
X
i ai , (1 , ...., q ) Rq+
i=1

est ferme. Soit maintenant, (a1 , ..., aq+1 ) E q+1 , il sagit de montrer que le
cone:
( q+1
)
X
q+1
K :=
i ai , (1 , ...., q+1 ) R+
i=1

est ferme. Considerons dabord le cas, o`


u ai K pour i = 1, ..., q + 1, dans
ce cas K est le sev engendre par les vecteurs (a1 , ...., aq+1 ), K est donc un
sev de dimension finie de E, il est par consequent ferme (sen convaincre!).
Supposons maintenant quil existe i {1, ..., q + 1} tel que ai
/ K, quitte
a` permuter les indices nous pouvons supposer
aq+1
/ K.

(3.24)

Montrons que K est ferme. Rappelons dabord que par hypoth`ese de recurrence
le cone suivant est ferme:
)
( q
X
.
i ai , (1 , ...., q+1 ) Rq+1
K0 :=
+
i=1

Soit yn K convergeant dans E vers y, il sagit de montrer que y K.


Pour tout n N il existe i,n 0, i = 1, ..., q et n 0 tel que:
yn =

q
X

i,n ai + n aq+1 = zn + n aq+1

i=1

(3.25)

P
( zn := qi=1 i,n ai K0 ). Montrons que n est bornee : sinon il existerait
une sous suite que nous noterons encore n tendant vers +, en divisant
(3.25) par n , en passant a` la limite, et en utilisant le fait que K0 est ferme,
on obtiendrait:
zn
aq+1 = lim
K0
n n
ce qui contredirait (3.24). Comme n bornee on peut, a` une sous-suite pr`es,
supposer que n converge vers 0. Comme yn = zn +n aq+1 converge vers
y on en deduit que zn converge vers z = y aq+1 , en utilisant a` nouveau
que K0 est ferme on a z K0 et donc y = z + aq+1 appartient a` K.
2
Le lemme de Farkas senonce comme suit:
57

Proposition 3.3 Soit (H, h., .i) un espace de Hilbert, q N et (a, a1 , ...., aq )
H q+1 , alors les proprietes suivantes sont equivalentes:
1. pour tout x H, si hai , xi 0 pour i = 1, ..., q alors ha, xi 0,
P
2. il existe (1 , ...., q ) Rq+ tels que a = qi=1 i ai .

Preuve:
Limplication 2. 1. est evidente. Remarquons que 2. signifie simplement
que a K avec
)
( q
X
q
i ai , (1 , ...., q ) R+ .
K :=
i=1

Supposons que 1. est satisfaite et a


/ K. En vertu du lemme 3.2 K est
convexe ferme: on peut donc separer strictement a de K. Il existe donc
x H et > 0 tel que:
sup hp, xi ha, xi .

(3.26)

pK

Soit p K comme tp K pour tout t > 0, (3.26) implique en particulier:


sup t hp, xi < +
t>0

ce qui implique donc hp, xi 0 pour tout p K. Comme 0 K, il vient


donc:
sup hp, xi = 0
pK

En reportant dans (3.26), on a donc:


sup hp, xi = 0 ha, xi .

(3.27)

pK

Ceci implique enfin que hai , xi 0 pour i = 1, ..., q et ha, xi > 0 ce qui
contredit 1.. 2
Une consequence immediate du lemme de Farkas est la variante suivante:
Corollaire 3.1 Soit (H, h., .i) un espace de Hilbert, (p, q) N N et
(a1 , ...., ap , ap+1 , ..., ap+q , a) H p+q+1 , alors les proprietes suivantes sont equivalentes:
1. pour tout x H, si hai , xi 0 pour i = 1, ..., p et hai , xi = 0 pour
i = p + 1, ..., p + q alors ha, xi 0,
P
2. il existe (1 , ...., p ) Rp+ et (p+1 , ...., p+q ) Rq tels que a = p+q
i=1 i ai .
58

Chapter 4
Fixed-point theorems
4.1

Preliminaries
d

Let us denote by B the closed (euclidean) unit ball of Rd and S d1 its


boundary i.e the unit sphere of Rd . Let us start with the following theorem
d
which states that there is no C 1 retraction of B . The proof uses results from
differential calculus, in particular the inverse function theorem (see chapter
7), that will be proven later on.
d

Theorem 4.1 There does not exist any C 1 map f : B S d1 such that
f (x) = x for all x S d1 .
Proof:
d
Assume by contradiction that f : B S d1 is C 1 and such that f (x) = x
for all x S d1 . For t (0, 1) and x B, let us set
ft (x) := (1 t)x + tf (x).
d

By convexity, we have ft (B ) B . Moreover, f is M -Lipschitz with M =


supxB d kf 0 (x)k and ft0 id = t(f 0 id). Thus choosing t (0, t0 ) with
t0 = (1 + M )1 ) and invoking Theorem 2.4, we have that ft0 (x) is invertible
for every x B d . In particular, by the inverse function theorem, for every
x B d , ft is a C 1 -diffeomorphism from some neighbourhood of x to some
neighbourhood of ft (x). By theorem 7.1, we also deduce that ft (B d ) is open.
d
Let x and y be in B , we have
kft (x) ft (y)k = k(1 t)(x y) + t(f (x) f (y))k ((1 t) tM )kx yk
and since 1 > t(1+M ), we deduce that ft is injective. Therefore, by Theorem
7.1, ft is a C 1 diffeomorphism from B d to ft (B d ) B d . Let us now prove that
59

ft (B d ) = B d , assume by contradiction that there exists some y B d \ ft (B d )


and let z ft (B d ), since ft (B d ) is open, y := z + (y z) ft (B d ) for > 0
small enough. Now let us set
:= sup{ [0, 1] : y ft (B d )}, y := y .
d

It is clear that y ft (B ) let us prove that y ft (B d ). If not one would


have y = ft (x) with x S d1 and since ft (x) = x for x S d1 we would have
y = x S d1 contradicting the fact that (z, y] is included in B d . If < 1,
since ft (B d ) is a neighbourhood of y in particular y ft (B d ) for >
close to contradicting the maximality of . Hence y = y ft (B d ). We
thus have proved that for every t (0, t0 ), ft is a C 1 diffeomorphism of B d
into itself. Now let us define for every t [0, 1]:
Z
P (t) =
det(Dft (x))dx
Bd

Since ft is linear in t, P (t) is a polynomial function of t. For t (0, t0 ), by the


change of variables formula, P (t) is the Lebesgue measure of ft (B d ) = B d ,
P (t) is therefore constant on (0, t0 ), and then
Z
P (1) =
det(Df (x))dx = P (0) > 0.
Bd

But det Df (x) = 0 everywhere, since otherwise, by the inverse function


theorem, f (B d ) would have nonempty interior contradicting the fact that
f (B d ) S d1 . 2

4.2

Brouwer, Kakutani and Schauder Theorems

In this subsection, we shall state three very important fixed-point theorems.


These theorems are very useful tools in economics (and more generally in
nonlinear analysis) to prove existence results. Let us start with Brouwers
fixed-point theorem:
Theorem 4.2 Let C be a convex compact subset of Rd and f : C C be
continuous, then f possesses (at least) a fixed point: there exists x C such
that f (x) = x.
Proof:
d
We will prove the result in the case C = B and will deduce the result
60

for any C that is homeomorphic to B for some d (we leave as an exercise


the proof of the fact that if C is a convex compact subset of Rn then it is
d
homeomorphic to B with d the dimension of the affine space spanned by
d
C). Indeed assume that is some homeorphism from C to B and f is a
d
continuous map from C into itself, then g = f 1 is continuous from B
d
to itself and thus possesses a fixed point : x B such that x = (f (1 (x))
and then y = 1 (x) is a fixed point of f .
d

Now let us assume that f is a continuous function from B into itself and
let us assume by contradiction that f has no fixed point so that
d

inf{kx f (x)k, x B } > 0.

(4.1)

Since (4.1) continues to hold for functions that are uniformly sufficiently close
to f and by a suitable regularization argument (by convolution say) we may
d
d
assume that in addition f C 1 (B ). Now for all x B let g(x) be the
intersection of S d1 with the half-line {x + (f (x) x), 0}. Because
of (4.1), g is well-defined and easily seen to be seen to be C 1 . Moreover, by
d
construction, g maps B into S d1 and g(x) = x for every x S d1 , which,
thanks to Theorem 4.1, yields the desired contradiction. 2
One can deduce from Brouwers fixed point Theorem two important generalizations: an extension to infinite dimensions (Schauders Theorem) and
an extension to set-valued maps (Kakutanis Theorem). Schauders theorem
reads as:
Theorem 4.3 Let C be a closed and bounded convex subset of some Banach
space E and f : C C be continuous and such that f (C) is relatively
compact (i.e. has compact closure), then f possesses (at least) a fixed point:
there exists x C such that f (x) = x.
Proof:
Since f (C) is relatively compact, for every > 0, it can be covered by finitely

many balls of radius : f (C) N


i=1 B(f (xi ), ) for some xi in C. Now let

E be the suspace of E spanned by {f (x1 ), ..., f (xN )}. Let us denote by


B c (f (xi ), ) the complement of B(f (xi ), ) and set for every x C and i:
d(f (x), B c (f (xi ), ))
i (x) := PN

c
j=1 d(f (x), B (f (xj ), ))

so that i (x) > 0 iff f (x) B(f (xi ), ). Now let C := C E and for every
x C , let us set
N
X
i (x)f (xi )
f (x) :=
i=1

61

by convexity of C, we have f (C ) C and f is obviously continuous


on C . Since E is finite dimensional, and C is convex and compact in E ,
Brouwers Theorem gives the existence of some x C such that x = f (x ).
By construction for every , x belongs to the closed convex hull of f (C),
co(f (C)) (that is the smallest closed convex set containing f (C) or, put
differently, the closure of co(f (C))). By Lemma 4.1, co(f (C)) is compact,
taking = 1/n, xn := xn we may therefore assume that xn converges to
some x co(f (C)) C. Now we claim that x is a fixed-point of f . Indeed
for every n, we have
f (x) fn (xn ) =

Nn
X

in (xn )(f (x) f (xn ) + f (xn ) f (xi n ))

(4.2)

i=1

In the previous sum, there are only terms such that kf (xn ) f (xi n )k < n ,
so that
kf (x) fn (xn )k kf (x) f (xn )k + n .
This proves that fn (xn ) converges to f (x). We thus deduce that f (x) = x
by passing to the limit in the relation fn (xn ) = xn .
2
In the previous proof we have used the following Lemma.
Lemme 4.1 Let E be a Banach space and let K be a relatively compact
subset of E, then co(K) is compact.
Proof:
By Theorem 1.2, it is enough to prove that co(K) is precompact (it is complete since it is closed and E is a Banach space). Let > 0, we have
to prove that co(K) can be covered by finitely many balls of radius .
Since K is relatively compact, there exist p and x1 , ..., xp in K such that
K pi=1 B(xi , /3). Let C := co{x1 , ..., xp }, C is actually compact hence
there is some l and some y1 , ...., yl in C such that C lj=1 B(yj , /3). Now
let z co(K), i.e.
m
X
z=
k a k
k=1

for some ak in K and nonnegative weights k summing to 1. Each ak can be


written as

ak = xik + vk , for some ik {1, ...., p}, and vk B(0, 1).


3

62

We then have
m

m
X

k vk B(0, 1).
z=
k xik + v, v :=
3
k=1
k=1
Now we remark that
x=

m
X

k xi k C

k=1

so that there is some j such that x B(yj , /3) and then z B(yj , 2/3).
This proves that co(K) lj=1 B(yj , 2/3) and then co(K) lj=1 B(yj , ).
2
Kakutanis theorem, stated below, gives sufficient conditions for a setvalued map to have a fixed-point:
Theorem 4.4 Let C be a convex compact subset of Rd and F : C 2C
be a convex-valued set-valued map with a closed graph then F possesses (at
least) a fixed point: there exists x C such that x F (x).
Proof:
Since C is compact, for every > 0, C can be covered by finitely many balls

of radius , C N
i=1 B(xi , ) with xi in C. Let us denote by B (xi , ) the
complement of B(xi , ) and set for every x C and i:
d(x, B c (xi , ))
i (x) := PN
c
j=1 d(x, B (xj , ))

so that i (x) > 0 iff x B(xi , ). Now let yi F (xi ) and set
f (x) :=

N
X

i (x)yi , x C.

i=1

Since C is convex, the continuous function f maps C into C. By Brouwers


Theorem, f admits a fixed-point x . Since C is compact, setting n = 1/n
and xn = xn , we may assume that xn converges to some x C. Let us
prove now that x F (x). Assume by contradiction that x
/ F (x), since
F (x) is convex and compact, the separation Theorem gives the existence of
a p Rd , p 6= 0 and an R such that
p x < < inf p y.
yF (x)

(4.3)

We claim, that there is some r > 0 such that for every x B(x, r), one has
p x < < inf p y.
yF (x)

63

(4.4)

Because otherwise, there would exist a sequence zn converging to x and


yn F (xn ) such that for every n
p yn
Since C is compact and F has a closed graph, there is some (not relabeled)
subsequence of (zn , yn ) converging to x, y with y F (x), one would then
have
py
a contradiction with (4.3). Now, we remark that
X
xn =
in (xn )yin
i : d(xn ,xi n )<n

choosing n large enough so that d(xn , x) < r/2 and n < r/2, all the indices
in the previous sum are such that xi n B(x, r). Taking the inner product
with p we have
X
p xn =
in (xn )p yin .
i : d(xn ,xi n )<n

For n large enough, with (4.4), the right hand side of the previous equality
is larger than which contradicts the fact that the left hand side converges
to p x < .
2

4.3

Existence of Nash equilibria

Let us consider N players indexed by i = 1, ..., N . For each i, Ki denotes


player is strategy set (assumed to be a convex compact subset of some finitedimensional space) and we set K := N
i=1 Ki . Each player is characterized
by a payoff function ui : K R, we typically denote by xi Ki player
is strategy and by xi Ki := j6=i Kj the other palyers strategies. We
further assume that each ui is continuous on K and that for each xi i ,
ui (., xi ): x Ki ui (xi , xi ) is quasi-concave.
Nash equilibria are then defined as follows
Definition 4.1 A Nash equilibrium is an x = (x1 , ...., xN ) K such that
for every player i
ui (xi , xi ) = max ui (x, xi ).
xKi

64

Now, let us define for each x K, the Best-Reply set of x:


BR(x) = (BR1 (x1 ) ..... BRN (xN ))
where BRi (x) denotes the set of best replies to xi :
BRi (xi ) = {x Ki : ui (x, xi ) ui (y, xi ), y Ki }.
This defines the Best-Reply set-valued map BR : K 2K . Clearly, Nashequilibria are exactly fixed-points of the Best-Reply map. Moreover, our
assumptions ensure that BR is a nonempty convex-compact valued map with
a closed graph, it then admits a fixed-point as a consequence of Kakutanis
Theorem. We thus have proved
Theorem 4.5 Under the assumptions of this paragraph, there exists at least
one Nash equilibrium.

65

Part II
Differential calculus

66

Chapter 5
First-order differential calculus
5.1

Several notions of differentiability

Dans ce qui suit on se donne (E, k.kE ) et (F, k.kF ) deux R-evn, un ouvert
de E et f une application definie sur a` valeurs dans F . Si x alors il
existe r > 0 tel que B(x, r) en particulier si h E et t R est assez
petit (tel que |t|khkE < r) alors x + th . On a alors une premi`ere notion
de derivabilite : celle de derivabilite dans la direction h:
D
efinition 5.1 Soit x et h E, on dit que f est derivable en x dans la
direction h ssi la limite suivante existe (au sens de la topologie de (F, k.k F )):
1
lim
(f (x + th) f (x)).
t0, t6=0 t
Si cette limite existe, on lappelle derivee directionnelle de f en x dans la
direction h et on la note Df (x; h).
Notons que f est derivable en x dans la direction h ssi les limites (`a droite
et a` gauche) suivantes (au sens de la topologie de (F, k.kF )):
1
1
lim+ (f (x + th) f (x)) et lim (f (x + th) f (x)).
t0 t
t0 t
existent et sont egales. Ceci conduit a` la definition:
D
efinition 5.2 Soit x et h E, on dit que f est derivable a
` droite en
x dans la direction h ssi la limite suivante existe (au sens de la topologie de
(F, k.kF )):
1
lim+ (f (x + th) f (x)).
t0 t
Si cette limite existe, on lappelle derivee a
` droite de f en x dans la direction
h et on la note D + f (x; h).
67

En remarquant que si f est derivable a` droite en x dans la direction h alors:


1
D + f (x; h) = lim (f (x + th) f (x))
t0 t
nous en deduisons que f est derivable en x dans la direction h ssi f est
derivable a` droite en x dans les directions h et h et:
D + f (x; h) = D + f (x; h).
Trois exercices (tr`es) faciles, avant daller plus loin:
Exercice 5.1 Montrer que Df (x; 0) existe (aucune hypoth`ese sur f ) et vaut
0.
Exercice 5.2 Montrer que si f est derivable a
` droite en x dans la direction
h, alors pour tout > 0, f est derivable a
` droite en x dans la direction h
et:
D + f (x; h) = D + f (x; h).
Exercice 5.3 Montrer que si f est derivable en x dans la direction h, alors
pour tout R, f est derivable en x dans la direction h et:
Df (x; h) = Df (x; h).
D
efinition 5.3 Soit x on dit que f est G
ateaux-derivable en x ssi f
admet une derivee directionnelle dans la direction h pour tout h E et
lapplication h 7 Df (x; h) est lineaire et continue. On note alors Df (x; h) :=
DG f (x)(h) et DG f (x) Lc (E, F ) sappelle la derivee au sens de G
ateaux
de f en x. On dit que f est G
ateaux derivable sur ssi f est G
ateauxdifferentiable en chaque point de x .
Remarque. La Gateaux differentiabilite est une notion assez faible qui
nentraine pas automatiquement la continuite. Pour sen persuader, on etudiera
avec profit le comportement au voisinage de 0 de la fonction f : R2 R
definie par

1
si
y = x2 et x 6= 0
f (x, y) =
0 sinon
Remarque. Le fait que les derivees directionnelles Df (x; h) existent h
E nimpliquent pas que f soit Gateaux-derivable en x. Pour sen persuader,
etudier la fonction f : R2 R definie par
(
0
si
(x, y) = (0, 0)
f (x, y) =
x3
sinon
x2 +|y|
68

Remarque. (importante) La definition de la Gateaux-differentiabilite depend


du choix des normes sur E et F . Il est cependant facile de voir que le choix de
normes equivalentes sur E et F conduit a` la meme definition. En particulier,
si E et F sont de dimension finie, le choix de normes particuli`eres est sans
incidence sur la definition 5.3.
Une notion plus forte est la notion de differentiabilite au sens de Frechet:
D
efinition 5.4 Soit x on dit que f est Frechet-derivable (ou simplement
derivable ou differentiable) en x ssi il existe L Lc (E, F ) et une fonction
definie sur un voisinage de 0 dans E et a
` valeurs dans F tels que:
f (x + h) = f (x) + L(h) + khkE (h) avec limh0 k(h)kF = 0.

(5.1)

Sous forme quantifiee, (5.1) signifie exactement : > 0, > 0 tel que
pour tout h E, on a:
khkE kf (x + h) f (x) L(h)kF khkE
Remarque. (importante) La definition de la (Frechet)-differentiabilite depend
du choix des normes sur E et F . Il est cependant facile de voir que le choix
de normes equivalentes sur E et F conduit a` la meme definition (sen convaincre a` titre dexercice facile). En particulier, si E et F sont de dimension
finie, le choix de normes particuli`eres est sans incidence sur la definition 5.4.
Remarque. Si f est derivable en x alors f est continue en x (noter la
difference avec la Gateaux differentiabilite).
On ecrit aussi usuellement (5.1) sous la forme synthetique:
f (x + h) = f (x) + L(h) + o(h)

(5.2)

la notation o(h) designant une fonction qui tend vers 0 (dans F ) plus vite
que h lorsque h tend vers 0 (dans E), cest a` dire:
ko(h)kF
= 0.
h6=0 khkE

lim

h0,

(5.3)

Remarque. Lorsque E est de dimension finie, en vertu du theor`eme 2.10


Lc (E, F ) = L(E, F ) et donc on peut omettre la condition L continue dans
la definition 5.4.
69

Lemme 5.1 Soit x sil existe L1 Lc (E, F ) et L2 Lc (E, F ) tels que:


f (x + h) = f (x) + L1 (h) + o(h) = f (x) + L2 (h) + o(h).
alors L1 = L2 .
Preuve:
On a (L1 L2 )h = o(h) donc pour > 0, il existe > 0 tel que pour tout
h B(0, ), on a:
k(L1 L2 )(h)kF khkE
et donc
kL1 L2 kLc (E,F )
comme > 0 est arbitraire, on en deduite L1 = L2 .
2
Le lemme precedent montre quil existe au plus un element L de Lc (E, F )
verifiant (5.2), ceci permet de definir la derivee (au sens de Frechet) de f en
x, f 0 (x) de mani`ere intrins`eque:
D
efinition 5.5 Soit x et f differentiable en x, on appelle differentielle
(ou derivee) de f en x, et lon note f 0 (x) lunique element de Lc (E, F )
verifiant:
f (x + h) = f (x) + f 0 (x)(h) + o(h).
On dit que f est differentiable sur ssi f est differentiable en chaque point
de x
Si f est differentiable en x alors f est Gateaux differentiable en x, admet
des derivees directionnelles dans toutes les directions, et:
f 0 (x) = DG f (x), Df (x; h) = f 0 (x)(h) h E.
Bien retenir que la derivee de f en x (quelle soit au sens Gateaux ou
Frechet) est une application lineaire continue de E vers F . Lorsque f est
differentiable sur (Gateaux ou Frechet), sa derivee (f 0 : x 7 f 0 (x) ou
DG f : x 7 DG f (x)) est donc une application definie sur a` valeurs dans
Lc (E, F ).
D
efinition 5.6 On dit que f est de classe C 1 sur (ce que lon note f
1
C (, F )) ssi f est differentiable sur et f 0 C 0 (, Lc (E, F )). On dit que
f (definie sur et a
` valeurs dans F ) est de classe C 1 sur (ce que lon
1
note f C (, F )) si et seulement sil existe un ouvert U de E contenant
et g C 1 (U, F ) tel que f = g sur .
70

On a alors le:
Th
eor`
eme 5.1 Si f est G
ateaux-differentiable sur et DG f C 0 (, Lc (E, F ))
alors f est de classe C 1 sur .
Nous prouverons ce resultat au chapitre suivant. Le theor`eme 5.1 est tr`es
utile car il permet de proceder comme suit pour montrer en pratique que f
est de classe C 1 :
Etape 1: On calcule Df (x; h) pour (x, h) E.
Etape 2: On montre que h 7 Df (x; h) est lineaire continue donc f
est Gateaux-differentiable en x et Df (x; h) = DG f (x)(h).
Etape 3: On montre que DG f : x 7 DG f (x) est continue de dans
Lc (E, F ).
Concernant les applications bijectives, on a les definitions:
D
efinition 5.7 Soit un ouvert de E, 0 un ouvert de F et f une bijection
de sur 0 on dit que:
f est un homeomorphisme de sur 0 si f C 0 (, 0 ) et f 1
C 0 (0 , ),
f est un C 1 -diffeomorphisme (ou diffeomorphisme de classe C 1 ) de
sur 0 si f C 1 (, 0 ) et f 1 C 1 (0 , ).
Lorsque lespace de depart E est un espace de Hilbert et que lespace
darrivee est R, alors la derivee etant une forme lineaire continue sur E, on
peut en utilisant le theor`eme de Riesz identifier la derivee a` un element de
E, cela conduit a` la notion de vecteur gradient:
D
efinition 5.8 Soit (E, h., .i) un espace de Hilbert, un ouvert de E, f
une application definie sur E a
` valeurs reelles et x . Si f est G
ateauxdifferentiable en x, on appelle gradient de f en x et lon note f (x) lunique
element de E tel que:
DG f (x)(h) = hf (x), hi pour tout h E.
Dans le cas particulier E = Rn (muni de son ps usuel), nous verrons par la
suite que le gradient de f en x est le vecteur forme par les derivees partielles
par rapport aux n coordonnees de f en x.
71

5.2

Calculus rules

Proposition 5.1 Soit f et g deux applications definies sur a


` valeurs dans
F et x , on a:
1. si f est constante au voisinage de x alors f est differentiable en x et
f 0 (x) = 0,
2. si f est differentiable en x, pour tout R, f est differentiable en x
et:
(f )0 (x) = f 0 (x)
3. Si f et g sont differentiables en x alors f + g aussi et:
(f + g)0 (x) = f 0 (x) + g 0 (x)
4. Si L Lc (E, F ) alors L C 1 (E, F ) et: L0 (z) = L pour tout z E.
Sur la derivabilite des applications bilineaires continues on a le resultat
dont la preuve est laissee en exercice au lecteur:
Proposition 5.2 Soit E, F et G, trois R-evn, a L2,c (E F, G) alors
a C 1 (E F, G) et pour tout (x, y) E F et (h, k) E F , on a:
a0 (x, y)(h, k) = a(x, k) + a(h, y).
Proposition 5.3 Soit E, F1 , ...., Fp des R-evn, un ouvert de E, et pour
i = 1, ..., p, fi une applications definie sur a
` valeurs dans Fi . Pour x
on definit:
p
Y
Fi ,
f (x) = (f1 (x), ..., fp (x))
i=1

alors f est differentiable en x ssi fi est differentiable en x pour


i = 1, ..., p et lon a dans ce cas:
f 0 (x)(h) = (f10 (x)(h), ...., fp0 (x)(h)) pour tout h E
On peut noter le resultat precedent sous forme synthetique:
f 0 = (f1 , ..., fp )0 = (f10 , ..., fp0 )
qui exprime que la derivation se fait composante par composante.
Concernant la derivabilite dune composee, on a:
72

Th
eor`
eme 5.2 Soit E, F et G trois evn, un ouvert de E, U un ouvert de
F , f une application definie sur a
` valeurs dans F , g une application definie
sur U a
` valeurs dans G et x . Si f est differentiable en x, f (x) U et g
est differentiable en f (x) alors g f est differentiable en x et lon a:
(g f )0 (x) = g 0 (f (x)) f 0 (x).
Corollaire 5.1 Si, en plus des hypoth`eses du theor`eme precedent, on suppose que f est de classe C 1 sur , que f () U et que g est de classe C 1
sur U alors g f est de classe C 1 sur .
Sur la derivabilite dun produit (scalaire vecteur), on a:
Proposition 5.4 Soit E, et F et deux evn, un ouvert de E, f une application definie sur a
` valeurs dans F , u une application definie sur a
`
valeurs dans R et x . Si f et u sont est differentiables en x, alors u f
est differentiable en x et lon a:
(u f )0 (x)(h) = (u0 (x)(h)) f (x) + u(x) f 0 (x)(h) pour tout h E.
Enfin, nous admettrons le resultat suivant sur la derivabilite de linverse.
Retenez que le resultat qui suit nest valable que dans le cadre complet car
sa demonstration utilise le theor`eme de Banach 2.3.
Th
eor`
eme 5.3 Soit E, F deux espaces de Banach, un ouvert de E, U
un ouvert de F , f un homeomorphisme de dans U (f 1 : U ) et
x . Si f est differentiable en x et si f 0 (x) est inversible alors f 1 est
differentiable en f (x) et:
(f 1 )0 (f (x)) = [f 0 (x)]1 .

5.3

Inequalities, Mean-value Theorems

Commencons par des rappels sur le cas reel. Rappelons dabord le theor`eme
de Rolle:
Th
eor`
eme 5.4 Soit a < b deux reels et f C 0 ([a, b], R). Si f (a) = f (b) et
f est derivable sur ]a, b[ alors il existe c ]a, b[ tel que f 0 (c) = 0.
Le theor`eme des accroissements finis (TAF en abrege) senonce alors
comme suit
73

Th
eor`
eme 5.5 Soit a < b deux reels et f C 0 ([a, b], R). Si f est derivable
sur ]a, b[ alors il existe c ]a, b[ tel que:
f 0 (c) =

f (b) f (a)
.
ba

Etant donnes, un evn E et (a, b) E 2 on rappelle que:


[a, b] = {ta + (1 t)b, t [0, 1]} et ]a, b[= {ta + (1 t)b, t ]0, 1[}
On deduit alors du theor`eme 5.5 un TAF pour des fonctions de plusieurs
variables a` valeurs reelles:
Th
eor`
eme 5.6 Soit E un evn, un ouvert de E, a 6= b deux points de
tels que [a, b] et f une fonction definie sur a
` valeurs reelles. Si f
est continue sur [a, b] et la derivee directionnelle Df (x; b a) existe en tout
x ]a, b[ alors il existe c ]a, b[ tel que:
f (b) f (a) = Df (c; b a).
Preuve:
Definissons pour t [0, 1], g(t) := f (a + t(b a), g est continue sur [0, 1] et
si t ]0, 1[ on a:
f (a + (t + h)(b a)) f (a + t(b a))
g(t + h) g(t)
= lim
h0, h6=0
h6=0
h
h

lim

h0,

et comme la derivee directionnelle Df (a + t(b a); b a) existe, nous en


deduisons que g est differentiable sur ]a, b[ avec:
g 0 (t) = Df (a + t(b a); b a)
on applique alors le TAF a` g: il existe t ]0, 1[ tel que g(1) g(0) = g 0 (t) en
posant c = a + t(b a) on a donc:
f (b) f (a) = Df (c; b a).
2
Pour des fonctions a` valeurs dans un evn F , linegalite des accroissements finis
(IAF) senonce comme suit:
Th
eor`
eme 5.7 Soit E et F deux R-evn, un ouvert de E, f une fonction
definie sur a
` valeurs dans F , (a, b) 2 tels que a 6= b, [a, b] et f
est continue sur [a, b]. Si la derivee directionnelle Df (x; b a) existe en tout
x ]a, b[ alors il existe c ]a, b[ tel que:
kf (b) f (a)k kDf (c; b a)k.
74

(5.4)

Preuve:
Nous allons nous limiter au cas o`
u F est un espace de Hilbert et admettrons
le resultat dans le cas general. Soit p F et pour t E, definissons:
g(t) := hp, f (a + t(b a)i
alors g (`a valeurs reelles) verifie les hypoth`eses du theor`eme 5.5 : il existe
t ]0, 1[ (noter que t depend de p) tel que:
hp, f (b) f (a)i = g(1) g(0) = g 0 (t) = hp, Df (c; b a)i

(5.5)

(o`
u lon a pose c = a + t(b a) ]a, b[). Si f (b) = f (a), le resultat cherche,
est evident, on suppose donc f (b) 6= f (a), en appliquant (5.5) a` p = (f (b)
f (a))/kf (b) f (a)k et en utilisant linegalite de Cauchy-Schwarz il vient
alors:


f (b) f (a)
f (b) f (a),
= kf (b) f (a)k = hp, Df (c; b a)i
kf (b) f (a)k
kpkkDf (c; b a)k = kDf (c; b a)k.
2
Si f est Gateaux-derivable sur , alors la conclusion du theor`eme 5.7
implique quil existe c ]a, b[ tel que:
kf (b) f (a)k kDG f (c)(b a)k kDG f (c)kkb ak.

(5.6)

Notons aussi que si f est Gateaux-derivable sur et si [a, b] alors f est


continue sur [a, b] (exercice).
On en deduit plusieurs corollaires:
Corollaire 5.2 Soit E et F deux R-evn, un ouvert de E, f une fonction
definie sur a
` valeurs dans F , (a, b) 2 tels que a 6= b, [a, b] et f
est continue sur [a, b]. Si la derivee directionnelle Df (x; b a) existe en tout
x ]a, b[ alors:
kf (b) f (a)k sup kDf (c; b a)k.
(5.7)
c]a,b[

(le sup pouvant valoir +.)


Si f est Gateaux-derivable sur , alors la conclusion du corollaire 5.2 implique:
kf (b) f (a)k sup kDG f (c)kkb ak.
(5.8)
c]a,b[

On en deduit donc
75

Corollaire 5.3 Soit E et F deux R-evn, un ouvert convexe de E, f une


fonction definie sur a
` valeurs dans F . Si f est G
ateaux-derivable sur et
si kDG f (x)k k pour tout x alors pour tout (a, b) 2 , on a:
kf (b) f (a)k kkb ak.

(5.9)

(f est k-lipschitzienne sur ).


Une autre inegalite de type IAF bien utile nous est fournie par:
Corollaire 5.4 Soit E et F deux R-evn, un ouvert de E, f une fonction
definie sur a
` valeurs dans F , (a, b) 2 tels que a 6= b, [a, b] et f est
continue sur [a, b]. Si f est G
ateaux-derivable sur alors pour tout z
on a:
kf (b) f (a) DG f (z)(b a)k sup kDG f (c) DG f (z)kkb ak
c]a,b[

en particulier:
kf (b) f (a) DG f (a)(b a)k sup kDG f (c) DG f (a)kkb ak
c]a,b[

Preuve:
Appliquer le corollaire 5.2 a` la fonction x 7 f (x) DG f (z)(x).
2
Nous sommes desormais en mesure de prouver le theor`eme 5.1 que nous
rappelons:
Th
eor`
eme 5.8 Si f est G
ateaux-differentiable sur et DG f C 0 (, Lc (E, F ))
alors f est de classe C 1 sur .
Preuve:
Si nous montrons que pour tout x , et tout > 0, il existe > 0 tel que
pour tout h E tel que khk , on a:
kf (x + h) f (x) DG f (x)(h)k khk
alors nous aurons montre que f est differentiable et f 0 (x) = DG f (x) pour
tout x et donc que f est de classe C 1 sur puisque DG f C 0 (, Lc (E, F )).
Soit r > 0 tel que B(x, r) , soit ]0, r[ et h B(x, ), alors [x, x + h]
B(x, ) et le corollaire 5.2 donne:
kf (x + h) f (x) DG f (x)(h)k

sup kDG f (c) DG f (x)khk


c[x,x+h]

sup kDG f (c) DG f (x)kkhk


cB(x,)

76

Comme DG f C 0 (, Lc (E, F )), il existe ]0, r[ tel que:


sup

kDG f (c) DG f (x)k

cB(x, )

on en deduit le resultat voulu. 2


Nous pouvons egalement prouver le theor`eme 5.10 que nous rappelons:
Th
eor`
eme 5.9 Soit E1 , ..., Ep et F des evn, E := E1 ... Ep et un
ouvert de E. Si pour tout k {1, ..., p} et tout x , f admet une derivee
partielle par rapport a
` la k-i`eme variable en x et si lapplication x 7 k f (x)
(definie sur et a
` valeurs dans Lc (Ek , F )) est continue sur alors f est de
classe C 1 sur et la formule (5.11) est satisfaite.
Preuve:
Nous allons demontrer le resultat pour p = 2, et laisser le soin au lecteur
de traiter le cas general de mani`ere analogue. Soit x = (x1 , x2 ) , il
nous faut montrer que pour tout > 0, il existe > 0 tel que pour tout
(h1 , h2 ) E1 E2 tel que kh1 k + kh2 k , on a:
kf (x1 + h1 , x2 + h2 ) f (x) 1 f (x)(h1 ) 2 f (x)(h2 )k (kh1 k + kh2 k).
On commence par remarquer que:
f (x1 + h1 , x2 + h2 ) f (x) 1 f (x)(h1 ) 2 f (x)(h2 ) = (f (x1 + h1 , x2 + h2 )
f (x1 , x2 + h2 ) 1 f (x)(h1 )) + (f (x1 , x2 + h2 ) f (x1 , x2 ) 2 f (x)(h2 ))
Remarquons ensuite que pour tout y , f est differentiable en y dans
les directions (h1 , 0) et (0, h2 ) avec:
Df (y; (h1, 0)) = 1 f (y)(h1 ) et Df (y; (0, h2 )) = 2 f (y)(h2 )
On deduit alors du theor`eme 5.7, quil existe t1 ]0, 1[ tel que
kf (x1 +h1 , x2 +h2 )f (x1 , x2 +h2 )1 f (x)(h1 )k k(1 f (x1 +t1 h1 , x2 +h2 )1 f (x))(h1 )k.
De meme il existe t2 ]0, 1[ tel que
kf (x1 , x2 +h2 )f (x1 , x2 )2 f (x)(h2 )k k(2 f (x1 , x2 +t2 h2 )2 f (x))(h2 ))k.
Comme 1 f et 2 f sont continues, il existe tel que B(x, ) et pour
tout y B(x, ):
max(k1 f (y) 1 f (x)k, k2 f (y) 2 f (x)k)
Si kh1 k + kh2 k , les points (x1 + t1 h1 , x2 + h2 ) et (x1 , x2 + t2 h2 ) appartiennent a` B(x, ) et donc:
kf (x1 + h1 , x2 + h2 ) f (x) 1 f (x)(h1 ) 2 f (x)(h2 )k (kh1 k + kh2 k).
2
77

5.4

Partial derivatives

Interessons nous maintenant au cas o`


u lespace de depart est un produit
devn: E = E1 ... Ep chaque Ek est muni dune norme Nk et E est muni
de la norme produit:
N : x = (x1 , ...., xp ) 7 N (x) := N1 (x1 ) + .... + Np (xp ).
(ou de nimporte quelle norme equivalente).
Dans ce qui suit, on consid`ere un ouvert de E de la forme = pk=1 k
avec k un ouvert de Ek , F un evn et f une application definie sur a`
valeurs dans F .
D
efinition 5.9 Soit x = (x1 , ..., xp ) et k {1, ..., p}, on dit que f
admet une derivee partielle par rapport a
` la k-i`eme variable en x ssi la ki`eme application partielle:
y k 7 f (x1 , ...., xk1 , y, xk+1 , , xp ) F
est differentiable en xk . On appelle alors derivee partielle de f par rapport a
`
f
la k-i`eme variable en x et lon note k f (x) (ou aussi souvent xk f (x), xk (x),
Dk f (x), fxk (x), fx0 k (x)) la derivee de cette application partielle en xk .
Remarque. La notion de derivee partielle est reliee a` celle de derivee
directionnelle. En effet, il est facile de voir que si f admet une derivee
partielle par rapport a` la k-i`eme variable en x alors f est derivable en x dans
la direction (0, ..., 0, hk , 0, ..., 0) et lon a:
Df (x; (0, ..., 0, hk , 0, ..., 0)) = k f (x)(hk )
Noter que la notion de differentiabilite de la definition precedente est celle
de Frechet et bien comprendre que k f (x) Lc (Ek , F ). Le lien entre derivee
et et derivees partielles est donne par des formules connues et utiles:
Proposition 5.5 Soit x = (x1 , ..., xp ) , si f est differentiable en x alors,
pour tout k {1, ..., p}, f admet une derivee partielle par rapport a
` la k-i`eme
variable en x et on a:
k f (x)(hk ) = f 0 (x)(0, ...., hk , ....., 0), hk Ek ,

(5.10)

et pour tout h = (h1 , ..., hp ) E:


0

f (x)(h) =

p
X
k=1

78

k f (x)(hk ).

(5.11)

Le fait detre differentiable implique donc dadmettre des derivees partielles, la reciproque est fausse (cf remarque sur les derivees directionnelles).
En revanche si f admet des derivees partielles et que celles ci dependent
contin
ument de x alors f est de classe C 1 , cest lobjet du:
Th
eor`
eme 5.10 Si pour tout k {1, ..., p} et tout x , f admet une
derivee partielle par rapport a
` la k-i`eme variable en x et si lapplication
x 7 k f (x) (definie sur et a
` valeurs dans Lc (Ek , F )) est continue sur
alors f est de classe C 1 sur et la formule (5.11) est satisfaite.
Ce theor`eme tr`es utile en pratique sera demontre au prochain chapitre.

5.5

The finite-dimensional case, the Jacobian


matrix

Nous allons maintenant nous interesser au cas o`


u E et F sont de dimension
finie. Dans ce cas, puisque la derivee de f en x est une application lineaire
de E dans F , on peut la representer sous la forme dune matrice. Comme
dhabitude quand on fait du calcul matriciel, il est utile de representer les
vecteurs sous forme de vecteurs colonnes. On suppose donc dans ce paragraphe que E = Rn , F = Rp , est un ouvert de E = Rn et f une application
definie sur a` valeurs dans F = Rp . On note les elements de Rn sous la
forme:

x1

x=

.
xn
et f , sous la forme:

f1 (x)
.
.
.
.
fp (x)

f (x) =

avec fj definie sur a` valeurs reelles est la j-`eme composante de f . Nous


savons que f est differentiable en x ssi chaque composante de f , f1 , ...,
fp est differentiable en x et dans ce cas chaque fi admet une derivee partielle
79

par rapport a` chaque variable xj . Dapr`es la formule (5.11) on a pour tout


j {1, , p} et tout h Rn :
fj0 (x)(h)

n
X

j fi (x)hj

j=1

et donc:

0
f (x)(h) =

f10 (x)(h)
.
.
.
.
0
fp (x)(h)

Pn

j f1 (x)hj
.
.
.
.
Pn
j=1 j fi (x)hj

ce qui peut se reecrire sous forme matricielle:

1 f1 (x) . . n f1 (x)

.
. .
.

.
. .
.
f 0 (x)(h) =

.
.
.
.

.
. .
.
1 fp (x) . . n fp (x)

j=1

h1
.
.
.
.
hn

Ainsi lapplication lineaire f 0 (x) L(Rn , Rp ) est representee dans les bases
canoniques de Rn et Rp par la matrice de format p n de terme general
j fi (x) que lon appelle matrice jacobienne de f en x et que lon note Jf (x):

1 f1 (x) . . n f1 (x)

.
. .
.

.
.
.
.

Jf (x) :=

.
. .
.

.
. .
.
1 fp (x) . . n fp (x)
ainsi, sous forme matricielle lexpression de la differentielle de f en x est
donnee par:

h1

.
0
Rn
f (x)(h) = Jf (x)h, pour tout h =

.
hn
80

Notons que les r`egles de calcul (composition, inverse...) se traduisent matriciellement. Si f est differentiable en x et si g est une application definie
sur un voisinage de f (x) dans Rp a` valeurs dans Rk et si g est differentiable
en f (x), alors g f est differentiable en x et lon a:
J(g f )(x) = Jg(f (x)) Jf (x).
Prenons par exemple n = p = 2 et k = 1, en appliquant lexpression matricielle precedente de la derivee dune composee, il vient:
1 (g f )(x1 , x2 ) = 1 g(f (x1 , x2 ))1 f1 (x1 , x2 ) + 2 g(f (x1 , x2 ))1 f2 (x1 , x2 ),
2 (g f )(x1 , x2 ) = 1 g(f (x1 , x2 ))2 f1 (x1 , x2 ) + 2 g(f (x1 , x2 ))2 f2 (x1 , x2 ).
De meme, si f est un homeomorphisme dun voisinage de x sur un voisinage
de f (x) et si la matrice Jf (x) est inversible (ce qui implique que n = p) alors
f 1 est differentiable en f (x) et lon a:
Jf 1 (f (x)) = [Jf (x)]1 .
Dans le cas du but reel c est a` dire F = R, Jf (x) est le vecteur ligne:
Jf (x) := (1 f1 (x), ..., n f1 (x))
ainsi:

0
f (x)(h) = hf (x), hi =
j f (x)hj =

j=1

n
X

1 f (x)
.
.
.
.
n f (x)

h1
.
.
.
.
hn

en identifiant on a donc lexpression du gradient de f en x:

1 f (x)

.
.

f (x) =

.
n f (x)

pour tout h Rn

Dans le cas polaire o`


u E = R et F = Rp et en notant f = (f1 , ..., fp ), si
f est derivable en t, alors f 0 (t) L(R, Rp ):
f 0 (t)(h) = (f10 (t), ..., fp0 (t))h, pour tout h R
et on identife simplement f 0 (t) au vecteur de Rp , (f10 (t), ..., fp0 (t)).
81

5.6

Calculus

We end this chapter by some classical examples.Given A an n n matrix


(and denoting by AT its transpose):
f1 (x) = Ax x, f (x) = Ax + AT x.
Denoting by k.k the usual euclidean norm:
f2 (x) = kAx bk2 , f2 (x) = 2AT Ax 2AT b,
and
(k.k)(x) =

x
, x 6= 0.
kxk

Given a Rn and g : Rn Rn
f3 (x) = a g(x), f3 (x) = Jg (x)T a.
Given f : Rn R and u0 Rn :
f4 (t) = f (x + tu0 ), f40 (t) := f (x + tu0 ) u0 .
Given g : Rn Rn and h : Rn R
(h g)(x) = Jg (x)T h(g(x)).

82

Chapter 6
Second-order differential
calculus
6.1

Definitions

Soit E et F deux evn, un ouvert de E et f une application definie sur


a` valeurs dans F , on a la:
D
efinition 6.1 Soit x , on dit que f est deux fois (Frechet) derivable
en x sil existe un ouvert U tel que x et:
f est derivable sur U ,
lapplication y U 7 f 0 (y) Lc (E, F ) est derivable en x.
Dans ce cas, la derivee seconde de f en x est donnee par:
f 00 (x) := (f 0 )0 (x) Lc (E, Lc (E, F )).
La definition precedente peut sexprimer par:
f 0 (x + h) f 0 (x) = f 00 (x)(h) + o(h) dans Lc (E, F )
la notation o(h) designant une fonction telle que:
ko(h)kLc (E,F )
0 quand h 0, h 6= 0
khk
ce quon peut aussi ecrire o(h) = khk(h) avec (h) Lc (E, F ) tel que:
k(h)kLc (E,F ) 0 quand h 0.
83

Grace aux resultats du paragraphe 2.6.3, on peut identifier Lc (E, Lc (E, F ))


a` L2,c (E E, F ), ceci permet didentifier f 00 (x) a` lapplication bilineaire continue que nous notons aussi f 00 (x):
f 00 (x)(h, k) = (f 00 (x)(h))(k) pour tout (h, k) E 2 .
Nous ferons systematiquement cette identification par la suite.
Si nous fixons k E et supposons f deux fois differentiable en x, on a
alors:
(f 0 (x + h) f 0 (x))(k) = (f 00 (x)(h))(k) + o(h)(k) = f 00 (x)(h, k) + o(h)
ainsi lapplication f 0 (.)(k) : y 7 f 0 (y)(k) est differentiable en x et lon a:
(f 0 (.)(k))0 (x)(h) = f 00 (x)(h, k).
Ainsi f 00 (x)(h, k) est la derivee en x de f 0 (.)(k) dans la direction h.
Remarquons que si f est deux fois differentiable en x, alors f 0 est continue
x.
D
efinition 6.2 On dit que f est de classe C 2 sur (ce que lon note f
C 2 (, F )) ssi f C 1 (, F ), f deux fois differentiable en chaque point de
et f 00 C 0 (, L2,c (E E, F )).
On peut continuer par recurrence a` definir la differentiabilite a` des ordres
plus eleves, nous en resterons cependant a` la derivee seconde dans ce cours
car cela est suffisant en optimisation. Nous renvoyons le lecteur interesse a`
Cartan [4] pour les derives dordre plus eleve.

6.2

Schwarzs symmetry theorem

Une propriete importante des derivees secondes est leur symetrie, cest lobjet
du theor`eme de Schwarz. Dabord un resultat preliminaire:
Proposition 6.1 Si f est deux fois differentiable en x alors la quantite:
1
(f (x + h + k) f (x + k) f (x + h) + f (x) f 00 (x)(h, k))
(khk + kkk)2
tend vers 0 quand (h, k) tend vers (0, 0), (h, k) E E \ {(0, 0)}.

84

Preuve:
Par definition pour tout > 0, il existe > 0 tel que B(x, ) et pour
tout v B(0, ) :

kf 0 (x + v) f 0 (x) f 00 (x)(v)k kvk.


2

(6.1)

Soit r > 0 tel que B(x, r) et f soit differentiable sur B(x, r), definissons
pour (h, k) E E tels que khk + kkk r:
(h, k) := f (x + h + k) f (x + k) f (x + h) + f (x) f 00 (x)(h, k)
est differentiable, (h, 0) = 0 avec linegalite des accroissements finis on a
alors:
k(h, k)k = k(h, k) (h, 0)k sup k2 (h, u)kkkk.
(6.2)
u[0,k]

On a par ailleurs:
2 (h, u) = f 0 (x + h + u) f 0 (x + u) f 00 (x)(h)
par linearite de f 00 (x) on a f 00 (x)(h) = f 00 (x)(h + u) f 00 (x)(u) et donc:
2 (h, u) = (f 0 (x+h+u)f 0 (x)f 00 (x)(h+u))(f 0 (x+u)f 0 (x)f 00 (x)(u)).
Si khk + kkk , on a aussi pour tout u [0, k], kuk khk + kuk
khk + kkk , et en utilisant (6.1) on a donc:
k2 (h, u)k

(kh + uk + kuk) (khk + kkk)


2

avec (6.2), il vient donc que si khk + kkk , alors:


k(h, k)k (khk + kkk)kkk (khk + kkk)2
do`
u lon deduit le resultat voulu. 2
Le theor`eme de Schwarz senonce comme suit:
Th
eor`
eme 6.1 Si f est deux fois differentiable en x alors lapplication bilineaire
continue f 00 (x) est symetrique:
f 00 (x)(h, k) = f 00 (x)(k, h) pour tout (h, k) E E.
Preuve:
Pour (h, k) E 2 assez petits definissons:
S(h, k) = (f (x + h + k) f (x + k) f (x + h) + f (x))
85

S est symetrique (S(h, k) = S(k, h)) et dapr`es la proposition 6.1, pour tout
> 0 il existe > 0 tel que si khk + kkk on a:

kS(h, k) f 00 (x)(h, k)k (khk + kkk)2 .


2
Si khk + kkk , en utilisant S(h, k) = S(k, h) on a donc:
kf 00 (x)(h, k) f 00 (x)(k, h)k kS(h, k) f 00 (x)(h, k)k + kS(k, h) f 00 (x)(k, h)k
(khk + kkk)2
Soit (u, v) E E et t > 0 tel que t(kuk + kvk) , par bilinearite de f 00 (x)
on a f 00 (x)(tu, tv) = t2 f 00 (x)(u, v), f 00 (x)(tv, tu) = t2 f 00 (x)(v, u), et donc
kf 00 (x)(tv, tu)f 00 (x)(tu, tv)k = t2 kf 00 (x)(v, u)f 00 (x)(u, v)k t2 (kuk+kvk)2
et donc kf 00 (x)(v, u) f 00 (x)(u, v)k (kuk + kvk)2 , > 0 etant arbitraire
on a donc f 00 (x)(v, u) = f 00 (x)(u, v). 2

6.3

Second-order partial derivatives

On consid`ere maintenant le cas o`


u E est un produit devn: E = E1 ....Ep .
Nous savons que si f est differentiable en x = (x1 , ...., xp ) , alors pour
tout k {1, ..., p}, f admet une derivee partielle en x, k f (x) Lc (E, F ),
par rapport a` sa k-i`eme variable. Nous savons egalement que pour h =
(h1 , ..., hp ) E on a:
0

f (x)(h) =

p
X

k f (x)(hk ) et k f (x)(hk ) = f 0 (x)(0, ..., 0, hk , 0, ..., 0).

k=1

Pour i {1, ..., p}, et j {1, ..., p}, on peut sinteresser a` la derivee
partielle de j f par rapport a` sa i-`eme variable, do`
u la:
D
efinition 6.3 Soit x , et (i, j) {1, ..., p}2 , on dit que f admet une
derivee partielle seconde dindice (i, j) en x si:
il existe un voisinage ouvert U de x dans sur lequel f admet une
derivee partielle par rapport a
` sa j-`eme variable,
lapplication y U 7 j f (y) admet une derivee partielle par rapport a
`
sa i-`eme variable en x.

86

Dans ce cas, la derivee partielle seconde dindice (i, j) en x, notee ij2 f (x)
est donnee par:
ij2 f (x) := i (j f )(x).
Comme j f (x) Lc (Ej , F ), on a ij2 f (x) Lc (Ei , Lc (Ej , F )). En utilisant a`
nouveau les resultats du paragraphe 2.6.3, on peut identifier Lc (Ei , Lc (Ej , F ))
a` L2,c (Ei Ej , F ), ceci permet didentifier ij2 f (x) a` lapplication bilineaire
continue que nous notons aussi ij2 f (x):
ij2 f (x)(hi , kj ) = (ij2 f (x)(hi ))(kj ) pour tout (hi , kj ) Ei Ej .
Nous ferons systematiquement cette identification par la suite.
Les relations entre derivee seconde et derivees secondes partielles nous
sont fournies par la:
Proposition 6.2 Si f est deux fois derivable en x alors pour tout (i, j)
{1, ..., p}2 , f admet une derivee partielle seconde dindice (i, j) en x, ij2 f (x)
L2,c (Ei Ej , F ) et pour tout (hi , kj ) Ei Ej on a:
ij2 f (x)(hi , kj ) = f 00 (x)((0, ....0, hi , 0, ....0), (0, ....0, kj , 0, ....0))

(6.3)

et les relations de symetrie:


2
ij2 f (x)(hi , kj ) = ji
f (x)(kj , hi ).

De plus pour tout h = (h1 , ...., hp ) et k = (k1 , ...., kp ) dans E on a:


X
f 00 (x)(h, k) =
ij2 f (x)(hi , kj ).

(6.4)

(6.5)

1i,jp

Preuve:
Si f est deux fois derivable en x, alors f est derivable sur un voisinage ouvert
U de x et donc admet des derivees partielles sur U , soit y U et kj Ej ,
on a:
j f (y)(kj ) = f 0 (y)(0, ...., 0, kj , 0, ...., 0)
le membre de droite est derivable en x:
(j f (.)(kj ))0 (x)(h) = f 00 (x)(h)(0, ...., 0, kj , 0, ...., 0) pour tout h E
il admet donc en particulier une derivee partielle par rapport a` sa i-`eme
variable. Ainsi f admet une derivee partielle seconde dindice (i, j) en x et

87

pour hi Ei , en prenant h = (0, ..., 0, hi , 0, ..., 0) dans lidentite precedente,


il vient:
ij2 f (x)(hi , kj ) = i (j f (.)(kj ))(x)(hi )
= f 00 (x)((0, ...., 0, hi , 0, ..., 0), (0, ...., 0, kj , 0, ...., 0)).
Les relations de symetrie decoulent de (6.3) et du theor`eme de Schwarz.
Enfin, (6.5) decoule de (6.3) et de la bilinearite de f 00 (x).
2
Dans le cas o`
u E = Rn , F = R, en notant (e1 , ..., en ) la base canonique
n
de R , on a:
ij2 f (x)(hi , kj ) = f 00 (x)(hi ei , kj ej ) = hi kj f 00 (x)(ei , ej ) pour tout (hi , kj ) R2 .
On identifie alors ij2 f (x) au reel f 00 (x)(ei , ej ). Les relations de symetrie
2
prennent alors la forme ij2 f (x) = ji
f (x).
Dans ce cas, f 00 (x) est une forme bilineaire symetrique qui avec la formule
(6.5) secrit:
X
f 00 (x)(h, k) =
ij2 f (x)hi kj .
1i,jn

La matrice hessienne de f en x notee D 2 f (x) (ou parfois aussi Hf (x)) est


alors par definition la matrice de la forme bilineaire symetrique f 00 (x) dans la
base canonique, cest donc la matrice de terme general f 00 (x)(ei , ej ) = ij2 f (x).
D 2 f (x) est une matrice symetrique et son expression est
2

2
11 f (x) . . 1n
f (x)

.
. .
.

.
.
.
.
2
.
D f (x) :=

.
. .
.

.
. .
.
2
2
n1 f (x) . . nn f (x)

Pour tout (h, k) Rn Rn , on a alors:


X


f 00 (x)(h, k) = D 2 f (x)(h), k ==
ij2 f (x)hi kj .
1i,jn

6.4

Taylor formula

Soit E et F deux evn, un ouvert de E et f une application definie sur a`


valeurs dans F , et x . La Formule de Taylor a` lordre 2 en x est lobjet
du:
88

Th
eor`
eme 6.2 Si f est deux fois derivable en x, on a:
1
f (x + h) = f (x) + f 0 (x)(h) + f 00 (x)(h, h) + o(khk2 )
2
avec:

(6.6)

o(khk2 )
0 quand h 0, h 6= 0.
khk2

Preuve:
Il sagit de montrer que pour tout > 0, il existe tel que si khk alors
1
kf (x + h) f (x) f 0 (x)(h) f 00 (x)(h, h)k khk2 .
2

(6.7)

Definissons donc
1
R(h) := f (x + h) f (x) f 0 (x)(h) f 00 (x)(h, h)
2
R est bien definie et de classe C 1 sur un voisinage de 0 dans E, R(0) = 0 et:
1
R0 (h) = f 0 (x + h) f 0 (x) (f 00 (x)(h, .) + f 00 (x)(., h))
2
et comme f 00 (x) est symetrique, on a:
R0 (h) = f 0 (x + h) f 0 (x) f 00 (x)(h).
Donc il existe tel que pour tout u tel que kuk , on a:
kR0 (u)k kuk
Si khk , linegalite des accroissements finis implique:
kR(h)k = kR(h) R(0)k sup kR0 (u)kkhk
u[0,h]

khk2 .
on a donc etabli (6.7). 2
Si f est deux fois differentiable au voisinage sur (ou simplement sur un
voisinage de x) on a:
Th
eor`
eme 6.3 Si h E est tel que [x, x+h] et f est deux fois derivable
en chaque point de alors on a:
1
kf (x + h) f (x) f 0 (x)(h) f 00 (x)(h, h)k sup kf 00 (z) f 00 (x)kkhk2 .
2
z[x,x+h]
(6.8)
89

Preuve:
On definit R(h) comme dans la preuve precedente, il sagit alors de montrer
que:
kR(h)k sup kf 00 (z) f 00 (x)kkhk2 .
(6.9)
z[x,x+h]

Utilisant R(0) = 0 et linegalite des accroissements finis, on a:


kR(h)k sup kR0 (u)kkhk.

(6.10)

u[0,h]

Comme, on a:
R0 (u) = f 0 (x + u) f 0 (x) f 00 (x)(u)
si u [0, h], en appliquant linegalite des accroissements finis du corollaire
5.4 a` f 0 entre x et x + u, il vient donc:
kR0 (u)k

sup

kf 00 (z) f 00 (x)kkuk

z[x,x+u]

sup

kf 00 (z) f 00 (x)kkhk

z[x,x+h]

Reportant la majoration precedente dans (6.10), nous en deduisons exactement (6.9). 2


Enfin, terminons par une formule exacte pour f a` valeurs dans Rp : la
formule de Taylor a` lordre 2 avec reste integral:
Th
eor`
eme 6.4 Soit f definie sur a
` valeurs dans Rp , et (x, h) E tels
que [x, x + h] . Si f est deux fois derivable en chaque point de [x, x + h]
et si lapplication t 7 f 00 (x + th) est continue sur [0, 1], alors on a:
Z 1
0
f (x + h) = f (x) + f (x)(h) +
(1 t)f 00 (x + th)(h, h)dt
(6.11)
0

ce qui signifie exactement en notant f1 , ..., fp les composantes de f que lon


a:
Z 1
0
fi (x + h) = fi (x) + fi (x)(h) +
(1 t)fi00 (x + th)(h, h)dt pour i = 1, ..., p.
0

(6.12)

Preuve:
Comme on veut montrer lidentite (6.12) composante par composante, on
peut poser f = fi et supposer que p = 1. Posons pour t [0, 1],
g(t) := f (x + th)
90

par hypoth`ese g est deux fois differentiable avec:


g 0 (t) = f (x + th)(h), g 00 (t) = f 00 (x + th)(h, h)
do`
u, avec une integration par parties:
Z 1
Z 1
0
(1 t)g 00 (t)dt [(1 t)g 0 (t)]10
g (t)dt =
f (x + h) f (x) = g(1) g(0) =
0
0
Z 1
Z 1
00
0
0
(1 t)f 00 (x + th)(h, h)dt.
(1 t)f (x + th)(h, h)dt + g (0) = f (x)(h) +
=
0

2
Remarque. Lhypoth`ese F = Rp dans le theor`eme precedent nous a uniquement servi pour la definition de lintegrale. Si lon peut generaliser de mani`ere
satisfaisante la construction de lintegrale a` des fonctions a` valeurs dans F
evn de dimension infinie, alors on pourra generaliser la formule de Taylor
avec reste integral a` des fonctions a` valeurs dans F . Cette generalisation est
possible lorsque F est un espace de Banach mais elle depasse largement le
cadre de ce cours.

6.5

Differentiable characterizations of convex


functions

La convexite est une notion cle comme nous lavons deja souligne (theor`emes
de projection et de separation dans un espace de Hilbert) qui joue un role
fondamental en optimisation. Rappelons la definition basique:
D
efinition 6.4 Soit E un R-ev, C une partie convexe de E et f une application definie sur C a
` valeurs relles, on dit que f est convexe sur C ssi
2
(x, y) C et t [0, 1], on a:
f (tx + (1 t)y) tf (x) + (1 t)f (y).
On dit que f est strictement convexe sur C ssi (x, y) C 2 avec x 6= y et
t ]0, 1[, on a:
f (tx + (1 t)y) < tf (x) + (1 t)f (y).
Notons que dans la definition precedente, puisque est convexe tx+(1t)y
(x, y) C 2 et t [0, 1], ainsi f (tx + (1 t)y) est bien defini.
91

Exercice 6.1 Soit E, C et f comme precedemment, on definit, lepigraphe


de f par:
Epi(f ) := {(x, ) C R : f (x) }
Montrer alors que f est convexe sur C ssi Epi(f ) est une partie convexe de
E R.
Une premi`ere application de la notion en optimisation est fournie par:
Proposition 6.3 Soit E un R-ev, C une partie convexe de E et f une fonction strictement convexe sur C, alors il existe au plus un point de C en lequel
f atteint son minimum.
Preuve:
Suposons au contraire quil existe x1 et x2 distincts dans C tels que:
f (x1 ) = f (x2 ) f (x) x C
par convexite de C, 21 (x1 + x2 ) C et par stricte convexite de f , on aurait
alors:
f (x1 ) + f (x2 )
x1 + x 2
f (x1 ) + f (x2 )
f (x1 ) =
f(
)<
.
2
2
2
2
Dans le cadre differentiable, on a la caracterisation suivante:
Proposition 6.4 Soit E un R-evn, un ouvert convexe de E et f : R
une application differentiable sur . On a les equivalences:
1. f est convexe sur ,
2. pour tout (x, y) 2 , on a:
f (x) f (y) f 0 (y)(x y).

(6.13)

Preuve:
Supposons que f soit convexe, soit (x, y) 2 pour t [0, 1] definissons
g(t) := f (tx + (1 t)y) tf (x) (1 t)f (y)
par convexite g(t) 0 pour tout t [0, 1] et g(0) = 0 on a donc:
g(t) g(0)
0 pour tout t ]0, 1]
t
92

en passant a` la limite on obtient:


0 g 0 (0+ ) = f 0 (y)(x y) f (x) + f (y)
Reciproquement supposons que (6.13) soit satisfaite pour tout (x, y) 2 .
Soit (z1 , z2 ) 2 on a:
f (z1 ) f (z2 ) f 0 (z2 )(z1 z2 ) et f (z2 ) f (z1 ) f 0 (z1 )(z2 z1 )
en sommant il vient:
(f 0 (z1 ) f 0 (z2 ))(z1 z2 ) 0.

(6.14)

On definit, pour t [0, 1], g(t) comme precedemment. Pour etablir la convexite de f il faut montrer que g 0 sur [0, 1]. On a g(0) = g(1) = 0, g est
derivable sur ]0, 1[:
g 0 (t) = f 0 (tx+(1t)y)(xy)f (x)+f (y) = f 0 (y+t(xy))(xy)f (x)+f (y)
Soit 1 > t > s > 0 on a alors, en appliquant (6.14) a` z1 = y + t(x y) et
z2 = y + s(x y) (z1 z2 = (t s)(x y))
g 0 (t) g 0 (s) = (f 0 (y + t(x y)) f 0 (y + s(x y))) (x y) 0
do`
u lon deduit que g 0 est croissante sur ]0, 1[. Soit t ]0, 1[, on deduit de la
formule des accroissements finis quil existe ]0, t[ et 0 ]t, 1[ tels que:
g(t) = g(0) + g 0 ()t = g 0 ()t et g(1) g(t) = g(t) = g 0 ( 0 )(1 t)
Comme 0 > t > on a g 0 ( 0 ) g 0 () et donc:

g(t)
g(t)

1t
t

ce qui implique bien que g(t) 0.


2
La caracterisation differentielle (6.13) de la convexite est importante et
exprime geometriquement le fait que f est convexe ssi son graphe se situe au
dessus de tous ses plans tangents. Lorsque E est un Hilbert, (6.13) se traduit
par
f (x) f (y) hf (y), x yi , (x, y) .
Une application de la caracterisation differentielle (6.13) de la convexite
en optimisation est:
93

Proposition 6.5 Soit E un R-evn, un ouvert convexe de E et f : R


une application convexe differentiable sur , et x , on a les equivalences
entre
f (x ) f (x), x et f 0 (x ) = 0.
Preuve:
Supposons que f atteigne son minimum sur en x , alors pour h E et
t > 0 assez petit pour que x + th on a:
1
(f (x + th) f (x )) 0
t
comme f est differentiable en x , en passant a` la limite on obtient f 0 (x )(h)
0, h etant arbitraire on a aussi f 0 (x )(h) 0 et donc f 0 (x ) = 0.
Supposons que f 0 (x ) = 0, alors pour tout x , en utilisant (6.13), on
a:
f (x) f (x ) + f 0 (x )(x x ) = f (x ).
2
Dans le cadre deux fois differentiable, on a la caracterisation:
Proposition 6.6 Soit E un R-evn, un ouvert convexe de E et f : R
une application deux fois differentiable sur . On a les equivalences:
1. f est convexe sur ,
2. pour tout (x, h) E, on a:
f 00 (x)(h, h) 0.

(6.15)

(f 00 (x) est une forme quadratique semi-definie positive)


Preuve:
Supposons dabord que f soit convexe. Soit x et h E tel que x + h
(ce qui implique par convexite de que x + th , pour tout t [0, 1]),
avec (6.13), on a pour tout t [0, 1]:
f (x + th) f (x) + tf 0 (x)(h)
or la formule de Taylor a` lordre 2 en x donne:
f (x + th) = tf 0 (x)(h) + t2 f 00 (x)(h, h) + o(t2 )
et donc:
t2 f 00 (x)(h, h) + o(t2 ) 0
94

divisant par t2 et faisant tendre t vers 0 il vient bien


f 00 (x)(h, h) 0.
Reciproquement supposons que (6.15) soit satisfaite pour tout (x, h) E.
Soit (x, y) 2 , comme dans la preuve de la proposition 6.4, pour t [0, 1],
on definit
g(t) := f (tx + (1 t)y) tf (x) (1 t)f (y)
et il sagit de montrer que g(t) 0 pour tout t [0, 1]. On remarque que g
est deux fois differentiable sur ]0, 1[ avec:
g 0 (t) = f 0 (y+t(xy))(xy)f (x)+f (y), g 00 (t) = f 00 (y+t(xy))(xy, xy)
ainsi (6.15) implique g 00 0 et donc g 0 est croissant sur [0, 1] on ach`eve alors
la preuve exactement comme pour la proposition 6.4. 2
Exercice 6.2 Soit f C 2 (R2 , R) montrer que f est convexe sur R2 ssi
x R2 , la Hessienne de f en x a une trace et un determinant positif.
Exercice 6.3 Soit f C 1 (Rd , R), montrer que f est quasiconvexe ssi pour
tout x et y dans Rd si f (y) f (x) alors f 0 (x)(y x) 0.
Exercice 6.4 Soit f C 2 (Rd , R)
1. Montrer que si f est quasiconvexe alors pour tout x Rd et tout h
orthogonal a
` f (x) on a f 00 (x)(h, h) 0 (i.e. f 00 (x) est positive sur
lorthogonal de f (x))
2. Montrer que si pour tout x Rd et tout h de norme 1 orthogonal a
`
f (x) on a f 00 (x)(h, h) > 0 alors f est quasi-convexe.
3. Montrer par des exemples en dimension 1 que la condition de la question 1 nest pas suffisante et que la condition de la question 2 nest pas
necessaire.

95

Chapter 7
Local invertibility and implicit
functions theorems
7.1

Local invertibility

Le theor`eme de linversion locale enonce ci-dessous exprime que si la differentielle


f 0 (a) de lapplication f au point a est inversible (en tant quapplication
lineaire) alors (lapplication non lineaire) f est inversible sur un voisinage
de a. Cest precisement le but du calcul differentiel que de deduire dune
propriete de f 0 (a) une information sur le comportement de f au voisinage de
a.
Th
eor`
eme 7.1 Soit E et F deux espaces de Banach, un ouvert de E,
1
f C (, F ) et a . Si f 0 (a) est inversible alors il existe deux voisinages
ouverts U et V respectivement de a et f (a) tels que la restriction f : U V
soit un diffeomorphisme de classe C 1 .
Preuve:
Etape 1 : r
eduction
Posons pour tout x a:
g(x) := [f 0 (a)]1 (f (x + a) f (a))
g est une application de classe C 1 de louvert a E dans E de plus
g(0) = 0 et g 0 (0) = id. Comme g est obtenue comme composee de f et
doperations affines inversibles (et indefiniment differentiables !) il suffit de
montrer le resultat pour g.

96

Pour x a, posons:
(x) := x g(x).
Comme 0 (0) = 0, il existe r > 0 tel que pour tout x B(0, r) on a1 :
k0 (x)k 1/2.

(7.1)

Etape 2 : g est une bijection de B(0, r) dans B(0, r/2)


Soit y B(0, r/2), pour tout x B(0, r) definissons:
y (x) := (x) + y = x g(x) + y.
Remarquons alors que:
g(x) = y y (x) = x.

(7.2)

Pour x1 et x2 dans B(0, r) et y B(0, r/2), en utilisant (7.1) et le corollaire 5.2, on a:


1
ky (x1 )y (x2 )k = k(x1 )(x2 )k sup k0 (z)kkx1 x2 k kx1 x2 k
2
z[x1 ,x2 ]
en particulier puisque y (0) = y on a pour tout x B(0, r):
1
ky (x)k kyk + kxk r/2 + r/2 = r.
2
Ce qui prec`ede montre que, pour tout y B(0, r/2), y est une contraction
de B(0, r). Il decoule du theor`eme du point fixe pour les contractions que y
admet un unique point fixe dans B(0, r). Avec (7.2), nous en deduisons donc
que pour tout y B(0, r/2), il existe un unique x B(0, r) tel que g(x) = y.
Donc g est une bijection de B(0, r) dans B(0, r/2).
Etape 3 : g 1 est 2-Lipschitzienne sur B(0, r/2)
Soit (y1 , y2 ) B(0, r/2)2 , x1 := g 1 (y1 ) et x2 := g 1 (y2 ). Avec les
notations de letape 2, on a: x1 := y1 (x1 ) et x2 := y2 (x2 ). On a alors:
kg 1 (y1 ) g 1 (y2 )k = kx1 x2 k = ky1 (x1 ) y2 (x2 )k = ky1 y2 + (x1 ) (x2 )k
1
1
ky1 y2 k + kx1 x2 k = ky1 y2 k + kg 1 (y1 ) g 1 (y2 )k.
2
2
1

Ici la norme k0 (x)k designe naturellement k0 (x)kLc (E) .

97

Comme voulu, on a donc bien:


kg 1 (y1 ) g 1 (y2 )k 2ky1 y2 k.
Etape 4 : g 1 est diff
erentiable sur B(0, r/2)
Soit y B(0, r/2) et x := g 1 (y) B(0, r), tout dabord rappelons
quavec (7.1), on a:
k0 (x)k = kid g 0 (x)k

1
< 1,
2

ceci impliquant en particulier que g 0 (x) est inversible.2


Nous allons montrer que g 1 est differentiable en y et plus precisement que
(g 1 )0 (y) = [g 0 (x)]1 = [g 0 (g 1 (y))]1 . Tout dabord notons quil decoule du
theor`eme de Banach 2.3 que [g 0 (x)]1 est continu. Il sagit donc de montrer
que pour > 0 il existe > 0 tel que pour tout k B(0, ) tel que
y + k B(0, r/2) on a:
kg 1 (y + k) g 1 (y) [g 0 (x)]1 kk kkk.

(7.3)

Soit k E assez petit pour que y + k B(0, r/2) et posons xk := g 1 (y + k).


Dapr`es letape precedente, on a:
kxk xk = kg 1 (y + k) g 1 (y)k 2kkk.

(7.4)

Par ailleurs, puisque k = g(xk ) g(x) = g 0 (x)(xk x) + o(kxk xk) =


g 0 (x)(xk x) + k , il existe > 0 tel que:
kxk xk kk k := kg(xk ) g(x) g 0 (x)(xk x)k

kxk xk
.
2k[g 0 (x)]1 k

(7.5)
Si kkk /2 alors (7.4) entraine que kxk xk , en utilisant (7.5) et a`
nouveau (7.4), il vient donc:
kg 1 (y + k) g 1 (y) [g 0 (x)]1 kk = kxk x [g 0 (x)]1 (g 0 (x)(xk x) + k )k
kxk xk
= k[g 0 (x)]1 k k k[g 0 (x)]1 kkk k k[g 0 (x)]1 k
kkk.
2k[g 0 (x)]1 k
on a donc etabli (7.3) ce qui ach`eve la preuve. 2
One can immediately deduce from the inverse function theorem the following result which is of global nature in the case where f 0 (a) is invertible
for every a :
2

Rappelons ici que si u Lc (E) verifie kid uk < 1 alors u est inversible dinverse
continue (voir le poly dexercices).

98

Theorem 7.1 Let E and F be two Banach spaces, be an open set of E


and f C 1 (, F ) . If f 0 (a) is invertible for every a then f () is open
in F . If, in addition, f is injective then f is a C 1 -diffeomorphism from to
f ().

7.2

Implicit functions

Le theor`eme des fonctions implicites permet localement de passer dune condition implicite entre les variables x et y du type f (x, y) = c a` une relation
explicite du type y = g(x).
Th
eor`
eme 7.2 Soit E, F et G trois espaces de Banach, A et B deux ouverts
respectivement de E et F , (a, b) AB, f C 1 (AB, G) et c := f (a, b). Si
2 f (a, b) est inversible (dans Lc (F, G)) alors il existe U un voisinage ouvert
de a, V un voisinage ouvert de b et g C 1 (U, V ) tel que:
{(x, y) U V : f (x, y) = c} = {(x, g(x)) : x U }.
Ce qui implique en particulier : g(a) = b et f (x, g(x)) = c x U .
Preuve:
Soit (x, y) := (x, f (x, y)), (x, y) AB; on a alors C 1 (AB, E G).
Soit (h, k) E F , 0 (a, b)(h, k) = (h, 1 f (a, b)h+2 f (a, b)k). Pour (u, v)
E G, comme 2 f (a, b) est inversible, on a:
0 (a, b)(h, k) = (u, v) (h, k) = (u, [2 f (a, b)]1 (v 1 f (a, b)u)).
Ainsi 0 (a, b) est inversible, avec le theor`eme de linversion locale, nous en
deduisons quil existe M voisinage ouvert de (a, b) dans A B et N voisinage
ouvert de (a, b) = (a, c) tel que realise un diffeomorphisme de classe C 1 de
M sur N . Sans perte de generalite, on peut supposer que M = Ma Mb , avec
Ma (resp. Mb ) voisinage ouvert de a dans A (resp. de b dans B). Notons
alors 1 : N Ma Mb sous la forme 1 (x, z) =: (u(x, z), v(x, z)) =
(x, v(x, z)). Posons alors
U := {x Ma : (x, c) N et v(x, c) Mb }, V := Mb .
Par construction U est un voisinage ouvert de a et V un voisinage ouvert de
b. Pour tout x U , definissons g(x) := v(x, c) on a alors g C 1 (U, V ). Soit
(x, y) U V , on alors (x, c) N , g(x) = v(x, c) V et donc:
f (x, y) = c (x, y) = (x, c) (x, y) = 1 (x, c)
(x, y) = (x, v(x, c)) (x, y) = (x, g(x)).
2
99

Remarque. En derivant lidentite f (x, g(x)) = c on a:


1 f (x, g(x)) + 2 f (x, g(x)) g 0 (x) = 0
et comme, au voisinage de a, 2 f (x, g(x)) est inversible, on a:
g 0 (x) = [2 f (x, g(x))]1 (1 f (x, g(x))).

Remarque. On a utilise le theor`eme de linversion locale pour etablir celui


des fonctions implicites. On peut montrer (le faire a` titre dexercice) que
ces deux enonces sont en fait equivalents.
Remarque. Lhypoth`ese 2 f (a, b) inversible du theor`eme ne peut etre
affaiblie. Pour sen persuader, le lecteur pourra considerer le cas du cercle trigonometrique S 1 := {(x, y) R2 : f (x, y) := x2 + y 2 = 1}. On a
2 f (1, 0) = 0 et il nexiste pas de voisinage de (1, 0) sur lequel S 1 se represente
localement comme un graphe x 7 g(x).

100

Part III
Static Optimization

101

Chapter 8
Generalities and unconstrained
optimization
Soit E un ensemble et f une fonction definie sur E a` valeurs reelles. Resoudre
le probl`eme de minimisation:
inf f (x)
(8.1)

xE

cest trouver x E tel que f (x ) f (x) pour tout x E. Un tel x


(sil existe) est alors une solution de (8.1). La quantite inf xE f (x) (valant
eventuellement , voir plus bas) est appelee valeur du probl`eme (8.1).
Cette valeur est differente de si et seulement si f est minoree sur E,
evidemment seul ce cas presente de linteret.
A ce stade, un petit rappel simpose sur les bornes inferieures de parties
de R, en effet la valeur du probl`eme (8.1) est par definition la borne inferieure
du sous-ensemble de R, f (E) := {f (x) : x E}. Si A est une partie non
vide de R, sa borne inferieure, inf A est par definition son minorant maximal
dans R {} ce qui signifie dune part:
a inf A, a A
et dautre part
b > inf A, il existe a A tel que a b.
Si A nest pas minoree A alors lensemble de ses minorants est reduit a` {}
et donc inf A = . Enfin, on etend la borne inferieure a` lensemble vide
en posant inf = +.
Si E est un ensemble non vide et f une fonction definie sur E a` valeurs
reelles et minoree, alors la valeur := inf xE f (x) est un nombre reel, ce reel
est caracterise par:
f (x) , x E et > 0, x tel que f (x ) + .
102

En specifiant = n avec (n )n une suite de reels strictement positifs tendant


vers 0, nous en deduisons quil existe xn E tel que
f (xn ) inf f (x) + n .
xE

Comme f (xn ) inf xE f (x), on a donc:


lim f (xn ) = inf f (x).
n

xE

(8.2)

Toute suite (xn )n E N verifiant (8.2) est appelee suite minimisante du


probl`eme (8.1). Lorsque f nest pas minoree sur E, alors := inf xE f (x) =
et une suite minimisante est simplement une suite (xn )n E N verifiant:
lim f (xn ) = inf f (x) = .
n

xE

(8.3)

Notons bien que sans aucune hypoth`ese supplementaire, il existe toujours


des suites minimisantes du probl`eme (8.1).
Lorsque lensemble E est fini, (8.1) rel`eve des methodes de loptimisation
combinatoire qui ne sont pas lobjet de ce cours. Nous consid`ererons ici le
cas de loptimisation continue (E est un continuum, par exemple un ouvert
dun R-evn) ce qui nous permettra dutiliser les resultats de topologie et de
calcul differentiel vus precedemment. En particulier, E sera toujours muni
dune structure metrique. Dans le cadre metrique, on distingue naturellement
les notions locales et globales de solution:
D
efinition 8.1 Soit (E, d) un espace metrique et f une fonction definie sur
E a
` valeurs reelles.
1. On dit que x est une solution globale de (8.1) ou un point de minimum
global de f sur E ssi f (x ) f (x) pour tout x E.
2. On dit que x est une solution locale de (8.1) ou un point de minimum
local de f sur E ssil existe r > 0 tel que f (x ) f (x) pour tout x E
tel que d(x, x ) < r.
3. On dit que x est un point de minimum global strict de f sur E ssi
f (x ) < f (x) pour tout x E \ {x }.
4. On dit que x un point de minimum local strict de f sur E ssil existe
r > 0 tel que f (x ) < f (x) pour tout x E tel que d(x, x ) < r et
x 6= x .
Enfin, on a ecrit (8.1) sous la forme dun probl`eme de minimisation, ce qui
englobe aussi les probl`emes de maximisation, en effet maximiser une fonction
revient a` minimiser son oppose.
103

8.1

Existence theorems

La premi`ere question a` se poser dans un probl`eme doptimisation est : existet-il (au moins) une solution? Nous allons rappeler quelques crit`eres simples
qui assurent lexistence dune telle solution. Rappelons dabord le theor`eme
classique de Weierstrass (voir chapitre 1):
Th
eor`
eme 8.1 Soit (E, d) un espace metrique compact et f C 0 (E, R)
alors il existe x E tel que:
f (x ) = inf {f (x), x E} .
Preuve:
Nous avons deja etabli ce resultat, on se propose ici den donner une preuve
(leg`erement) differente reposant sur la notion de suite minimisante: ce type
de preuve est le point de depart de ce quon appelle la methode directe du
calcul des variations. Soit donc (xn )n E N une suite minimisante de f sur
E:
lim f (xn ) = inf f (x).
(8.4)
n

xE

Comme E est compact, on peut, quitte a` extraire une sous-suite que nous
continuerons a` noter (xn )n , supposer que (xn )n converge vers un element
x E. Comme f est continue, f (xn ) converge vers f (x ), en utilisant (8.4),
il vient donc:
f (x ) = inf {f (x), x E} .
2
En pratique, les hypoth`eses de continuite et surtout celle de compacite
sont assez restrictives et comme nous allons le voir, peuvent etre (un peu)
affaiblies.
Intuitivement, comme on sinteresse ici a` minimiser f , la situation o`
uf
na des sauts que vers le bas nest pas genante (considerer par exemple
f (0) = 0, f (x) = 1 pour x R \ {0}). Cette intuition conduit naturellement
a` la notion de semi-continuite inferieure:
D
efinition 8.2 Soit (E, d) un espace metrique, f une application definie sur
E a
` valeurs reelles et x0 E, on dit que:
1. f est semi-continue inferieurement (s.c.i. en abrege) en x0 ssi:
> 0, r > 0 tq x E, d(x, x0 ) r f (x) f (x0 ) .

(8.5)

2. f est semi-continue inferieurement (s.c.i. en abrege) sur E ssi f est


s.c.i. en chaque point de E.
104

Rappelons quetant donnee une suite de reels (n )n , on note liminf n n la


plus petite valeur dadherence de (n )n dans R {, +}. On a alors la
caracterisation suivante de la semi-continuite inferieure en un point:
Proposition 8.1 Soit (E, d) un espace metrique, f une application definie
sur E a
` valeurs reelles et x0 E. Les assertions suivantes sont equivalentes:
1. f est semi-continue inferieurement en x0 ,
2. pour toute suite (xn )n E N convergeant vers x0 on a:
liminff (xn ) f (x0 ),

(8.6)

Preuve:
1. 2. : soit (xn )n E N convergeant vers x0 et (x(n) )n une sous-suite telle
que
lim f (x(n) ) = liminf n f (xn )
n

Supposons par labsurde que liminf n f (xn ) < f (x0 ) et soit > 0 tel que
lim f (x(n) ) = liminf n f (xn ) f (x0 ) .
n

(8.7)

Puisque f est s.c.i. en x0 il existe r > 0 tel que pour tout x B(x0 , r) on
a : f (x) f (x0 ) /2. Pour n assez grand, on a x(n) B(x0 , r) et donc :
f (x(n) ) f (x0 ) /2 en passant a` la limite on a donc:
lim f (x(n) ) f (x0 ) /2
n

ce qui contredit (8.7)


2. 1. : Supposons que f ne soit pas s.c.i. en x0 alors il existe tel que
pour tout r > 0, il existe x B(x0 , r) tel que f (x) < f (x0 ) . En prenant
r = 1/n, il existe donc xn B(x0 , r) tel que f (xn ) < f (x0 ) , on a alors:
lim xn = x0 et liminff (xn ) f (x0 )
n

ce qui contredit 2..


2
Etant donnee f une application definie sur E a` valeurs reelles, on definit
son epigraphe par:
Epi(f ) := {(x, t) E R : t f (x)}
On a alors la caracterisation suivante de la semi-continuite inferieure:
105

Proposition 8.2 Soit (E, d) un espace metrique, f une application definie


sur E a
` valeurs reelles alors f est semi-continue inferieurement sur E ssi
Epi(f ) est ferme dans E R.
Preuve:
Supposons dabord f semi-continue inferieurement sur E. Soit (xn , tn ) une
suite delements de Epi(f ) convergeant vers (x0 , t0 ) dans E R. Pour tout
n on a f (xn ) tn et comme f est s.c.i. en x0 on a:
f (x0 ) liminff (xn ) liminftn = t0
ainsi (x0 , t0 ) Epi(f ).
Supposons maintenant que Epi(f ) est ferme. Soit x0 E et (xn )n E N
convergeant vers x0 , soit (x(n) ) une sous-suite telle que:
lim f (x(n) ) = liminf n f (xn )
n

Pour tout n, (x(n) , f (x(n) ) Epi(f )) et


lim(x(n) , f (x(n) ) = (x0 , liminf n f (xn )).
n

Comme Epi(f )) est ferme, on en deduit que (x0 , liminf n f (xn )) Epi(f )) ce
qui signifie exactement:
liminf n f (xn )) f (x0 ).
2
Le theor`eme de Weierstrass setend aux fonctions qui sont seulement s.c.i:
Th
eor`
eme 8.2 Soit (E, d) un espace metrique compact et f une fonction
s.c.i. de E dans R alors il existe x E tel que:
f (x ) = inf {f (x), x E} .
Preuve:
Soit (xn )n E N une suite minimisante de f sur E:
lim f (xn ) = inf f (x).
n

xE

(8.8)

Comme E est compact, on peut, quitte a` extraire une sous-suite que nous
continuerons a` noter (xn )n , supposer que (xn )n converge vers un element
x E. Comme f est s.c.i en x , on a:
lim f (xn ) = liminff (xn ) f (x ),
n

106

en utilisant (8.8), il vient donc:


f (x ) = inf {f (x), x E} .
2
Dans un R-ev de dimension finie, on peut remplacer lhypoth`ese de compacite par lhypoth`ese (8.9), appelee hypoth`ese de coercivite.
Th
eor`
eme 8.3 Soit E une partie non vide fermee de Rn , f une fonction
s.c.i. de E dans R telle que1 :
lim

xE , kxk+

f (x) = +

(8.9)

alors il existe x E tel que:


f (x ) = inf {f (x), x E} .
Preuve:
Soit (xn )n E N une suite minimisante de f sur E:
lim f (xn ) = inf f (x) < +.
n

xE

(8.10)

Montrons dabord que (xn )n est bornee: si tel netait pas le cas, il existerait
une sous-suite (x(n) )n verifiant:
lim kx(n) k = +,
n

avec lhypoth`ese de coercivite (8.9), on aurait alors:


lim f (x(n) ) = +,
n

ce qui contredirait (8.10). On a montre que (xn )n est bornee dans E, ferme
dun R-ev de dimension finie, il existe donc une sous-suite (x(n) ) convergeant
vers un element x E. Comme f est s.c.i en x , on a:
liminff (x(n) ) f (x ),
en utilisant (8.10), il vient donc:
f (x ) = inf {f (x), x E} .
1

Rappelons que (8.9) signifie que M > 0, r > 0 tel que pour tout x E, kxk r
f (x) M .

107

2
En dimension infinie, la corecivite ne suffit pas pour conclure (les suites
minimisantes sont bornees mais ca ne suffit plus pour en extraire une sous
suite convergente). Neanmoins, en recourant a` la topologie faible on a le
resultat suivant dans les Hilbert (valable plus generalement dans les Banach
reflexifs):
Theorem 8.1 Soit E un espace de Hilbert, f : E R convexe s.c.i et
coercive alors il existe x E
f (x ) = inf {f (x), x E} .
La convexite est fondamentale dans le theor`eme prededent. On renvoie
par exemple a` [3] pour une demonstration ainsi que la definition et les proprietes des topologies faibles.

8.2

Optimality conditions

On sinteresse dans toute cette partie au probl`eme:


inf f (x)

(8.11)

Avec un ouvert de Rn et f une fonction definie sur a` valeurs reelles


satisfaisant certaines hypoth`eses de differentiabilite qui seront precisees au
fur et a` mesure. Le probl`eme (8.11) avec = Rn par exemple est le probl`emetype doptimisation sans contrainte. Les resultats de ce paragraphe sont
supposes connus aussi les enoncerons-nous sans demonstration.
Rappelons dabord la condition necessaire du premier ordre classique (appelee aussi r`egle de Fermat) qui exprime que les points dextrema locaux de
f sur sont des points critiques de f :
Proposition 8.3 Si x est un point de minimum local de f sur et si
f est differentiable en x alors:
f (x ) = 0.
Proof:
Soit h 6= 0 pour t > 0 assez petit on f (x + th) f (x ) 0 en divisant par
t et en faisant tendre t vers 0+ on obtient f (x ) h 0 et comme h est
arbitraire on en tire le resultat.
2
Comme nous lavons deja vu, dans le cas convexe on a beaucoup mieux:
le fait detre point critique est une condition suffisante de minimum global:
108

Proposition 8.4 Soit un ouvert convexe de Rn , f une fonction convexe


sur . Si f est differentiable en x et f (x ) = 0, alors x est une
solution de (8.11) i.e. un point de minimum global de f sur .
La condition classique necessaire du second-ordre nous est fournie par:
Proposition 8.5 Si x est un point de minimum local de f sur et si
f est deux fois differentiable en x , alors on a:
f (x ) = 0 et la matrice (symetrique) D 2 f (x ) est semi-definie-positive.
Proof:
On a deja vu que f (x ) = 0. Soit h 6= 0 pour t assez petit, on a avec la
formule de Taylor
t2 2
D f (x )h h + o(t2 )
2
en divisant par t2 et en faisant tendre t vers 0, on obtient donc D 2 f (x )hh
0.
2
Terminons par une condition suffisante de minimum local strict :
0 f (x + th) f (x ) =

Proposition 8.6 Si f est deux fois differentiable en x et si lon a:


f (x ) = 0 et la matrice (symetrique) D 2 f (x ) est definie-positive,
alors x est un point de minimum local strict de f sur .
Proof:
On a

1
f (x + h) f (x ) = D 2 f (x )h h + khk2 (h)
2
avec tendant vers 0 quand h tend vers 0. En utilisant le Lemme ci dessous,
on deduit quil existe une constante c > 0 telle que D 2 f (x )h h ckhk2 , et
donc pour h 6= 0 suffisament petit pour que c + 2(h) > 0 on a

c

+ (h) khk2 > 0


f (x + h) f (x )
2

ce qui montre que x est un point de minimum local strict de f .


2

Lemme 8.1 Soit A une matrice definie positive alors il existe c > 0 telle
que
Ah h ckhk2 ; h
Proof:
Soit c := inf{Ah h : khk = 1}, alors c > 0 et on deduit le resultat cherche
par homogeneite. 2
109

Remarque. Bien noter la difference entre la condition necessaire de la


proposition 8.5 et la condition suffisante de la proposition 8.6. Bien noter
aussi que la condition suffisante de la proposition 8.6 nest que locale mais
assure que x est un minimum local strict.

110

Chapter 9
Problems with equality
constraints
Dans ce chapitre nous nous interessons a` des probl`emes doptimisation sous
contraintes degalite dans Rn . Etant donnes un ouvert de Rn , f et g1 , ...., gm
des fonctions definies sur a` valeurs reelles et (c1 , ..., cm ) Rm , on consid`ere
donc le probl`eme:
inf f (x)

(9.1)

A := {x : gj (x) = cj , j = 1, ...., m}

(9.2)

xA

avec:
La fonction f a` minimiser sappelle fonction objectif ou co
ut. Les fonctions
gj et les reels cj definissent les contraintes degalite de (9.1), les elements de
A sappellent les elements admissibles, on supposera evidemment dans ce qui
suit que A 6= . Comme precedemment, on distingue les solutions locales et
globales, strictes et larges:
D
efinition 9.1 .
1. On dit que x est une solution globale de (9.1) ou un point de minimum
global de f sur A ssi f (x ) f (x) pour tout x A.
2. On dit que x est une solution locale de (9.1) ou un point de minimum
local de f sur A ssil existe r > 0 tel que f (x ) f (x) pour tout x A
tel que kx x k < r.
3. On dit que x est un point de minimum global strict de f sur A ssi
f (x ) < f (x) pour tout x A \ {x }.

111

4. On dit que x un point de minimum local strict de f sur A ssil existe


r > 0 tel que f (x ) < f (x) pour tout x A tel que kx x k < r et
x 6= x .
Evidemment, la premi`ere question a` se poser est celle de lexistence dune
solution de (9.1), pour cela, on utilise les resultats du paragraphe 12.1. En
effet, ces derniers ont ete obtenus dans des espaces metriques generaux, ils
sappliquent en particulier a` la partie A de Rn .
Il sera commode dans ce qui suit de noter sous forme plus synthetique les
contraintes. Pour cela, on definit:


Rm
g:
x 7 g(x) := (g1 (x), ..., gm (x))
Ainsi, en posant c = (c1 , ...., cm ), lensemble admissible secrit simplement
A := g 1 ({c}).

9.1

Some linear algebra

Avant daller plus avant, rappelons quelques resultats dalg`ebre lineaire. Tout
dabord, rappelons que si E est un R-ev et E1 et E2 deux sev de E, on dit que
E1 et E2 sont supplementaires (ce que lon note E = E1 E2 ) ssi pour tout
x E il existe un unique (x1 , x2 ) E1 E2 tel que x = x1 + x2 . Autrement
dit E = E1 E2 ssi:

E1 E 2
E
:
(x1 , x2 ) 7 x1 + x2
est un isomorphisme entre E1 E2 et E. Cet isomorphisme permet didentifier
E au produit E1 E2 , dans ce cas on fera lidentification x = x1 + x2 =
1 (x) = (x1 , x2 ). Notons enfin que si E est de dimension finie alors
et 1 sont continues, dans ce cas lidentification precedente x = 1 (x)
nalt`ere en rien les considerations topologiques et differentielles.
Proposition 9.1 Soit E et F deux R-ev, v L(E, F ), E1 := ker(v) et E2
un supplementaire de E1 alors la double restriction de v a
` E2 et Im(v) est
un isomorphisme.
Preuve:
Notons w la double restriction de v a` E2 et Im(v), soit y Im(v), il existe
x E tel que y = v(x). Comme E1 E2 = E, il existe un unique (x1 , x2 )
112

E1 E2 tel que x = x1 + x2 , par definition de E1 , on a v(x1 ) = 0 donc


y = v(x1 +x2 ) = v(x2 ) = w(x2 ) ainsi w est surjective. Supposons maintenant
que x E2 verifie w(x) = 0 = v(x) alors x E1 E2 = {0} ainsi w est
injective.
2
Lemme 9.1 Soit E un R-ev, u1 , ...., um m formes lineaires sur E et u
L(E, Rm ) defini par u(x) := (u1 (x), ..., um (x) pour tout x E. Les assertions
suivantes sont alors equivalentes:
1. u est surjective,
2. u1 , ...., um est une famille libre.
Preuve:
Si u1 , ....,P
um est une famille liee, il existe des reels non tous nuls 1 , ...., m
tels que m
u H est
j=1 j uj = 0. Ainsi pour tout
Pmx E on a u(x) H o`
m
lhyperplan de R defini par lequation j=1 j yj = 0 ainsi Im(u) 6= Rm .
Si u nest pas surjective
Im(u) 6= Rm et donc Im(u) H avec H un
P
m
hyperplan de Rm . Soit j=1 j yj = 0 une equation de H ( 1 , ...., m reels
non tous nuls), comme u(x) H pour tout x E, on a
m
X

j uj (x) = 0, x E.

j=1

Ainsi u1 , ...., um est liee.


2
Achevons ces preliminaires avec une variante dun corollaire du Lemme
de Farkas:
Lemme 9.2 Soit E un R-ev, u1 , ...., um et v m + 1 formes lineaires sur E.
Les assertions suivantes sont alors equivalentes:
1. m
j=1 ker uj ker(v),
2. il existe (1 , ...., m ) Rm telle que:
v=

m
X
j=1

113

j uj .

Preuve:
Tout dabord, il est evident que 2. implique 1.. Supposons maintenant que
1. ait lieu, il sagit de montrer que v F := vect(u1 , ...., um ). F est un
sev de lev de dimension finie G := vect(u1 , ...., um , v). On identifie G a` Rp
(p = dim(G)) et on le munit de la structure hilbertienne usuelle de Rp . Ainsi
on identifie aussi G a` son dual. Si v
/ F , comme F est un sev ferme de G
on peut separer v de F : il existe x Rp et > 0 tels que:
v(x) inf p(x) .
pF

(9.3)

Comme G est un sev, nous deduisons de (9.3) que p(x) = 0 pour tout p F
(voir la demonstration du lemme de Farkas pour les details), en particulier
ceci implique que x m
j=1 ker uj et donc 1. implique que v(x) = 0. Or avec
(9.3), on a v(x) < 0 ce qui constitue la contradiction recherchee. 2

9.2

Lagrange first-order optimality conditions

Proposition 9.2 Soit x A, une solution locale de (9.1). On suppose que:


1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
3. g 0 (x ) est surjective
alors pour tout h Rn , on a:
g 0 (x )(h) = 0 f (x ) h = 0

(9.4)

Preuve:
Il sagit de montrer que:
0

0

E1 := ker(g 0 (x )) = m
j=1 ker(gj (x )) ker(f (x )) = f (x ) .

(9.5)

Soit E2 un supplementaire de E1 , par la suite on notera les elements de


Rn sous la forme x = (x1 , x2 ) selon le decoupage Rn = E1 E2 , on
notera en particulier x = (x1 , x2 ). On notera egalement i , i = 1, 2 les
differentielles partielles selon le decoupage Rn = E1 E2 . Par construction,
on a: 1 g(x ) = 0. Dapr`es la proposition 9.1, 2 g(x ) est un isomorphisme
de E2 sur Im(g 0 (x )) et comme g 0 (x ) est surjective, Im(g 0 (x )) = Rm donc
2 g(x ) est un isomorphisme de E2 vers Rm .
Puisque g(x ) c = 0 et 2 g(x ) est inversible, il resulte du theor`eme des
fonctions implicites quil existe un voisinage ouvert U1 de x1 , un voisinage
114

ouvert U2 de x2 et une application C 1 (U1 , U2 ) tels que U1 U2 ,


(x1 ) = x2 et:
A (U1 U2 ) = {(x1 , (x1 )) : x1 U1 }.
En derivant la relation g(x1 , (x1 )) = c valable sur U1 , il vient:
1 g(x1 , (x1 )) + 2 g(x1 , (x1 )) 0 (x1 ) = 0 x1 U1
en prenant x1 = x1 , en utilisant 1 g(x ) = 0 et le fait que 2 g(x1 , (x1 )) =
2 g(x ) est inversible, on obtient donc:
0 (x1 ) = 0.
Soit h E1 , pour t R suffisamment petit, on a x1 +th U1 , (x1 +th, (x1 +
th)) A et:
f (x1 + th, (x1 + th)) f (x ) = f (x1 , (x1 )).
Ainsi la fonction dune variable, h : t 7 f (x1 + th, (x1 + th)), definie sur
un voisinage ouvert de 0, presente un minimum local en t = 0, comme h est
derivable en 0 il vient donc:
h (0) = 0 = (1 f (x ) + 2 f (x ) 0 (x1 )) (h)

(9.6)

et comme 0 (x1 ) = 0 on en deduit donc que 1 f 0 (x )(h) = 0. Comme h E1 ,


on a donc:
1 f 0 (x )(h) = 0 = f 0 (x )(h).
On a donc bien etabli que E1 := ker(g 0 (x )) ker(f 0 (x )) = f (x ) . 2
Retenez que lidee essentielle de la preuve precedente est de se ramener
a` une minimisation sans contrainte et ce grace au theor`eme des fonctions
implicites.
Les conditions necessaires du premier ordre dites de Lagrange sont alors
fournies par le theor`eme suivant:
Th
eor`
eme 9.1 Soit x A, une solution locale de (9.1). On suppose que:
1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
3. la famille g1 (x ), ....., gm (x ) est libre,

115

alors il existe (1 , ...., m ) Rm tels que:


f (x ) =

m
X

j gj (x ).

(9.7)

j=1

Preuve:
Il resulte du lemme 9.1 que g 0 (x ) est surjective et donc que les hypoth`eses de
0

0
la proposition 9.2 sont satisfaites. Ainsi on a m
j=1 ker(gj (x )) ker(f (x ))
ce qui est equivalent a`:


m
j=1 gj (x ) f (x ) .

Ainsi le lemme 9.2 (ou le lemme de Farkas) permet den deduire quil existe
(1 , ...., m ) Rm tels que:

f (x ) =

m
X

j gj (x ).

j=1

2
Les reels 1 , ...., m intervenant dans (9.7) sont appeles des multiplicateurs
de Lagrange associes aux contraintes de (9.1) au point de minimum local x .
Remarque. Lhypoth`ese que la famille g1 (x ), ....., gm (x ) est libre implique que les multiplicateurs 1 , ....m associes a` x sont uniques. La conclusion du theor`eme 9.1 signifie simplement que le gradient de la fonction
objectif en x appartient a` lespace vectoriel engendre par les gradients des
contraintes en x .
Exemple 9.1 Cherchons a
`Pminimiser f (x1 , ....., xn ) = x1 + .... + xn sous
la contrainte g(x1 , ...xn ) = ni=1 x2i = 1. Tout dabord, par compacite de la
sph`ere il existe au moins une solution. Ensuite notons que g(x) = 2x ainsi
les conditions du th`eor`eme de Lagrange sont remplies. Ainsi si x est un
minimiseur il existe R tel que 1 = xi pour i = 1, ..., n ce qui implique
que les composantes de x sont egales. Avec la contrainte cela laisse les deux
possibilites:
x = (n1/2 , ....., n1/2 ) ou x = (n1/2 , ....., n1/2 ).
Le premier cas correspond au point de maximum de f sur la sph`ere et le
second au point de minimum de f sur la sph`ere.

116

Remarque. Attention a` lhypoth`ese g 0 (x ) surjective (equivalente, rappelons le, au fait que la famille g1 (x ), ....., gm (x ) est libre). Cette hypoth`ese ne peut etre affaiblie pour que la conclusion du theor`eme de Lagrange
reste valide (voir exemple ci-dessous). Par ailleurs, cette hypoth`ese porte sur
x , qui est en pratique ce que lon cherche et donc a priori inconnu! Enfin,
remarquons que si g1 (x ), ....., gm (x ) est libre alors m n cest a` dire
quil y a moins de contraintes que de variables....
Exemple 9.2 Il est facile de construire des contre exemples a
` (9.7) si lhypoth`ese
0
g (x ) surjective nest pas verifiee. Cherchons a
` minimiser f (x, y) = x
sous la contrainte x2 + y 2 = 0: il ny a quun point admissible (0, 0) et
f (0, 0) = (1, 0) 6= g(0, 0) = 0, dans ce cas, a
` cause de la degenerescence
g(0, 0) = (0, 0), il ny a pas de multiplicateur de Lagrange.
Remarque. Nous verrons au paragraphe suivant comment en introduisant
u g 0 (x )
un Lagrangien generalise, on peut aussi traiter les cas degeneres o`

nest pas surjective (i.e. g1 (x ), ....., gm (x ) liee)


Lorsque le probl`eme (9.1) est convexe, la condition (9.7) est suffisante et
assure que le minimum est global. Ce cas est celui o`
u les contraintes sont
affines et lobjectif convexe:
Proposition 9.3 Supposons que est un ouvert convexe de Rn , que f est
une fonction convexe sur et que gj est une fonction affine pour j = 1, ..., m.
Si x A est tel quil existe (1 , ...., m ) Rm tels que:

f (x ) =

m
X

j gj (x ).

(9.8)

j=1

alors f (x ) f (x) pour tout x A.

Preuve:
Soit x A, par convexite de f , on a:
f (x) f (x ) f (x ) (x x )
avec (9.8), il vient donc:

f (x) f (x )

m
X

j gj (x ).(x x ).

j=1

Comme les gj sont affines et gj (x) = gj (x ) = cj on a aussi:


gj (x) gj (x ) = 0 = gj (x ).(x x )
en reportant dans (9.9), il vient bien f (x ) f (x). 2
117

(9.9)

9.3

The Lagrangian and the generalized Lagrangian

Le lagrangien du probl`eme (9.1) est la fonction definie sur Rm par:


L(x, 1 , ....m ) := f (x)

m
X

j (gj (x) cj ).

(9.10)

j=1

Remarquons alors que si f et les fonctions gj sont differentiables en x


alors on a:
m
X
x L(x, 1 , ...., m ) = f (x)
j gj (x).
(9.11)
j=1

et

j L(x, 1 , ...., m ) = cj gj (x)

(9.12)

Ainsi le fait que x A i.e. verifie la contrainte g(x) = c peut sexprimer


par:
j L(x, 1 , ...., m ) = 0 pour j = 1, ..., m
ou, sous forme plus synthetique, en posant = (1 , ...., m ):
L(x, ) = 0.

(9.13)

Avec (9.11), la condition de Lagrange se traduit par:


x L(x, 1 , ...., m ) = 0.
Le theor`eme 9.1 peut donc se reformuler comme suit:
Th
eor`
eme 9.2 Soit x A, une solution locale de (9.1). On suppose que:
1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
3. la famille g1 (x ), ....., gm (x ) est libre,
alors il existe = (1 , ...., m ) Rm tels que:
L0 (x , ) = 0.

118

(9.14)

Nous avons deja discute le caract`ere contraignant de la condition g 0 (x )


surjective qui porte sur le point inconnu x . Pour remedier a` cela on peut
ajouter un multiplicateur a` la fonction objectif, ceci conduit a` la definition
du lagrangien generalise. Le lagrangien generalise du probl`eme (9.1) est la
fonction definie sur Rm+1 par:
L0 (x, 0 , 1 , ....m ) := 0 f (x)

m
X

j (gj (x) cj ).

(9.15)

j=1

La condition du premier ordre peut en effet se formuler par:


Th
eor`
eme 9.3 Soit x A, une solution locale de (9.1). On suppose que:
1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
alors il existe des reels (0 , 1 , ...., m ) Rm+1 non tous nuls tels que:

0 f (x ) =

m
X

j gj (x ).

(9.16)

j=1

Preuve:
Definissons pour tout x , H(x) := (f (x), g(x)) Rm+1 . Par hypoth`ese,
H est differentiable en x : H 0 (x ) = (f 0 (x ), g 0 (x )). Distinguons alors deux
cas:
Premier cas: H 0 (x ) est surjective. Ceci implique que g 0 (x ) est
surjective on peut alors appliquer le theor`eme 9.1 et prendre 0 = 1 dans
(9.16).
Deuxi`
eme cas: H 0 (x ) nest pas surjective. Puisque
0
H 0 (x ) = (f 0 (x ), g10 (x ), ..., gm
(x )),

il resulte alors du lemme 9.1 que la famille de formes lineaires sur Rn ,


0
(f 0 (x ), g10 (x ), ..., gm
(x )) est liee ce qui revient a` dire que
la famille (f (x ), g1 (x ), ..., gm (x )) est liee dans Rn .
Il existe donc des reels (0 , 1 , ...., m ) Rm non tous nuls tels que:

0 f (x ) =

m
X
j=1

2
119

j gj (x ).

Remarque. Notons que la condition (9.16) est equivalente a`:


x L0 (x , 0 , 1 , ...., m ) = 0
par ailleurs, g(x ) c = 0 sexprime aussi sous la forme
j L0 (x , 0 , 1 , ...., m ) = 0 pour j = 1, ..., m.
Notons enfin que
0 L0 (x , 0 , 1 , ...., m ) = f (x )
donc, en general L00 (x , 0 , 1 , ...., m ) est different de 0.

9.4

Second-order optimality conditions

Les conditions necessaires du second-ordre pour un minimum local de (9.1)


sont donnees par:
Th
eor`
eme 9.4 Soit x A, une solution locale de (9.1). On suppose que:
1. f est deux fois differentiable en x ,
2. g est de classe C 2 au voisinage de x ,
3. la famille g1 (x ), ....., gm (x ) est libre,
alors il existe := (1 , ...., m ) Rm tel que:

x L(x , ) = f (x )

m
X

j gj (x ) = 0 et

(9.17)

j=1

2
xx
L(x , )(h, h) 0 pour tout h ker(g 0 (x ))

(9.18)

Preuve:
Il resulte du theor`eme de Lagrange 9.1 quil existe Rm tel que x L(x , ) =
0, autrement dit:
m
X
0
f (x ) =
j gj0 (x ).
(9.19)
j=1

Posons E1 := ker(g 0 (x )) et soit E2 un supplementaire de E1 . Comme


precedemment, on notera les elements de Rn sous la forme x = (x1 , x2 ) selon
la decomposition Rn = E1 E2 , on notera en particulier x = (x1 , x2 ). On
notera egalement i , i = 1, 2 les differentielles partielles selon le decoupage
120

Rn = E1 E2 . Par construction, on a: 1 g(x ) = 0. Dapr`es la proposition


9.1, 2 g(x ) est un isomorphisme de E2 sur Im(g 0 (x )) et comme g 0 (x ) est
surjective, Im(g 0 (x )) = Rm donc 2 g(x ) est un isomorphisme de E2 vers
Rm .
Lidentite (9.19) implique en particulier:

2 f (x ) =

m
X

j 2 gj (x ).

(9.20)

j=1

Puisque g(x ) c = 0 et 2 g(x ) est inversible, il resulte du theor`eme des


fonctions implicites quil existe un voisinage ouvert U1 de x1 , un voisinage
ouvert U2 de x2 et une application C 2 (U1 , U2 ) tels que U1 U2 ,
(x1 ) = x2 et:
A (U1 U2 ) = {(x1 , (x1 )) : x1 U1 }.
En derivant une premi`ere fois la relation g(x1 , (x1 )) = c valable sur U1 ,
il vient:
1 g(x1 , (x1 )) + 2 g(x1 , (x1 )) 0 (x1 ) = 0 x1 U1

(9.21)

en prenant x1 = x1 , en utilisant 1 g(x ) = 0 et le fait que 2 g(x1 , (x1 )) =


2 g(x ) est inversible, on obtient donc:
0 (x1 ) = 0.

(9.22)

En derivant (9.21), il vient:


2
2
11
g(x1 , (x1 )) + 212
g(x1 , (x1 )) 0 (x1 )+
2
22
g(x1 , (x1 ))(0 (x1 ), 0 (x1 )) + 2 g(x1 , (x1 )) 00 (x1 ) = 0.

(9.23)

pour x1 = x1 , en utilisant (9.22), il vient alors:


2
11
g(x ) + 2 g(x ) 00 (x1 ) = 0.

(9.24)

Pour x1 U1 posons F (x1 ) := f (x1 , (x1 )), F presente alors un minimum


local en x1 et comme F est deux fois derivable en x1 on a:
F 0 (x1 )(h) = 0 pour tout h E1 .

(9.25)

F 00 (x1 )(h, h) 0 pour tout h E1 .

(9.26)

et

121

Avec des calculs semblables a` (9.23) et (9.24), on a:


2
F 00 (x1 )(h, h) = 11
f (x )(h, h) + 2 f (x )(00 (x1 )(h, h))

(9.26) devient alors:


2
11
f (x )(h, h) + 2 f (x )(00 (x1 )(h, h)) 0 pour tout h E1 .

(9.27)

Avec (9.20) et (9.24), on a par ailleurs:


2
11
f (x )(h, h) + 2 f (x )(00 (x1 )(h, h))
m
X
2
=11
f (x )(h, h) +
j 2 gj (x )(00 (x1 )(h, h))
2
=11
f (x )(h, h)

j=1
m
X

2
j 11
gj (x )(h, h).

j=1

Si bien que (9.27) se reecrit:


2
11
f (x )

m
X

2
j 11
gj (x ) (h, h) 0 pour tout h E1 = ker(g 0 (x ))

j=1

or pour h E1 , on a:
2
11
f (x )

m
X

2
j 11
gj (x )

j=1

00

(h, h) =(f (x )

m
X

j gj00 (x ))(h, h)

j=1
2

=xx L(x , )(h, h)

ce qui ach`eve la preuve. 2


Remarque. Attention a` la condition h ker(g 0 (x )) dans (9.18). La condition du second-ordre (9.18):
2 L(x , )(h, h) 0 pour tout h ker(g 0 (x ))
2
signifie que la forme quadratique xx
L(x , ) est semi-definie positive sur
0
n
ker(g (x )) (pas sur R en entier en general). Notons quon peut aussi exprimer cette forme quadratique sous la forme developpee:

2
L(x , )
xx

00

= f (x )

m
X
j=1

122

j gj00 (x )

Remarque. Notez bien que pour ecrire la condition du second-ordre, il


faut avoir determine dabord les multiplicateurs de Lagrange.
Enfin, voici des conditions suffisantes pour un minimum local de (9.1):
Th
eor`
eme 9.5 Soit x A. On suppose que:
1. f est deux fois differentiable en x ,
2. g est de classe C 2 au voisinage de x ,
3. la famille g1 (x ), ....., gm (x ) est libre,
Sil existe := (1 , ...., m ) Rm tel que:

x L(x , ) = f (x )

m
X

j gj (x ) = 0 et

(9.28)

j=1

2
xx
L(x , )(h, h) > 0 pour tout h ker(g 0 (x )), h 6= 0

(9.29)

alors x est un point de minimum local strict de f sur A.


Preuve:
En reprenant les notations de la preuve du theor`eme 9.5, il suffit de montrer
que x1 est un point de minimum local strict de F (rappelons que F (x1 ) :=
f (x1 , (x1 )) pour x1 U1 ). On commence par remarquer:
F 0 (x1 ) = 1 f (x ) + 2 f (x ) 0 (x1 )
Or, nous savons que

(x1 )

= 0, 1 g(x ) = 0 et 1 f (x ) =

m
X

j 1 gj (x ) = 0

j=1

et donc F 0 (x1 ) = 0. Comme dans la preuve du theor`eme 9.5, on a aussi pour


tout h ker(g 0 (x )) = E1 :
2
F 00 (x1 )(h, h) =11
f (x )(h, h) + 2 f (x )(00 (x1 )(h, h))
m
X
00
=(f (x )
j gj00 (x ))(h, h)
j=1
2

=xx L(x , )(h, h)

Ainsi par (9.29), F 00 (x1 ) est une forme quadratique definie positive sur E1 .
On deduit alors de la proposition 8.6 que x1 est un point de minimum local
strict de F et donc un point de minimum local strict de f sur A .
2
123

Chapter 10
Problems with equality and
inequality constraints
10.1

Notations

Dans ce chapitre nous nous interessons a` des probl`emes doptimisation sous


contraintes degalite et dinegalite dans Rn . Etant donnes un ouvert de
Rn , f , g1 , ...., gm , k1 , ..., kp des fonctions definies sur a` valeurs reelles et des
reels c1 , ... , cm , d1 , ...., dp , on consid`ere le probl`eme:
inf f (x)

xA

(10.1)

avec:
A := {x : gj (x) = cj , j = 1, ...., m, , ki (x) di , i = 1, ...., p}

(10.2)

La fonction f a` minimiser sappelle fonction objectif ou co


ut. Les fonctions
gj et les reels cj definissent les contraintes degalite de (10.1), les fonctions ki
et les reels di definissent les contraintes dinegalite de (10.1). Les elements
de A sappellent les elements admissibles, on supposera evidemment dans ce
qui suit que A 6= . Comme precedemment, on distingue les solutions locales
et globales, strictes et larges:
D
efinition 10.1 .
1. On dit que x est une solution globale de (9.1) ou un point de minimum
global de f sur A ssi f (x ) f (x) pour tout x A.
2. On dit que x est une solution locale de (9.1) ou un point de minimum
local de f sur A ssil existe r > 0 tel que f (x ) f (x) pour tout x A
tel que kx x k < r.
124

3. On dit que x est un point de minimum global strict de f sur A ssi


f (x ) < f (x) pour tout x A \ {x }.
4. On dit que x un point de minimum local strict de f sur A ssil existe
r > 0 tel que f (x ) < f (x) pour tout x A tel que kx x k < r et
x 6= x .
Pour etudier lexistence dune solution de (10.1), on utilise les resultats
du paragraphe 12.1.
Il sera commode dans ce qui suit de noter sous forme plus synthetique les
contraintes degalite, on definit:


Rm
g:
x 7 g(x) := (g1 (x), ..., gm (x))
Ainsi les contraintes degalite de (10.1) secrivent simplement g(x) = c (c :=
(c1 , ..., cm )).
Soit x A si ki (x) = di alors on dit que la i-`eme contrainte dinegalite est
saturee en x (certains disent plutot serree, et en anglais, on dit : binding).
On note I(x) lensemble des contraintes saturees en x A:
I(x) := {i {1, ...., p} t.q. ki (x) = di } .

10.2

Preliminaries

Dans tout ce paragraphe on consid`ere x A tel que les conditions suivantes


sont satisfaites:
1. g est de classe C 1 au voisinage de x ,
2. ki est differentiable en x pour tout i I(x ),
3. la famille g1 (x ), ....., gm (x ) est libre,
4. les contraintes dnegalite sont qualifiees en x ce qui par definition
signifie:
h0 ker(g 0 (x )) tel que ki (x ) h0 < 0 i I(x ).

(10.3)

Lhypoth`ese de qualification (10.3) est tr`es importante, elle peut egalement


sexprimer par
h0 tel que gj (x ) h0 = 0 j {1, ..., m}, et
ki (x ) h0 < 0 i I(x ).
125

Posons E1 := ker(g 0 (x )) et soit E2 un supplementaire de E1 . Comme


dans le chapitre precedent, on notera les elements de Rn sous la forme x =
(x1 , x2 ) selon le decoupage Rn = E1 E2 , on notera en particulier x =
(x1 , x2 ). On notera egalement i , i = 1, 2 les differentielles partielles selon
le decoupage Rn = E1 E2 . Par construction, on a: 1 g(x ) = 0. Comme
au chapitre precedent, 2 g(x ) est un isomorphisme de E2 vers Rm . Puisque
g(x ) c = 0 et 2 g(x ) est inversible, il resulte du theor`eme des fonctions
implicites quil existe un voisinage ouvert U1 de x1 , un voisinage ouvert U2
de x2 et une application C 1 (U1 , U2 ) tels que U1 U2 , (x1 ) = x2
et:
{(x1 , x2 ) U1 U2 : g(x1 , x2 ) = c} = {(x1 , (x1 )) : x1 U1 }.

(10.4)

En derivant la relation g(x1 , (x1 )) = c valable sur U1 , il vient:


1 g(x1 , (x1 )) + 2 g(x1 , (x1 )) 0 (x1 ) = 0 x1 U1
en prenant x1 = x1 , en utilisant 1 g(x ) = 0 et le fait que 2 g(x1 , (x1 )) =
2 g(x ) est inversible, on obtient donc:
0 (x1 ) = 0.

(10.5)

Fixons maintenant > 0 et h Rn verifiant:


h E1 = ker(g 0 (x )) et ki (x ) h 0 i I(x ).

(10.6)

Definissons pour t > 0:


x1 (t) = x1 + t(h + h0 ).

(10.7)

On a alors x1 (0) = x1 , x1 (t) E1 et x1 (t) U1 pour t > 0 assez petit.


Definissons pour t > 0 assez petit pour que x1 (t) U1 :
x(t) := (x1 (t), (x1 (t))).

(10.8)

Par construction, notons que x(0) = x et avec (10.4), g(x(t)) = c pour t > 0
assez petit. On a alors:
Lemme 10.1 Sous les hypoth`eses precedentes soit x(t) U1 U2 defini par
(10.8) pour t > 0 assez petit, on a:
x(t) = x + t(h + h0 ) + o(t)
et x(t) A pour t > 0 assez petit.
126

Preuve:
On a x1 (t) = x + t(h + h0 ), posons x2 (t) = (x1 (t)) comme x1 (0) = x1 et
est derivable en x1 avec 0 (x1 ) = 0, x2 est derivable en 0 avec:
x 2 (t) = 0 (x1 )(h + h0 ) = 0
donc x2 (t) = o(t) et comme x(t) = (x1 (t), x2 (t)), il vient:
x(t) = (x1 + t(h + h0 ), x2 + o(t)) = x + t(h + h0 ) + o(t).

(10.9)

On sait deja que g(x(t)) = c, il sagit de montrer que x(t) satisfait aussi
les contraintes dnegalite pour t > 0 assez petit, pour cela distinguons les
contraintes saturees des contraintes non saturees en x . Si i
/ I(x ) alors
ki (x ) < di et puisque ki est continue en x = x(0) et x(.) est continue en
t = 0, on a par continuite ki (x(t)) < di pour t > 0 assez petit. Si i I(x )
alors on a ki (x ) = ki (x(0)) = di et avec(10.9) on a:
ki (x(t)) = di + tki (x ) (h + h0 ) + o(t)
par hypoth`ese ki (x ) h 0 et ki (x ) h0 < 0 donc ki (x(t)) di pour
t > 0 assez petit.
2

10.3

Kuhn and Tucker optimality conditions

Nous sommes en mesure de prouver le theor`eme de Kuhn et Tucker (parfois


aussi appele theor`eme de Karush, Kuhn et Tucker ou KKT):
Th
eor`
eme 10.1 Soit x A une solution locale de (10.1) telle que:
1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
3. ki est differentiable en x pour tout i I(x ),
4. la famille g1 (x ), ....., gm (x ) est libre,
5. les contraintes dnegalite sont qualifiees en x :
h0 ker(g 0 (x )) tel que ki (x ) h0 < 0 i I(x ).

127

alors il existe (1 , ...., m ) Rm et i 0 pour tout i I(x ) tel que:

f (x ) =

m
X

j gj (x )

j=1

i ki (x ).

(10.10)

iI(x )

Preuve:
Soit h verifiant (10.6) et x(t) defini pour t > 0 assez petit par (10.8), dapr`es
le lemme 10.1, on a x(t) A, comme x(0) = x et x(.) est continu en 0 on a
donc pour t > 0 assez petit:
1
(f (x(t)) f (x(0)) 0.
t

(10.11)

Comme f est differentiable en x et en utilisant la premi`ere partie du lemme


10.1, on peut passer a` la limite t 0+ dans (10.11), il vient alors:
f (x ) (h + h0 ) 0.

(10.12)

comme > 0 est arbitraire, on obtient aussi:


f (x ) h 0.

(10.13)

Comme (10.13) a lieu pour tout h verifiant (10.6), on deduit (10.10) du lemme
de Farkas. 2
Les reels j et i sont appeles des multiplicateurs de Kuhn et Tucker
associes aux contraintes de (10.1) au point de minimum local x .
Il faut retenir les remarques importantes et utiles en pratique:
si toutes les contraintes sont lineaires, les hypoth`eses de qualification
4. et 5. sont superflues (reprendre la preuve : on na plus besoin du
h0 !)
de meme, si les contraintes dinegalite sont lineaires, lhypoth`ese 5. est
superflue,
si les gradients des contraintes degalite et des contraintes dinegalite
saturees an x forment une famille libre, les conditions de qualification
4. et 5. sont satisfaites (utiliser le lemme 9.2).
Lorsque le probl`eme (10.1) est convexe, la condition (10.10) est suffisante
et assure que le minimum est global.

128

Proposition 10.1 Supposons que est un ouvert convexe de Rn , que f et


k1 , ..., kp sont des fonctions convexes sur , gj est une fonction affine pour
j = 1, ..., m. Si x A est tel quil existe (1 , ...., m ) Rm et i 0 pour
tout i I(x ) tel que:
f (x ) =

m
X

j gj (x )

j=1

i ki (x ).

(10.14)

iI(x )

alors pour f (x ) f (x) pour tout x A.


Preuve:
Soit x A, par convexite de f , on a:
f (x) f (x ) f (x ) (x x )
avec (10.14), il vient donc:

f (x) f (x )

i ki (x ).(x x ) +

m
X

j gj (x ).(x x ). (10.15)

j=1

iI(x )

Comme les gj sont affines et gj (x) = gj (x ) = cj on a aussi:


gj (x) gj (x ) = 0 = gj (x ).(x x )
en reportant dans (9.9), il vient donc:
X
f (x ) f (x)
i ki (x ).(x x )

(10.16)

iI(x )

Pour i I(x ), ki (x ) = di et puisque x A, on a ki (x) di , par convexite


de ki il vient alors:
0 ki (x) ki (x ) ki (x ).(x x )

(10.17)

en reportant dans (10.16), il vient bien f (x ) f (x). 2

10.4

Lagrangian

On peut aussi formuler les conditions doptimalite KKT, au moyen du lagrangien associe a` (10.1). Lidee est dintroduire des multiplicateurs pour
toutes les contraintes dinegalite dans (10.10), pour tout i on a:
129

soit i
/ I(x ) et i = 0 dans (10.10),
soit i I(x ) et donc ki (x ) di .
ce quon peut resumer par la condition de complementarite entre multiplicateurs et contraintes qui exprime que si une contrainte nest pas saturee le
multiplicateurs associe est nul:
i (ki (x ) di ) = 0 pour tout i {1, ...., p}.

(10.18)

Le lagrangien du probl`eme (9.1) est la fonction definie pour tout (x, , )


Rm (R+ )p par:
L(x, , ) := f (x)

m
X

j (gj (x) cj ) +

p
X

i (ki (x) di ).

(10.19)

i=1

j=1

Remarquons alors que si f et les fonctions gj sont differentiables en x


alors on a:
x L(x, , ) = f (x)

m
X

j gj (x) +

p
X

i ki (x).

(10.20)

i=1

j=1

j L(x, , ) = cj gj (x)

(10.21)

i L(x, , ) = ki (x) di

(10.22)

et
Ainsi le fait que x A i.e. verifie la contrainte g(x ) = c peut sexprimer
par:
L(x , , ) = 0.
(10.23)
Avec (9.11) et (10.18), la condition de Kuhn et Tucker se traduit par:
x L(x , , ) = 0.
Le theor`eme 10.10 peut donc se reformuler comme suit:
Th
eor`
eme 10.2 Soit x A une solution locale de (10.1) telle que:
1. f est differentiable en x ,
2. g est de classe C 1 au voisinage de x ,
3. ki est differentiable en x pour tout i I(x ),
4. la famille g1 (x ), ....., gm (x ) est libre,
130

5. les contraintes dnegalite sont qualifiees en x :


h0 ker(g 0 (x )) tel que ki (x ) h0 < 0 i I(x ).
alors il existe = (1 , ...., m ) Rm et (1 , ...., m ) Rm
+ tels que:
i (ki (x) di ) = 0 i {1, , p}

(10.24)

x L(x , , ) = 0.

(10.25)

L(x , , ) = 0.

(10.26)

131

Chapter 11
Problems depending on a
parameter
11.1

Continuous dependence and Berges Theorem

Nous entamons ce chapitre par le theor`eme de Berge. Ce resultat de dependance


continue pour les probl`emes doptimisation dependant dun param`etre est
tr`es utile en pratique et pas uniquement en programmation dynamique. Dans
la litterature, ce theor`eme est souvent appele theor`eme du maximum, nous
eviterons soigneusement cette terminologie pour eviter toute confusion: il existe deja deux principes du maximum (le principe de Pontriaguine en controle
que nous verons plus tard et le principe du maximum pour les equations elliptiques) qui nont rien a` voir entre eux et encore moins avec le theor`eme de
Berge ci-dessous!
Th
eor`
eme 11.1 Soit X et Y deux metriques, F une correspondance continue, a
` valeurs compactes, non vides de X dans Y , f C 0 (X Y, R).
Pour tout x X soit:
g(x) := max f (x, y) et M (x) := {y F (x) : f (x, y) = g(x)}.
yF (x)

Alors g est continue sur X et M est une correspondance a


` valeurs non vides,
h.c.s..
Preuve:
Le fait que M est une correspondance a` valeurs compactes non vides decoule
immediatement de la continuite de f et du fait que F (x) est compact non
vide pour tout x X.
132

Montrons que g est continue. Soit donc xn une suite de X convergeant


vers x. Soit zn F (xn ) tel que g(xn ) = f (xn , zn ). Considerons une suite
extraite (xnj , znj ) verifiant
lim f (xnj , znj ) = lim sup f (xn , zn ) = lim sup g(xn ).
j

Comme F est h.c.s., quitte a` extraire a` nouveau, on peut supposer que znj
converge vers une limite z F (x), ainsi g(x) f (x, z) et par continuite de
f , on a:
lim sup g(xn ) = lim f (xnj , znj ) = f (x, z) g(x).
j

Soit maintenant y F (x) tel que g(x) = f (x, y), comme F est h.c.i., il existe
yn F (xn ) telle que yn converge vers y, comme g(xn ) f (xn , yn ), il vient:
lim inf g(xn ) lim inf f (xn , yn ) = f (x, y) = g(x).
n

On a donc etabli la continuite de g.


Il reste a` etablir que M est h.c.s.. Soit x X, xn convergeant vers x
dans X et yn M (xn ). Comme M (xn ) F (xn ) et F est h.c.s., il existe une
sous-suite ynj convergeant vers une limite y F (x). Par ailleurs pour tout
j, on a f (xnj , ynj ) = g(xnj ), par continuite de f et g, en passant a` la limite
il vient f (x, y) = g(x) i.e. y M (x); M est donc h.c.s.. 2
Remarquons que si en plus M (x) est reduit a` un point pour tout x alors
M (x) depend contin
ument de x.

11.2

Envelope Theorems

Now we are interested in differentiating (when it is possible), the value of


some optimization problems depending on a parameter (either in the objective or in the contraints, or both). Envelope theorems basically give conditions that guarantee some differentiability of the value and explicit formulas
for the derivatives. These kinds of results are particularly useful in microeconomics.
Let us start with the following, let K be some compact metric space, let
g be some continuous function Rd K and set
v(x) = max f (x, y), x Rd
yK

let us further assume that

133

for every x Rd there exists a unique y(x) K such that v(x) =


f (x, y(x)) (so that x y(x) is continuous as a consequence of Berges
Theorem)
for every y K, f (., y) is differentiable and x f is continuous with
respect to (x, y).
Theorem 11.1 Under the assumptions above, the value function v is of class
C 1 and one has
v(x) = x f (x, y(x)), x Rd
(11.1)
Proof:
Let h Rd \ {0}, and for t > 0, let us set xt := x + th, yt := y(xt ), y0 := y(x),
we then have
1
1
1
(v(xt ) v(x)) = (f (xt , yt ) f (x, y0 )) (f (x + th, y0 ) f (x, y0 ))
t
t
t
so that

1
lim inf (v(xt ) v(x)) x f (x, y0 ) h.
t

(11.2)

Similarly
1
1
1
(v(xt ) v(x)) = (f (xt , yt ) f (x, y0 )) (f (x + th, yt ) f (x, yt ))
t
t
t
by the mean-value Theorem, there exists t0 (0, 1) (depending on t) such
that f (x + th, yt ) f (x, yt ) = tx f (xt0 , yt ) h, hence
1
lim sup (v(xt ) v(x)) lim supx f (xt0 , yt ) h.
t
By continuity of x f we thus have
1
lim sup (v(xt ) v(x)) x f (x, y0 ) h.
t

(11.3)

This proves that v is Gateaux differentiable with Gateaux derivative x


x f (x, y(x)), since this function is continuous we deduce that v is of class
C 1 and that (11.1) holds. 2
Remark. If K is some open subset of Rk , if f is C 1 and there is a C 1
function x y(x) such that v(x) = f (x, y(x)) (which is not so easy to
check a priori), then the same conclusion as in Theorem 11.1 holds. To
prove this variant, remark that y f (x, y(x)) = 0 and then use the chain rule
v 0 (x) = fx0 (x, y(x)) + fy0 (x, y(x))y 0 (x)) = fx0 (x, y(x)).
134

Now let us consider the constrained case, and more precisely let us define
v(x) := max{f (x, y) : g(x, y) = 0}
yRk

where f and g are of class C 1 , g = g1 , ...., gm and the gradients (with respect
to y) of the constraints are linearly independent so that optimal ys satisfy
the Lagrange conditions:
y f (x, y) =

m
X

i y gi (x, y)

i=1

for some (unique) Lagrange multipliers 1 , ...., m . Let us also assume for
simplicity that in a neighbourhood of some x there is an optimal y(x) and
that the optimal mapping x y(x) is of class C 1 . We denote by 1 , ...., m
the Lagrange multipliers for the value x of the parameter
Theorem 11.2 Under the assumptions above, v is differentiable at x and
one has
m
X
i x gi (x, y(x)).
v(x) = x f (x, y(x))
i=1

Proof:
We differentiate v(x) = f (x, y(x)) to get first
v 0 (x) = fx0 (x, y(x)) + fy0 (x, y(x)) y 0 (x)
P
0
by the Lagrange relation fy0 (x, y(x)) =
i giy
(x, y(x)) we then get
X
0
i giy
v 0 (x) = fx0 (x, y(x)) +
(x, y(x)) y 0 (x).

(11.4)

(11.5)

Differentiating the constraint gi (x, y(x)) = 0 we get


0
0
gix
(x, y(x)) = giy
(x, y(x)) y 0 (x))

(11.6)

replacing in (11.5) we then have


v 0 (x) = fx0 (x, y(x))

0
i gix
(x, y(x)).

2
In the special case f (x, y) = f (y) and g(x, y) = g(y)x (think of a budget
constraint), the previous result gives xi v(x) = i : the multiplier gives the
marginal impact of xi (an increase on the budget, say) on the value. The
theory of convex duality (see [6]) gives more general results of this kind and
nice interpretations of multipliers in the framework of convex programming.
135

Part IV
Dynamic Optimization

136

Chapter 12
Problems in discrete time
12.1

Examples

12.1.1

Shortest path on a graph

Il sagit ici du probl`eme type de programmation dynamique en horizon fini


avec espace detat fini et qui revient a` un probl`eme doptimisation sur un
graphe, sa resolution illustre de mani`ere simple le principe de la programmation dynamique. Considerons un voyageur de commerce qui doit se rendre de
la ville A a` la ville E en passant par plusieurs villes intermediaires, les chemins
possibles sont donc modelises par un graphe ayant A et E pour sommets initial et final (les autres sommets representant les villes etapes), les arretes de
ce graphe representant les trajets intermediaires. On notera (M ) les successeurs de la ville M et pour N (M ) on notera M N le temps du parcours
M N . Enfin, on donne: (A) = {B, B 0 }, AB = 1 = AB 0 , (B) = {C, C 0 },
(BC, BC 0 ) = (2, 1), (B 0 ) = {C 0 , C 00 }, (B 0 C 0 , B 0 C 00 ) = (2, 4), (C 00 ) = {D 0 },
C 00 D 0 = 1, (C) = {D}, CD = 1, (C 0 ) = {D, D 0 }, (C 0 D, C 0 D 0 ) = (2, 1),
(D) = (D 0 ) = {E}, (DE, D 0 E) = (5, 2). Pour determiner le ou les chemins
les plus courts on pourrait bien s
ur tous les essayer mais il est bien plus judicieux dutiliser la remarque suivante(qui est precisement le principe de la
programmation dynamique dans sa version la plus simple):
Si un chemin optimal de A `
a E passe par M alors il est encore
optimal entre M et E.
Introduisons la fonction valeur V (M ) := temps de parcours minimal
entre M et E. Evidemment V se calcule facilement en partant de la fin puis
en procedant par retroaction arri`ere ou backward induction; on a dabord
V (D) = 5, V (D 0 ) = 2
on remonte ensuite aux villes precedentes, le principe de la programmation
137

dynamique donne en effet:


V (C) = 6, V (C 0 ) = min(1 + V (D 0 ), 2 + V (D)) = 1 + V (D 0 ) = 3, V (C 00 ) = 3.
Reiterant largument, il vient:
V (B) = min(2 + V (C), 1 + V (C 0 )) = 1 + V (C 0 ) = 4,
V (B 0 ) = min(2 + V (C 0 ), 4 + V (C 00 )) = 5
et enfin
V (A) = min(1 + V (B), 1 + V (B 0 )) = 1 + V (B) = 5.
Le temps de parcours minimal est donc de 5 et correspond au seul parcours
ABC 0 D 0 E.
Cet exemple pour elementaire quil soit est instructif a` plusieurs egards:
1. on voit aisement comment generaliser la strategie precedente a` des
probl`emes plus generaux de forme: introduire les fonctions valeurs aux
differentes dates, les calculer en partant de la fin puis par backward
induction en utilisant le principe de la programmation dynamique,
2. dans lexemple precedent, on na pas essaye tous les chemins possibles
mais seulement les chemins optimaux a` partir de M qui ont ici tous
ete determines. De fait, les raisonnements precedents montrent par
exemple que si le voyageur de commerce segare en B 0 (par lequel il
nest pas optimal de passer partant de A) alors par la suite il sera
optimal de passer par C 0 D 0 E.
3. Il peut paraitre curieux alors quon sest pose un seul probl`eme (issu
du point A) de chercher a` resoudre tous les probl`emes issus des points
intermediaires. Donnons deux arguments pour lever cette objection:
tout dabord la strategie de resolution precedente est robuste (si une
erreur est commise a` un moment donne et conduit a` passer par une
ville non optimale M alors on peut se rattraper par la suite en suivant
le chemin optimal a` partir de M ), ensuite cette strategie est naturelle
(choisir la ville suivante en fonction de la ville o`
u on se trouve maintenant plutot que de suivre un plan etabli exactement a` lavance) et
permet de se ramener a` une succession de probl`emes statiques.

138

12.1.2

One sector optimal growth

On consid`ere une economie dans laquelle a` chaque periode un seul bien est
produit servant a` la fois a` la consommation et a` linvestissement. On note
respectivement ct , it , kt , et yt la consommation, linvestissement, le capital et
la production de periode t. On suppose que yt = F (kt ), F etant la fonction
de prodution, et que le capital se deprecie au taux [0, 1]. On a alors;
ct + it = yt = F (kt ), et kt+1 = (1 )kt + it
do`
u lon tire (en posant f (k) := F (k) + (1 )k):
ct = f (kt ) kt+1 .
On impose evidemment a` ct et kt detre positifs do`
u la contrainte:
0 kt+1 f (kt ).
Finalement on suppose que leconomie maximise lutilite intertemporelle:

t u(ct ).

t=0

En fonction du capital ce probl`eme devient:


(
)
X
sup
t u(f (kt ) kt+1 )
t=0

sous les contraintes: k0 donnee et 0 kt+1 f (kt ) pour t 0. On peut


generaliser le probl`eme precedent au cas de plusieurs secteurs, au cas dune
offre de travail inelastique, a` lintroduction du capital humain etc...

12.1.3

Optimal management of a forest

On consid`ere une foret qui initialement est de taille x0 , xt est sa taille a` la


date t (variable detat). Un exploitant choisit a` chaque periode un niveau de
coupe vt (variable de controle), levolution de la foret est supposee regie par
la dynamique:
xt+1 = H(xt ) vt .
En supposant que le prix du bois est constant egal a` 1 et que le co
ut de
labattage est C, le profit actualise de lexploitant secrit:

t [vt C(vt )].

t=0

139

En reecrivant ce profit en fonction de la variable detat et en imposant vt 0


et xt 0, le programme de lexploitant se reecrit sous la forme:
(
)
X
t
sup
[H(xt ) xt+1 C(H(xt ) xt+1 )
t=0

sous les contraintes: x0 donnee et 0 xt+1 H(xt ) pour t 0.

12.2

Finite horizon

On se propose detudier des probl`emes de programmation dynamique en


temps discret et en horizon fini:
(T 1
)
X
sup
Vt (xt , xt+1 ) + VT (xT )
(12.1)
(xt )

t=0

sous les contraintes: x0 = x A donne (autrement dit x est la condition


initiale), xt A pour t = 1, .., T et xt+1 t (xt ) pour tout t = 0, ..., T 1,
T sappelle lhorizon du probl`eme et lensemble A est appele espace detats,
t est une correspondance de A (i.e. une application de A dans lensemble
des parties de A on dit aussi une application multivoque) qui modelise les
contraintes sur la dynamique (t (xt ) est lensemble des successeurs possibles
de xt ), les fonctions Vt : A A R sont les payoffs de chaque periode et
enfin VT : A R est la fonction de payoff terminale. Sans perte de generalite
nous suposerons ici que VT = 0.
Nous avons resolu un probl`eme de type (12.1) au chapitre precedent. Nous
allons voir dans ce chapitre, qui se veut aussi peu technique que possible,
comment generaliser la strategie de resolution du probl`eme de plus court
chemin du paragraphe 12.1.1.
On note graph(t ) le graphe de la corespondance t :
graph(t ) := {(x, y) A A : y t (x)}.

On supposera en outre que les correspondances t sont a` valeurs non vides


i.e. t (x) 6= pour tout x A.
Concernant lexistence de solutions, remarquons que si lon suppose que
A est un espace metrique compact, que pour t = 0, ..., T 1, que graph(t )
est ferme (donc compact dans A A) et que Vt C 0 (graph(t ), R), alors
il est trivial que ces conditions assurent que (12.1) admet au moins une
solution; ces conditions assurent aussi que t (x) est un compact de A pour
tout x A. Notons enfin que ces conditions sont toujours satisfaites dans le
cas o`
u lespace detats A est fini. Nous naurons cependant pas besoin dans
ce qui suit de faire ces hypoth`eses de compacite.
140

12.2.1

Dynamic programming principle

Compte tenu de la structure recursive du probl`eme il est judicieux dintroduire


les fonctions-valeur aux differentes dates. Pour x A on definit donc:
nP
o
T 1
v(0, x) := sup
V
(x
,
x
)
:
x

(x
),
x
=
x
t t
t+1
t+1
t t
0
t=0
nP
o
T 1
v(1, x) := sup
V
(x
,
x
)
:
x

(x
),
x
=
x
t t
t+1
t+1
t t
1
t=1
.
.
.
.
.
.
v(T 1, x) :=
sup {VT 1 (x, xT ) : xT T 1 (x)} .
et enfin v(T, x) = VT (x) = 0.
Dans ce qui suit nous dirons quune suite (x, x1 , ...., xT ) = (x0 , x1 , ..., xT )
est solution du probl`eme v(0, x) si cette suite est admissible (i.e. verifie les
contraintes du probl`eme) et
v(0, x) :=

T 1
X

Vt (xt , xt+1 ).

t=0

On etend la definition precedente aux probl`emes aux differentes dates.


Le principe de la programmation dynamique sexprime comme suit:
Proposition 12.1 Soit x A; si (x0 , x1 , ..., xT ) = (x, x1 , ..., xT ) est une solution du probl`eme v(0, x) alors pour tout = 1, ..., T 1, la suite (x , ..., xT )
est solution du probl`eme v(, x ).
Preuve:
Par definition on a:
v(0, x) :=

T 1
X

Vt (xt , xt+1 ).

(12.2)

t=0

Supposons que pour une date {1, ..., T 1}, la suite (x , ..., xT ) nest pas
solution du probl`eme v(, x ) alors il existe (z , z +1 , ....zT ) = (x , z +1 , ....zT )
admissible pour le probl`eme v(, x ) telle que:
T 1
X

Vt (xt , xt+1 ) <

t=

T 1
X

Vt (zt , zt+1 ).

t=

En definissant alors la suite (admissible pour v(0, x)) (y0 , ..., yT ) par (y0 , ..., yT ) =
(x, x1 , ..., x , z +1 , ..., zT ), on obtient avec (12.2):
v(0, x) <

T 1
X

Vt (yt , yt+1 )

t=0

141

ce qui contredit la definition meme de v(0, x).


2
Notons bien que dans la proposition, on a suppose lexistence dune suite
optimale. Sans faire cette hypoth`ese (et en autorisant les fonctions-valeur a`
prendre eventuellement la valeur +), on obtient des relations fonctionnelles
recursives (equations de Bellman) reliant les fonctions valeurs aux dates successives.
Proposition 12.2 Soit x A, on a:
v(0, x) = sup {V0 (x, y) + v(1, y) : y 0 (x)}

(12.3)

De meme pour t {1, ..., T 1}:


v(t, x) = sup {Vt (x, y) + v(t + 1, y) : y t (x)} .

(12.4)

Preuve:
Evidemment, il suffit detablir (12.3). Soit y 0 (x) et (y1 , ..., yT ) =
(y, ..., yT ) telle que yt+1 t (yt ) pour t 1, la suite (x, y1 , ..., yT ) etant
admissible pour v(0, x) il vient:
v(0, x) V0 (x, y) +

T 1
X

Vt (yt , yt+1 )

t=1

passant au supremum en (y2 , ..., yT ), puis en y = y1 0 (x) dans le membre


de droite il vient:
v(0, x) sup {V0 (x, y) + v(1, y) : y 0 (x)} .
Soit > 0 et (x0 , x1 , ..., xT ) = (x, x1 , ..., xT ) admissible pour v(0, x) telle que:
v(0, x)

T 1
X

Vt (xt , xt+1 )

t=0

On a ainsi:
sup{V0 (x, y) + v(1, y) : y 0 (x)} V0 (x, x1 ) + v(1, x1 )

T 1
X

Vt (xt , xt+1 ) v(0, x)

t=0

Comme > 0 est arbitraire on en deduit (12.3). 2


142

12.2.2

Backward induction

En utilisant la proposition 12.2, et la relation terminale v(T, x) = VT (x) pour


tout x A, il est possible (au moins en theorie mais aussi en pratique dans
certaines applications), de calculer toutes les fonctions valeurs en partant de
la date finale T (backward induction). En remontant les equations, on
calcule dabord v(T 1, .):
v(T 1, x) = sup {VT 1 (x, y) : y T 1 (x)}
puis v(T 2, .):
v(T 2, x) = sup {VT 2 (x, y) + v(T 1, y) : y T 2 (x)}
et ainsi de suite jusqu`a v(0, .).
Admettons maintenant que lon connaisse v(0, .), ..., v(T 1, .), il est
alors tr`es facile de caracteriser les suites (ou politiques) optimales:
Proposition 12.3 La suite (x, x1 , ..., xT ) est solution de v(0, x) si et seulement si pour t = 0, .., T 1, xt+1 est solution de:
sup {Vt (xt , y) + v(t + 1, y)}

(12.5)

yt (xt )

Preuve:
Application immediate des propositions 12.1 et 12.2. 2
Notons quen pratique pour resoudre les equations de Bellman, on a souvent deja calcule les solutions des probl`emes statiques apparaissant dans
(12.3).
Il convient de bien retenir la demarche en deux etapes de ce chapitre:
1. on determine les fonctions valeur par backward induction,
2. on determine ensuite les politiques optimales (sil en existe) en resolvant
la suite de probl`emes statiques (12.5) qui consistent a` determiner les
successeurs optimaux x1 de x0 puis les successeurs optimaux de x1 etc...
Enfin notons que la methode presentee ici (la meme que celle adoptee
dans le probl`eme du plus court chemin) est robuste car elle permet aussi
de resoudre tous les probl`emes intermediaires poses a` nimporte quelle date
intermediaire avec nimporte quelle condition initiale a` cette date.

143

12.3

Infinite horizon

On consid`ere desormais des probl`emes dhorizon infini avec crit`ere escompte


du type:
)
(
X
t V (xt , xt+1 ) : x0 = x, xt A, xt+1 (xt ) t 0 .
v(x) := sup
t=0

(12.6)
Linterpretation de A, et V est la meme que precedemment et ]0, 1[
est un facteur descompte. La fonction v(.) est la fonction valeur de (12.6),
son argument est la condition initiale x A. Deux differences sont a` noter
avec le cas de lhorizon fini du chapitre precedent. Tout dabord ici, le crit`ere
est la somme dune serie et les politiques optimales sont des suites (infinies),
des precautions sont donc a` prendre dune part pour la definition meme du
crit`ere mais surtout concernant lexistence de solutions. En outre, lapproche
backward induction du chapitre precedent na pas de sens ici; cest la raison
pour laquelle on se limite ici a` un cadre plus stationnaire ( ne depend pas
de t et payoff instantane de la forme t V (xt , xt+1 )) quau chapitre precedent.
Un element important dans letude de (12.6) est le lien etroit entre v la
valeur du probl`eme et lequation fonctionnelle suivante appelee equation de
Bellman:
w(x) = sup {V (x, y) + w(y)}
(12.7)
y(x)

12.4

Notations and assumptions

Dans tout ce chapitre, nous supposerons que A est un espace metrique compact, nous noterons d la distance sur A. Nous ferons lhypoth`ese de non
vacuite: (x) 6= pour tout x A. Nous supposerons en outre que V (., .)
est continue sur A A. Pour x A, nous noterons Adm(x) lensemble des
suites admissibles issues de x:
Adm(x) := {e
x = (xt )t0 : x0 = x, xt A, xt+1 (xt ) t 0}

(12.8)

Pour x
e = (xt )t0 Adm(x) ou plus generalement x
e = (xt )t0 AN , on
pose:

X
u(e
x) :=
t V (xt , xt+1 ).
t=0

Ainsi le probl`eme (12.6) consiste a` maximiser u sur Adm(x). Notons que


comme V est bornee sur A A et ]0, 1[, u est bien definie et bornee sur
AN donc aussi sur Adm(x).
144

Nous aurons aussi besoin dhypoth`eses de continuite sur la correspondance (la dynamique), ceci necessite les definitions suivantes:
D
efinition 12.1 Soit X et Y deux espaces metriques et soit F une correspondance a
` valeurs compactes non vides de X dans Y , et soit x X on
dit que:
1. F est hemi-continue superieurement (h.c.s.) en x si pour toute suite
xn convergeant vers x dans X et pour toute suite yn F (xn ), la suite
yn admet une valeur dadherence dans F (x).
2. F est hemi-continue inferieurement (h.c.i.) en x si pour tout y F (x)
et pour toute suite xn convergeant vers x dans X, il existe yn F (xn )
telle que yn converge vers y dans Y .
3. F est continue si F hemi-continue superieurement et inferieurement
en chaque point de X.
Dans le cas o`
u X et Y sont des metriques compacts, dire que F est h.c.s.
revient simplement a` dire que son graphe:
graph(F ) := {(x, y) : x X, y F (x) }
est ferme. Noter que dans ce cas F est automatiquement a` valeurs compactes.
Remarquons que dans le cas univoque i.e. F (x) = {f (x)} on a equivalence
entre F est h.c.s., F est h.c.i et f est continue. Si X = Y = R et
F (x) = [f (x), g(x)] avec f et g deux fonctions continues telles que f g alors
F est une correspondance continue. Pour fixer les idees, il est bon davoir en
memoire les exemples suivants:
La correspondance F de R dans R definie par:

si x < 0
0
[0, 1] si x = 0
F (x) =

1
si x > 0
est h.c.s. mais pas h.c.i. en 0.
La correspondance G de R dans R definie par:

0
si x 0
G(x) =
[1, 1] si x > 0

est quant a` elle h.c.i. mais pas h.c.s. en 0.


Dans toute la suite, nous suposerons que est une correspondance continue de A dans A.
145

12.4.1

Existence

Soit A := AN lensemble des suites a` valeurs dans A, munissons A de:

X
1
d(ut , vt ).
d (u, v) :=
2t
t=0

Il est clair que d est a` valeurs finies et definit une distance sur A . On
a alors le resultat classique de compacite (le lecteur averti reconnaitra un
corollaire du theor`eme de Tychonov) suivant:
Proposition 12.4 (A , d ) est compact.
Preuve:
La demonstration est classique (compacite de A et extraction diagonale), le
detail en est donc laisse au lecteur. 2
Lemme 12.1 Pour tout x A, Adm(x) est un compact de (A , d ).
Preuve:
Avec la proposition 12.4, il suffit de verifier que Adm(x) est un ferme de
(A , d ). Soit donc x
en une suite de Adm(x) convergeant vers x
e = (xt )t0
A pour la distance d . Pour tout t N, x
ent converge vers xt dans A quand
n +, en particulier x0 = x. Comme est de graphe ferme et que
ent+1 ) graph() on en deduit que xt+1 (xt ) ce qui prouve finalement
(e
xnt , x
que Adm(x) est ferme. 2
Lemme 12.2 u est continue sur (A , d ).

Preuve:
Soit x
e = (xt )t0 A et > 0. Comme V est continue et A A compact,
il existe N tel que

max |V |
t
(12.9)
AA
4
t=

Par continuite de V , il existe 0 tel que pour tout (y, z) A A et tout


t 1 on ait:

(12.10)
d(xt , y) + d(xt+1 , z) 0 |V (xt , xt+1 ) V (y, z)|
2
Ainsi en posant := 0 2 1 pour tout ye A tel que d (e
x, ye) on a
|u(e
x) u(e
y)| , ce qui ach`eve la preuve. 2
Des lemmes 12.1 et 12.2, on deduit le resultat dexistence:
Th
eor`
eme 12.1 Pour tout x A, il existe x
e Adm(x) optimale i.e. telle
que: v(x) = u(e
x).
146

12.4.2

The value function and Bellmans equation

On rappelle que la fonction valeur de (12.6) est definie pour tout x A par:
v(x) := sup{u(e
x) : x
e Adm(x)}.

(12.11)

Les hypoth`eses de ce chapitre assurent que v est bornee sur A et le theor`eme


12.1 assure que le sup dans (12.11) est en fait un max. Par la suite nous
dirons que x
e est solution du probl`eme v(x) ssi x
e Adm(x) et v(x) = u(e
x).
On laisse comme exercice, desormais de routine, au lecteur le soin de
verifier le principe de la programmation dynamique et le fait que v est solution de lequation de Bellman:
Proposition 12.5 Soit x A, on a:
1. Principe de la programmation dynamique: si x
e Adm(x) est
solution du probl`eme v(x) alors pour tout 0 la suite (x t )t est
solution du probl`eme v(x ),
2. v(.) est solution de l
equation de Bellman:
v(x) = sup {V (x, y) + v(y)} .

(12.12)

y(x)

12.4.3

Blackwells theorem

On se propose maintenant dexaminer dans quelle mesure lequation de Bellman (12.12) caracterise la fonction valeur. Pour cela, il est utile de definir
B(A) comme lensemble des applications bornees de A dans R. On rappelle
que muni de la norme infinie (kf k := max{|f (x)|, x A}), B(A) est un
espace de Banach et que C 0 (A, R) est un sous-espace ferme (donc complet)
de B(A). Pour f B(A) et x A on definit:
T f (x) := sup {V (x, y) + f (y)} .

(12.13)

y(x)

Il est facile de voir que T f B(A) ainsi T definit un operateur de B(A)


dans lui-meme. Le fait que la fonction-valeur v soit solution de lequation de
Bellman signifie exactement que v = T v autrement dit que v est un point
fixe de T .
Le caract`ere contractant de T (donc en particulier lunicite dans B(A) de
la solution de lequation de Bellman) est assure par le theor`eme de Blackwell:
Th
eor`
eme 12.2 Soit H un operateur de B(A) dans lui-meme verifiant les
proprietes:
147

1. H est monotone i.e. : (f, g) B(A) B(A), f (x) g(x), x A


Hf (x) Hg(x), x A,
2. il existe ]0, 1[ tel que, pour toute constante positive a et tout f
B(A) on ait H(f + a) Hf + a,
alors, H est une contraction de B(A) de rapport .
Preuve:
Soit (f, g) B(A) B(A), on a f g + kf gk, ainsi les hypoth`eses sur
H impliquent:
Hf H(g + kf gk ) Hg + kf gk
inversant les roles de f et g et en passant au sup en x A, il vient bien:
kHf Hgk kf gk .
2
En remarquant que T verifie les conditions du theor`eme de Blackwell avec
= , et en utilisant le theor`eme du point fixe pour les contractions, on en
deduit immediatement:
Corollaire 12.1 Lequation de Bellman 12.12 admet une unique solution
qui est la fonction valeur definie par (12.11). De plus pour tout f B(A),
v est limite uniforme de la suite des iterees T n f .
Lequation de Bellman caracterise donc bien la fonction valeur: v est
lunique solution bornee de (12.12). On peut etre plus precis en remarquant
que T est aussi un operateur sur les fonctions continues et par consequent,
le point fixe de T est une fonction continue.
Proposition 12.6 Pour tout f C 0 (A, R), T f C 0 (A, R). Ceci implique
que en particulier que la fonction-valeur v est continue.
Preuve:
La premi`ere partie du resultat precedent est une consequence immediate
du theor`eme de Berge. Prouvons la seconde partie du resultat: T est une
contraction de C 0 (A, R) qui est complet donc T admet un unique point fixe
dans C 0 (A, R), or nous savons que lunique point fixe de T (dans B(A)) est
v on a donc v C 0 (A, R). 2
Remarque: On peut etablir directement (i.e. sans utiliser lequation
de Bellman ni le theor`eme de Berge) la continuite de v (le lecteur pourra
verifier cette affirmation sans difficulte, lexercice etant cependant un peu
fastidieux).
148

12.4.4

Back to optimal policies

Comme dans le cas de lhorizon fini, connaitre la fonction valeur permet de


calculer les strategies optimales. Il est en effet clair (sen persuader) que
x
e = (xt )t0 Adm(x) est solution de v(x) ssi pour tout t 0, xt+1 resout le
probl`eme statique:
max {V (xt , y) + v(y)}.
y(xt )

Ainsi pour determiner les politiques optimales on determine dabord v en


resolvant lequation de Bellman. On definit alors la correspondance:
M (x) := {y (x) : v(x) = V (x, y) + v(y)}.
M (x) sinterpr`ete naturellement comme lensemble des successeurs optimaux
de x, et les politiques optimales issues de x sont simplement les iterees de
cette correspondance.

149

Chapter 13
Calculus of variations
13.1

Introduction

On sinteresse desormais a` des probl`emes de calcul des variations (en horizon


fini pour simplifier). De tels probl`emes consistent a` maximiser un crit`ere du
type:
Z
T

J(x) =

L(t, x(t), x(t))dt

+ g(x(T )) + f (x(0))

dans un ensemble de fonctions de [0, T ] dans Rn jouissant de certaines proprietes de differentiabilite. Le bon cadre fonctionnel est celui des espaces
de Sobolev mais pour ne pas alourdir lexpose ni decourager le lecteur qui
ne serait pas familier de ces espaces, nous nous limiterons par la suite aux
fonctions de classe C 1 ou continues et C 1 par morceaux.
La fonction (t, x, v) 7 L(t, x, v) est appelee Lagrangien, et on supposera
toujours L C 0 ([0, T ] Rn Rn , R), g (respectivement f ) est la fonction de
gain terminal (respectivement initial); on supposera g C 0 (Rn , R) (respectivement f C 0 (Rn , R)).
Une variante est le probl`eme a` conditions aux limites prescrites:
Z T

1
n
sup
L(t, x(t), x(t))dt

: x C ([0, T ], R ), x(0) = x0 , x(T ) = xT .


0

Evidemment on peut aussi considerer le cas dune extremite libre et dune


extremite prescrite. Nous necrirons pas les conditions doptimalite pour tous
les cas possibles, les cas manquants seront laisses en exercice au lecteur...
Historiquement, le calcul des variations, sest developpe depuis le 17e
si`ecle (probl`eme du brachistochrone resolu par Bernoulli) conjointement au
developpement de la physique (la mecanique en particulier, mais aussi le
150

probl`eme de la resistance minimale pose par Newton dans ses Principia et qui
reste encore largement ouvert aujourdhui.. ) et de la geometrie (probl`emes
de geodesiques ou dapplications harmoniques par exemple). Quelques grands
noms parmi les mathematiciens des trois si`ecles passes ont marque son developpement:
Euler, Lagrange, Hamilton, Jacobi, Legendre, Weierstrass, Noether, Caratheodory...
Son usage en economie est plus recent, il devient veritablement populaire
a` partir des annees 1960 dans les mod`eles de croissance, dinvestissement,
de gestion de stocks et, plus recemment, en theorie des incitations ou des
ench`eres. En finance, il est aussi dusage courant dutiliser des mod`eles en
temps continu, les dynamiques realistes dans ce cadre ayant un caract`ere
aleatoire, cest plutot le controle stochastique qui est utilise.

13.2

Existence

Resoudre un probl`eme de calcul des variations cest resoudre un probl`eme


doptimisation dans un espace fonctionnel de dimension infinie. Lexistence
de solutions na donc rien devident a priori et je tiens a` mettre en garde le
lecteur sur ce point. Il ne sagit pas de faire ici une theorie de lexistence,
pour cela on consultera par exemple le livre d I.Ekeland et R.Temam [?] mais
dindiquer que la plupart des resultats dexistence demandent la concavite
(si on maximise; la convexite si on minimise) du lagrangien par rapport a` la
variable v. Examinons maintenant un contre-exemple classique d
u a` Bolza:
Z 1
inf J(x) :=
[(x(t)
2 1)2 + x2 (t)]dt : x(0) = x(1) = 0.
(13.1)
0

On se propose de montrer que linfimum de ce probl`eme est 0 et quil nest


pas atteint. Soit u0 (t) := 1/2 |t 1/2| pour t [0, 1], prolongeons u0 a`
R par periodicite. Enfin pour n N soit un (t) := u0 (nt)/n, un verifie les
conditions aux limites du probl`eme, un 2 = 1 presque partout sur [0, 1] et
|un | 1/2n donc J(un ) tend vers 0. On en deduit donc que linfimum de
(13.1) est 0. Supposons que J(u) = 0 avec u(0) = u(1) = 0. Par definition
de J on devrait avoir a` la fois u = 0 et u {1, 1} presque partout, ce qui
est evidemment impossible.

151

13.3

Euler-Lagrange equations and transversality conditions

Considerons le probl`eme:
Z
sup
J(x) =
xC 1 ([0,T ],Rn )

L(t, x(t), x(t))dt

+ g(x(T )) + f (x(0))

(13.2)

On suppose dans tout ce paragraphe que les fonctions (t, x, v) 7 L(t, x, v),
x 7 g(x) et x 7 f (x) sont de classe C 1 . Pour i = 1, ..., n, nous noterons
L
L
et v
et v L et x L les gradients partiels
Lvi , Lxi les derivees partielles v
i
i
de L par rapport a` x et v respectivement (i.e. v L = (Lv1 , ..., Lvn )0 , x L =
(Lx1 , ..., Lxn )0 ).
Proposition 13.1 Soit x C 1 ([0, T ], Rn ), alors si x est solution de (13.2),
on a
1. x est solution des equations dEuler-Lagrange:
d
[v L(t, x(t), x(t))]

= x L(t, x(t), x(t))

dt

(13.3)

2. x verifie les conditions de transversalite:


v L(0, x(0), x(0))

= f 0 (x(0)), v L(T, x(T ), x(T


)) = g 0 (x(T )).
(13.4)
3. Si on suppose en outre que g et f sont concaves sur Rn et que pour tout
t [0, T ], L(t, ., .) est concave sur Rn , alors si x C 1 ([0, T ], Rn ) verifie
les equations dEuler-Lagrange (13.3) et les conditions de transversalite
(13.4) alors x est solution de (13.2).
Preuve:
Pour h C 1 ([0, T ], Rn ) on a dabord:
1
lim+ [J(x + th) J(x)] 0.
t0 t

(13.5)

En utilisant la formule des accroissements finis et le theor`eme de convergence


dominee de Lebesgue, on obtient facilement que la limite precedente vaut:
Z T

[x L(t, x(t), x(t)).h(t)

+ v L(t, x(t), x(t)).

h(t)]dt
(13.6)
0
0
0
+g (x(T )).h(T ) + f (x(0)).h(0)
152

En utilisant (13.5), (13.6) et la transformation h 7 h, il vient que pour


tout h C 1 ([0, T ], Rn ) on a:
Z T

[x L(t, x(t), x(t)).h(t)

+ v L(t, x(t), x(t)).

h(t)]dt
(13.7)
0
0
0
+g (x(T )).h(T ) + f (x(0)).h(0) = 0
Soit
En := {h C 1 ([0, T ], Rn ) : h(0) = h(T ) = 0}

(13.8)

En prenant h En (13.7), et en raisonnant coordonnee par coordonnee, on


obtient ainsi que pour tout i = 1, ..., n et tout h E1 on a:
Z T

[Lxi (t, x(t), x(t))h(t)

+ Lvi (t, x(t), x(t)).

h(t)]dt
=0
(13.9)
0

Le Lemme de Dubois-Reymond rappele plus bas implique donc que pour tout
i = 1, ..., n, on a:
d
[Lv (t, x(t), x(t))]

= Lxi (t, x(t), x(t))

dt i

(13.10)

on a donc etabli (13.3). Soit maintenat h C 1 ([0, T ], Rn , en utilisant (13.3),


et en integrant par parties (13.7), on obtient ainsi:
(v L(T, x(T ), x(T
))+g 0 (x(T )))h(T )+(f 0 (x(0))v L(0, x(0), x(0)))h(0)

=0
(13.11)
on deduit ainsi aisement (13.4) de larbitrarite de h dans (13.11).
Il nous reste a` verifier que (13.3) et (13.4) sont suffisantes dans le cas
concave. Soit x C 1 ([0, T ], Rn ) qui verifie les equations dEuler-Lagrange
(13.3) et les conditions de transversalite (13.4) et y C 1 ([0, T ], Rn ). Par
concavite on a:
Z T
J(y) J(x)
[x L(t, x(t), x(t)).(y(t)

x(t))]dt
0
Z T
+
[v L(t, x(t), x(t)).(

y(t)
x(t))]dt

+g 0 (x(T )).(y(T ) x(T )) + f 0 (x(0))(y(0) x(0))


=0

la derni`ere egalite est obtenue en integrant par parties et en utilisant (13.3)


et (13.4).
2
Il nous reste a` etablir le Lemme de Dubois-Reymond:
153

Lemme 13.1 Soit et dans C 0 ([0, T ], R) et E1 definie par (13.8), on a


alors equivalence entre:
1. et de classe C 1 et = ,
2. pour tout h E1 :

= 0.
(h + h)

Preuve:
Pour demontrer 1. 2, il suffit dintegrer par parties. Demontrons 2. 1..
Soit F une primitive de , lhypoth`ese secrit alors:
Z T
( F )h = 0, h E1 .
0

Soit c := T

R
1 T
0

( F ) on a:
Z T
( F c)h = 0, h E1 .

(13.12)

Rt
Il suffit de remarquer que la fonction h(t) := 0 ( F c) appartient a` E1 ,
avec (13.12) il vient donc = F + c ce qui ach`eve la preuve par construction
de F . 2

13.4

An economic example

On se place en temps continu sur la periode [0, T ] et on consid`ere un menage


dont on note x(t), S(t), c(t) et e(t) la richesse, le salaire instantane (exog`ene),
la consommation et lepargne enfin on suppose que le menage cherche a` maximiser lutilite:
Z T
et log(c(t))dt + eT V (x(T )).
0

On a les relations:

S(t) = c(t) + e(t), x(t)

= e(t) + rx(t)
avec r le taux dinteret exog`ene (et suppose constant pour simplifier). La
richesse initiale du menage x0 etant donnee, le choix optimal consommationepargne du menage se ram`ene ainsi au probl`eme variationnel:
Z T
sup J(x) :=
et log(S(t) + rx(t) x(t))dt

+ eT V (x(T )) : x(0) = x0
0

(13.13)

154

En supposant en outre que V est concave, les conditions du premier ordre sont
des conditions suffisantes doptimalite. En posant c(t) = S(t) + rx(t) x(t),

lequation dEuler-Lagrange secrit ici:

ret
d et
(
)=
dt c(t)
c(t)

en posant y(t) = et /c(t) il vient donc: y(t) = ert /c(0) et donc:


c(t) = e(r)t c(0)
Il reste a` determiner la constante c(0), pour cela il faut dune part revenir
a` la variable (detat) x, en integrant x rx = S c dautre part utiliser la
condition de transversalite en T qui ici secrit:
V 0 (x(T )) =

155

1
.
c(T )

Chapter 14
Optimal control
14.1

Introduction

In this chapter, we shall study the following problem:


Z T
sup J(u) :=
L(s, yu (s), u(s))ds + g(yu (T ))
uU

over some suitable class U of functions u (the control) and yu (the state) is
(indirectly) related to u via the (controlled) differential equation called the
state equation
x(t)

= f (t, x(t), u(t)), x(0) = x0 .


Here the intial condition x0 Rd is given, L is called the Lagrangian (or
running criterion) and g the terminal criterion. In the sequel, we shall assume
that K is a given compact metric space and denote by U the set of measurable
functions from [0, T ] to K. The function f gives the dynamic of the system
it is defined on [0, T ] Rd K with values in the state space Rd .
Of course, the optimal control problem above may be seen as a generalization of calculus of variations problems studied in the previous chapter:
we will consider here more general state equations than the (very) special
case x = u and we will be able to treat quite easily the case of pointwise
constraints on the control.

14.2

Controlled differential equations

We are going to prove, that under natural assumptions on the dynamic f ,


for every admissible control function u (and initial condition x0 Rd ), the

156

following state equation has a unique solution


x(t)

= f (t, x(t), u(t)), x(0) = x0

(14.1)

Let us assume that f is continuous [0, T ] Rd K Rd and satisfies the


Lipschitz condition: there exists M > 0 such that
|f (t, x, u) f (t, y, u)| M |x y|, (t, x, y, u) [0, T ] Rd Rd K. (14.2)
Under these assumptions, we have the following form of the Cauchy-Lipschitz
Theorem
Theorem 14.1 Under the assumptions above, for every control u U and
initial state x0 , (14.1) admits a unique solution, simply denoted yu .
Proof:
Let us equip E := C 0 ([0, T ], Rd ) with the norm:
kxk := sup et |x(t)|
t[0,T ]

( is a real parameter that will be chosen later on). It is easy, to check that
E equipped with this norm is a Banach Space. Now, we rewrite (14.1) in
integral form as a fixed point problem x = T x where T : E E is defined
by
Z
t

f (s, x(s), u(s)), t [0, T ], x E.

T x(t) := x0 +

Let x and y be in E and t [0, T ], using (14.2), we have


Z t
Z t
M
|T x(t)T y(t)| M
|x(s)y(s)|ds M
kxyk es ds
kxyk et .

0
0
so that

M
kx yk

and then T is a strict contraction as soon as > M . Existence and uniqueness then follows from Banachs fixed point theorem. 2
Let us also recall the following version of the classical Gronwalls Lemma
kT x T yk

Lemme 14.1 Let x C 0 ([0, T ], Rd ) satisfy for some constants a 0 and


b0
Z
t

|x(t)| a + b

|x(s)|ds, t [0, T ]

(14.3)

then

|x(t)| aebt , t [0, T ].


157

(14.4)

Proof: R
t
Set y(t) = 0 |x(s)|ds, we then have y by a. Multiplying by ebt we then
have
a
d
(y(t)ebt + ebt ) 0
dt
b
so that
a
a
a
a
y(t) y(0)ebt + ebt = ebt
b
b
b
b
with (14.3), we then get
|x(t)| a + by(t) aebt .
2
Let u U and denote x = yu , we then have
Z t
Z t
|f (s, 0, u(s))|ds
|f (s, x(s), u(s)) f (s, 0, u(s))|ds +
|x(t)| |x0 | +
0
0
Z t
|x(s))|ds
|x0 | + T
max
|f (s, 0, u)| + M
(s,u)[0,T ]K

we deduce from the previous inequality and Gronwalls Lemma that there is
a constant C such that
|yu (t)| C, u U , t [0, T ].

14.3

(14.5)

Pontryagins principle

In the complete proof of Pontryagins principle, we shall use Ascolis compactness theorem that we now state and prove:
Theorem 14.2 Let F be a subset of C 0 ([0, T ], Rd ) such that:
M : |f (t)| M, t [0, T ], f F

(14.6)

and
> 0, > 0 : |f (t) f (s)| , f F , t, s, such that |t s|
(14.7)
then F is relatively compact in C 0 ([0, T ], Rd ) for the uniform norm.
Proof:
Let (fn ) F N , we have to prove that it has a subsequence that converges
uniformly. Let us denote by (tk )k the dense sequence in [0, T ] consisting of
158

all points of the form mT /p with m p and m and p integers. For each
k, the sequence (fn (tk )) is bounded hence admits a convergent subsequence.
By a standard diagonal extraction argument, there is a subsequence (again
denoted fn ) such that (fn (tk )) converges for every k, to some limit denoted
g(tk ). It follows from (14.7) that
> 0, > 0 : |g(tk ) g(tl )| , k, l, such that |tk tl | . (14.8)
If t [0, T ] and (tkn )n converges to t, it follows from (14.8) that g(tkn ) is a
Cauchy sequence hence has some limit, moreover, again by (14.8), this limit
does not depend on the approximating sequence (tkn ), we then simply denote
by g this limit (which is continuous by (14.8)). Let > 0, there is a > 0
such that for every t and s such that |t s| , one has
|fn (t) fn (s)| /3, |g(t) g(s)| /3.
Let p be such that T /p , and N be large enough so that for all n N
and all m = 0, ...., p one has |fn (mT /p) g(mT /p)| /3. Now let n N
and t [0, T ], and let m be such that |t mT /p| , we then have
|fn (t) g(t)| |fn (t) fn (mT /p)| + |fn (mT /p) g(mT /p)| + |g(mT /p) g(t)|
/3 + /3 + /3 = .
This prove s that fn converges uniformly to g. 2
Our aim now is to give necessary optimality conditions for the optimal
control problem
Z T
sup J(u) :=
L(t, yu (t), u(t))dt + g(yu (T ))
(14.9)
uU

In addition to the assumptions of the previous paragraph, we assume:


L is continuous, differentiable with respect to x and x L is continuous
with respect to (t, x, u),
g is of class C 1
f is differentiable with respect to x and Dx f is continuous with respect
to (t, x, u).
Let us assume that u is an optimal control (i.e. solves (14.9)) and x = yu
is the corresponding state. For the sake of simplicity, we also assume that
u is piecewise continuous (i.e. that there exist finitely many times 0 = t0 <
t1 < .... < tk = T such that u is continuous on every interval (ti , ti+1 ))
159

which implies that x is piecewise C 1 (i.e. continuous and with a piecewise


continuous derivative).
Now let t (0, T ) be a continuity point of u and let v K be an arbitrary
admissible control. For (0, t), let us then define

v
if s (t , t]
u (s) =
u(s) otherwise.
and denote by x := yu the associated state.
Lemma 14.1 Let us define z := 1 (x x) then z is bounded, z converges
pointwise to z = 0 on [0, t) and z converges uniformly on [t, T ] to the function
z that solves the linearized equation:
z(s)

= Dx f (s, x(s), u(s))z(s) on (t, T ], z(t) = f (t, x(t), v) f (t, x(t), u(t)).
(14.10)
Proof:
First, by construction z = 0 on [0, t ) so that z converges to 0 on [0, t).
Step 1: z is uniformly bounded.
For s t, we have:
Z
1 s
z (s) = I() +
(14.11)
[f (, x (), u()) f (, x(), u())]d
t
where

Z
1 t
[f (, x (), v) f (, x(), u())]d.
I() =
t
Thanks to (14.5), the integrand in I() is bounded and then |I()| M0 for
some constant M0 . With (14.2), we thus have
Z
Z s
1 s
|z (s)| M0 +
|z |
|f (, x (), u()) f (, x(), u())|d M0 + M
t
t
with Gronwalls Lemma, we deduce that z is bounded:
|z (s)| M0 eM (st) , s [t, T ].
To shorten notations, we denote by M1 a constant such that |x x| M1
on [0, T ].
Step 2: Convergence of z (t).
Let us write
Z
1 t
[f (s, x(s), v) f (s, x(s), u(s))]ds
z (t) =
t
Z
1 t
[f (s, x (s), v) f (s, x(s), v)]ds
+
t
160

The second term is bounded by M M1 hence converges to 0. Since t is a


continuity point of u, we deduce that
lim z (t) = f (t, x(t), v) f (t, x(t), u(t)).

0+

Step 3: z is equi-Lipschitz on [t, T ].


Let t1 and t2 be such that T t2 t1 t, we then have
Z
M t2
|z (s)|ds M M1 (t2 t1 ).
|z (t2 ) z (t1 )|
t1

(14.12)

(14.13)

The family z is then equi-Lipschitz on [t, T ]. With Ascolis theorem (see


above) we then deduce that the family (z ) is precompact in C 0 ([t, T ], Rd ).
Step 4: z converges on [t, T ] to the solution of the linearized equation
(14.10).
Thanks to Step 3, there is a sequence n 0 such that zn := zn converges
uniformly to some z C 0 ([t, T ]). Let t1 and t2 be such that T t2 t1 > t,
we have
Z
1 t2
zn (t2 ) zn (t1 ) =
[f (s, x + n zn , u(s)) f (s, x(s), u(s)]ds. (14.14)
n t1
Thanks to the differentiability of L and Lebesgues dominated convergence
theorem, passing to the limit in (14.14), yields
Z t2
z(t2 ) z(t1 ) =
[Dx f (s, x(s), u(s))z(s)]ds.
t1

This proves that z solves (14.10). Finally, the system (14.10) admits z as
unique solution (Cauchy-Lipschitz), together with the relative compactness
of the family z , this implies that the whole family z converges uniformly to
z on [t, T ] as 0+ and the proof is complete. 2
Now we use the optimality of u to deduce:
Z
1
1 t
0 (J(u ) J(u)) =
[L(s, x , v) L(s, x, u))]ds

t
Z
1 T
1
+
[L(s, x , u) L(s, x, u))]ds + (g(x (T ) g(x(T ))
t

Since u is continuous at t, it is easy to check that


Z
1 t
lim
[L(s, x , v) L(s, x, u))]ds = L(t, x(t), v) L(t, x(t), u(t)).
0+ t
(14.15)
161

Using lemma 14.1, and defining z as in Lemma 14.1 as the solution of the
linearized equation (14.10), we also have
Z
Z T
1 T
[L(s, x , u) L(s, x, u))]ds =
x L(s, x(s), u(s)) z(s)ds
lim
0+ t
t
(14.16)
and
1
(14.17)
lim+ (g(x (T ) g(x(T )) = g(x(T )) z(T ).
0
we thus have
RT
0 L(t, x(t), v) L(t, x(t), u(t) + t x L(s, x(s), u(s)) z(s)ds
+g(x(T )) z(T ).
(14.18)
To make the previous optimality condition (14.18) tractable, we introduce
the so-called adjoint (or co-state) variable p as the solution of:
p(s)

= Dx f (s, x(s), u(s))T p(s) x L(s, x(s), u(s)), s [0, T ],

(14.19)

(where AT denotes the transpose of the matrix A and we recall the identity
AT p z = p Az) together with the transversality (terminal) condition:
p(T ) = g(x(T ))

(14.20)

(use the same arguments as in the proof of Theorem 14.1 for the existence and
uniqueness of the solution of (14.19)-(14.20)). Using the equations defining
p and z, we have:
Z T
g(x(T )) z(T ) = p(T ) z(T ) = p(t) z(t) +
p z + p z
t
Z T
= p(t) z(t) +
p(s) (Dx f (s, x(s), u(s))z(s)) ds
t
Z T

(Dx f (s, x(s), u(s))T p(s) x L(s, x(s), u(s))) z(s)ds


t
Z T
= p(t) z(t)
x L(s, x(s), u(s)) z(s)ds
t
Z T
= p(t) (f (t, x(t), v) f (t, x(t), u(t)))
x L(s, x(s), u(s)) z(s)ds
t

inequality (14.18) then becomes


0 L(t, x(t), v) L(t, x(t), u(t)) + p(t) (f (t, x(t), v) f (t, x(t), u(t))).
(14.21)
162

Since v is an arbitrary control in K, we may rewrite the previous inequality


as:
L(t, x(t), u(t))+p(t)(f (t, x(t), u(t))) = max{L(t, x(t), v)+p(t)f (t, x(t), v)}.
vK

(14.22)
It is therefore natural to introduce the so-called pre-Hamiltonian function H
: [0, T ] Rd K Rd R by:
H(t, x, u, p) := L(t, x, u) + p.f (t, x, u), (t, x, u, p) [0, T ] Rd K Rd .
(14.23)
d
d
We then define the Hamiltonian H: [0, T ] R R R by:
H(t, x, p) := sup {L(t, x, u) + p.f (t, x, u)} = sup H(t, x, u, p).
uK

(14.24)

uK

Now we remark that H is differentiable with respect to x and p and


p H(t, x, u, p) = f (t, x, u), x H(t, x, u, p) = x L(t, x, u) + Dx f (t, x, u)T p.
Hence the state equation (14.1) can be rewritten as:

x(s)
= p H(s, x(s), u(s), p(s))
and, more interestingly, the adjoint equation (14.19) can be rewritten as
p(s)

= x H(s, x(s), u(s), p(s)).


Finally, the optimality condition (14.22) expresses the Hamiltonian-maximization
condition:
H(t, x(t), u(t), p(t)) = H(t, x(t), p(t))
for every point of continuity t of u.
We thus have proved Pontryagins maximum principle:
Theorem 14.3 Let u be a piecewise continuous optimal control for (14.9)
and let x be the corresponding optimal state. Then for every point t of continuity of u one has
u(t) argmaxvK H(t, x(t), v, p(t))
for the adjoint state variable p that solves
p(s)

= x H(s, x(s), u(s), p(s)), s [0, T ]


together with the transversality condition
p(T ) = g(x(T )).
163

14.4

Dynamic Programming and HJB equations

On definit la fonction valeur du probl`eme de controle (14.9)


Z T

v(t, x) := sup
L(s, yu (s), u(s))ds + g(yu (T )) : yu (t) = x
u

(14.25)

Clairement v verifie la condition aux limites:


v(T, x) = g(x) pour tout x Rn

(14.26)

Le principe de la programmation dynamique dit que: si un controle u est optimal entre 0 et T pour la condition initiale x alors il est aussi
optimal entre t et T avec la condition initiale yu (t) a` cette date. Ce principe
se traduit ici par la relation suivante:
Proposition 14.1 La fonction valeur verifie pour tout x Rn et tout t
[0, T ]:
Z t
(14.27)
v(0, x) = sup{ L(s, yu (s), u(s))ds + v(t, yu (t)) : y(0) = x}
u

14.5

Hamilton-Jacobi-Bellman equations

En utilisant le principe de la programmation dynamique et en etudiant comment varie la valeur entre deux dates proches t et t + t et deux etats
proches, nous allons voir quune autre propriete de v est quelle est solution
dune equation aux derivees partielles du premier ordre appelee equation
dHamilton-Jacobi-Bellman:
Proposition 14.2 Supposons v reguli`ere, alors v est solution de lequation
dHamilton-Jacobi-Bellman (H.J.B.):
t v(t, x) + H(t, x, x v(t, x)) = 0.

(14.28)

o`
u H est lHamiltonien defini par (14.24).
Preuve:
Pour simplifier, nous supposerons quil existe des commandes et des trajectoires optimales, i.e. que le sup dans (14.25) est atteint. Soit [t, t + t]
[t, T ], v0 V et soit z(.) la solution de:

z(s)

= f (s, z(s), v0 )
z(t) = x
164

u(.) un controle optimal pour le probl`eme v(t + t, z(t + t)). Considerons


maintenant le controle w(.):

v0
si t [t, t + t]
w(t) =
u(t) si t [t + t, T ]
En notant yw la variable detat correspondante valant x a` la date t (yw = z
sur [t, t + t]), on a dabord:
yw (t + t) = z(t + t) = x + f (t, x, v0 )t + o(t).

(14.29)

Il vient ensuite, par definition de la valeur v:


Z t+t
v(t, x)
L(s, yw (s), v0 )ds + v(t + t, yw (t + t))
t

=v(t, x) + t[L(t, x, v0 ) + t v(t, x) + x v(t, x).f (t, x, v0 ) + o(1)]

En divisant par t et en faisant t 0, il vient:


t v(t, x) + L(t, x, v0 ) + x v(t, x).f (t, x, v0 ) 0
comme v0 V est arbitraire, en passant au sup en V , on obtient que v est
une sous-solution de (14.28):
t v(t, x) + H(t, x, x v(t, x)) 0.
Soit maintenant u(.) un controle optimal pour le probl`eme v(t, x), par le
principe de la programmation dynamique, notons que u(.) est aussi optimal
pour v(t + t, yu (t + t)):
Z T
v(t, x) =
L(s, yu (s), u(s))ds + g(yu (T ))
t
Z t+t
=
L(s, yu (s), u(s))ds + v(t + t, yu (t + t)
t

=v(t, x) + t[L(t, x, u(t)) + t v(t, x) + x v(t, x).f (t, x, u(t)) + o(1)]

En divisant par t et en faisant t 0, il vient:


t v(t, x) + L(t, x, u(t)) + x v(t, x).f (t, x, u(t)) = 0
ainsi, par definition de H, v est aussi sur-solution de (14.28):
t v(t, x) + H(t, x, x v(t, x)) 0.
2
Notons que la demonstration precedente est heuristique (voir les remarques faites dans le cas du calcul des variations) et que pour faire une theorie
satisfaisante des equations dHamilton-Jacobi, il faut recourir a` la notion de
solutions de viscosite.
165

14.6

Feedback control and sufficient condition

Nous allons voir pour finir ce chapitre que si lon connait une solution (reguli`ere)
du probl`eme aux limites pour lequation dH-J-B:

t w(t, x) + H(t, x, x w(t, x)) = 0 sur [0, T ] Rn
(14.30)
w(T, x) = g(x) x Rn
alors on peut en deduire une commande optimale en feedback. Une commande
en feedback est une fonction qui ne depend pas seulement du temps mais aussi
de letat du syt`eme, cest donc une fonction U de [0, T ] Rn a` valeurs dans
lespace des controles V . Pour un controle en feedback U (., .), la dynamique
de la variable detat est regie par lequation differentielle ordinaire:
y(t)
= f (t, y(t), U (t, y(t))), y(0) = x.

(14.31)

Notons quil est assez naturel de sinteresser a` des controles en feedback i.e.
dependant de letat instantane du syst`eme: en pratique, on conduit sa voiture
en fonction de sa position et de sa vitesse plutot quen fonction de lheure
quil est...
On dira que le controle en feedback U (., .) est optimal pour (14.9) si
le controle u(t) = U (t, y(t)) est optimal avec y(.) solution du probl`eme de
Cauchy (14.31).
Th
eor`
eme 14.1 Supposons que w est une solution de classe C 1 du probl`eme
aux limites (14.30), et que pour tout (t, x) [0, T ] Rn , il existe U (t, x) V
solution du probl`eme:
sup{L(t, x, u) + x w(t, x).f (t, x, u)}
uV

alors U est un contr


ole optimal en feedback et donc si y est solution de
y(t)
= f (t, y(t), U (t, y(t))), y(0) = x.

(14.32)

y est une trajectoire optimale pour (14.9) et u (t) = U (t, y(t)) est un contr
ole
optimal. Enfin, w est la fonction valeur du probl`eme (14.9).
Preuve:
Montrons que u (t) = U (t, y(t)) fourni par le theor`eme est un controle optimal. Pour (t, x, u) [0, T ] Rn V posons:
F (t, x, u) := L(t, x, u) + x w(t, x).f (t, x, u) + t w(t, x).
166

(14.33)

Comme w est solution de (14.30)et par definition de U , on a:


0 = max{F (t, x, u)} = F (t, x, U (t, x)).
u

(14.34)

Definissons pour tout controle u la fonctionnelle:


Z T
K(u) :=
F (s, yu (s), u(s))ds
0

Avec (14.34), il vient:


K(u ) = 0 K(v) pour tout controle v(.).

(14.35)

Soit v(.) un controle et yv (.) letat asscoie, on a:


K(v) =

=
Z T

F (s, yv (s), v(s))ds


0
T

L(s, yv (s), v(s))ds +


0

t w(s, yv (s))ds+
0

x w(s, yv (s)).f (s, yv (s), v(s))ds


Z T
d
[w(s, yv (s))]ds
= J(v) g(yv (T )) +
0 dt
= J(v) w(0, x).
0

Avec (14.35), il vient donc:


J(u ) J(v) = K(u ) K(v) 0,
par consequent u est bien un controle optimal et:
v(0, x) = J(u ) = K(u ) + w(0, x) = w(0, x).
Par le meme argument que precedemment en changeant la condition de
Cauchy (0, x) en (t, x) on obtient de meme v(t, x) = w(t, x) si bien que
w est la fonction valeur. 2
En pratique le theor`eme precedent doit etre vu comme une condition
suffisante doptimalite. Il permet en effet de verifier si un candidat eventuel
(fourni par le principe de Pontriaguine) est effectivement optimal.

167

Bibliography
[1] Aubin, LAnalyse non lineaire et ses motivations economiques, Masson,
Paris.
[2] G. Barles, Solutions de viscosite des equations de Hamilton-Jacobi, Collection Mathematiques et Applications. de la SMAI.
[3] H. Brezis Analyse fonctionnelle, Masson, Paris.
[4] H. Cartan Cours de calcul differentiel, Hermann, Paris.
[5] G. Cohen Convexite et Optimisation, Cours de lENPC, disponible a`
http://www-rocq.inria.fr/metalau/cohen/
[6] Ekeland, Temam, Analyse convexe et problmes variationnels, DunodGauthier- Villars.
[7] J.-B. Hiriart Urruty Optimisation et analyse convexe, PUF, Paris.
[8] J.-B. Hiriart Urruty, C. Lemarechal Convex Analysis and Minimization
Algorithms, tomes I et II, Springer-Verlag, Berlin.
[9] A. Mas-Colell, M. Whinston and J. Green, M icroeconomic Theory,
Oxford, UK, Oxford Univ. Press 1995. Mathematical appendix.
[10] N. Stokey, R. E. Lucas, E. C. Prescott, Recursive methods in economic
dynamics, Harvard Univ. Press.

168

You might also like