Cours Optimisation

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 43

COURS D’OPTIMISATION

Marc D AMBRINE & Grégory V IAL

21 décembre 2007
Table des matières

1 Rappels et compléments de calcul différentiel 5


1.1 Fonctions numériques d’une variable réelle . . . . . . . . . . . . . . . . . . 5
1.2 Fonctions vectorielles d’une variable réelle . . . . . . . . . . . . . . . . . . 5
1.3 Fonctions vectorielles de plusieurs variables . . . . . . . . . . . . . . . . . 6
1.3.1 Cas particulier p = 1 : gradient, hessienne . . . . . . . . . . . . . . 7
1.3.2 Différentiation à l’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Différentiation à l’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.4 Formule de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.5 Rappels d’algèbre linéaire . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Théorème de la fonction implicite . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Généralités sur les problèmes d’optimisation 13


2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Optima absolus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Optima relatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Optimisation sans contraintes – avec contraintes . . . . . . . . . . . . . . . 15
2.3 Exemples de problèmes d’optimisation . . . . . . . . . . . . . . . . . . . . 15

3 Optimisation sans contrainte 17


3.1 En dimension 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Théorèmes d’existence et d’unicité . . . . . . . . . . . . . . . . . . . 17
3.1.2 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Conditions d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 En dimension supérieure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Théorème d’existence . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 Conditions d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 Optimisation avec contraintes 25


4.1 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Contraintes de type égalité . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.2 Contraintes de type inégalité . . . . . . . . . . . . . . . . . . . . . . 29
4.1.3 Contraintes mixtes égalités–inégalités . . . . . . . . . . . . . . . . . 32
4.2 Condition suffisante d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3
4 TABLE DES MATI ÈRES

5 Algorithmes pour l’optimisation 35


5.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.2 Méthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.3 Algorithme du gradient à pas fixe . . . . . . . . . . . . . . . . . . . 36
5.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Vers l’optimisation globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Annexe : méthode pratique de recherche d’extrema 41


Chapitre 1

Rappels et compléments de calcul


différentiel

1.1 Fonctions numériques d’une variable réelle


Soit I un intervalle ouvert de R et f : I → R une application.

f ( x + h) − f ( x )
Définition 1.1 f est dérivable sur I ssi pour tout x ∈ I, lim existe. On note
h →0 h
alors cette limite f ′ ( x).

Définition 1.2 f est de classe C 1 sur I – on note f ∈ C 1 ( I, R ) – ssi f est dérivable sur I et
l’application x 7→ f ′ ( x) est continue sur I.

Exemple 1.1 Soit f : R → R définie par f ( x) = e2x − x2 . La fonction f est de classe C 1 sur R
car pour tout réel x, f ′ ( x) = 2e2x − 2x qui définit une fonction continue sur R.

Exemple 1.2 Soit f : R + → R définie par f ( x) = x2 sin x1 pour x > 0 et f (0) = 0. Alors f est
dérivable sur R + :
1 1
∀ x > 0, f ′ ( x) = 2x sin − sin 2 et f ′ (0) = 0
x x

Mais f n’est pas de classe C 1 sur R + car f ′ n’est pas continue en 0.

1.2 Fonctions vectorielles d’une variable réelle


Soit I un intervalle de R et f : I → R p une application. Pour tout x ∈ I, on note f ( x) =
( f1 ( x), . . . , f p ( x))T .

Définition 1.3 f est de classe C 1 sur I ssi pour tout i ∈ {1, . . . , p}, f i est de classe C 1 sur I.
On note alors, pour x ∈ R n ,
f ′ ( x) = ( f 1′ ( x), . . . , f p′ ( x))T

5
6 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL

Exemple 1.3 Soit f : R ∗+ → R2 définie par



∀ x ∈ R ∗+ , f ( x) = ( x − x, ex − ln x)T

f ∈ C 1 (R ∗+ ) car
 1 1 T
∀ x ∈ R ∗+ , f ′ ( x) = √ − 1, ex −
2 x x

qui est continue sur R ∗+ .

1.3 Fonctions vectorielles de plusieurs variables


Soit Ω un ouvert de R n (pour simplifier, on peut considrer que Ω est un produit d’inter-
valles ouverts I1 × · · · × In ) et f : Ω → R p une application. On notera x = ( x1 , . . . , xn )T
pour x ∈ Ω.

Définition 1.4 La fonction f est différentiable en x ∈ Ω ssi l’application

t ∈ Ii 7→ f ( x1 , . . . , xi−1 , t, xi+1 , . . . , xn ) ∈ R p

∂f
est dérivable en t = xi . On note alors sa dérivée ( x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) (appelée
∂xi
dérivée partielle de f selon la ie direction).
En outre, la fonction f est dite de classe C 1 sur Ω si elle est différentiable en chaque x de Ω, et
chacune des ses dérivées partielles est continue sur Ω.

Exemple 1.4 Soit f : R2 → R2 définie par

f ( x1 , x2 ) = ( f 1 ( x1 , x2 ), f2 ( x1 , x2 ) = ( x12 − 3x23 + 2x2 − 1, e2x1 − x2 )T

Alors f est de classe C 1 sur R2 et

∂f ∂f
( x1 , x2 ) = (2x1 , 2e2x1 )T et ( x1 , x2 ) = (−9x22 + 2, −1)T
∂x1 ∂x2

Définition 1.5 Soit f ∈ C 1 (Ω, R p ). On appelle matrice jacobienne de f en x la matrice J f ( x)


de taille p × n, telle que

∂ fi
[ J f ( x)]ij = ( x) (1 ≤ i ≤ p, 1 ≤ j ≤ n)
∂x j

Remarque 1.1 On appelle aussi cette matrice la différentielle de f en x – on note alors d f ( x) ou


f ′ ( x). Il s’agit en fait de la définition intrinsecque de la différentiabilité : la dérivée est le terme
de degré un dans le développement de Taylor de f autour de x. La fonction f est différentiable en
x ∈ Ω ssi il existe une application linéaire G de R n dans R p telle que

f ( x + h) = f ( x) + G.h + O(khk2 ).

Cette application G est appelée différentielle de f en x.


1.3. FONCTIONS VECTORIELLES DE PLUSIEURS VARIABLES 7

Exemple 1.5 On reprend la fonction de l’exemple précédent. La matrice jacobienne est donnée
par :  
2x1 −9x22 + 2
J f ( x) =
2e2x1 −1

Exemple 1.6 Soit f : R3 → R2 l’application définie par

f ( x1 , x2 , x3 ) = (ex1 − x3 , x2 + sin x3 )T

Alors f ∈ C 1 (R3 , R2 ) et  
e x1 0 −1
J f ( x) =
0 1 cos x3

On rappelle aussi le résultat de dérivation composée :

Théorème 1.1 Soit f : R n → R p et g : R p → R q de classe C 1 . Alors g ◦ f : R n → R q est de


classe C 1 et
J [ g ◦ f ]( x) = Jg( f ( x)) · J f ( x)

Exemple 1.7 (dérivée directionelle) Soit f ∈ C 1 (R n , R p ) et x, d ∈ R n . On définit la restric-


tion ϕ : R → R p de la fonction φ à la droite passant par x et de vecteur directeur d par

∀t ∈ R, ϕ(t) = f ( x + td)

Alors ϕ ∈ C 1 (R, R p ) et

ϕ= f ◦g avec g : t ∈ R 7→ x + td ∈ R n

Donc la formule de dérivation composée s’écrit :

∀t ∈ R, ϕ′ (t) = J f ( x + td) · Jg(t) = J f ( x + td) · d ∈ M p1 (R )


| {z } | {z }
p×n n ×1

1.3.1 Cas particulier p = 1 : gradient, hessienne


Dans toute la suite, on considère f : Ω → R une application.

1.3.2 Différentiation à l’ordre 1


Définition 1.6 Si f ∈ C 1 (Ω, R ), alors on appelle gradient de f en x le vecteur de R n
 
∂f
( x)
 ∂x1 

∇ f ( x) =  .
..


 
 ∂f 
( x)
∂xn

Remarquons que f ( x) est un nombre alors que ∇ f ( x) est un vecteur.


8 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL

Remarque 1.2 Le gradient d’une application f : R n → R est obtenu par transposition de la


jacobienne de f qui est une matrice à une ligne et n colonnes. C’est une forme linéaire et cette
identification entre forme linéaire et vecteur au travers de la transposition est réalisée grâce au
théorème de représentation.
Remarque 1.3 Le vecteur gradient a un sens géométrique précis. Regardons dans R n+1 la sur-
face d’équation y = f ( x) autour du point ( x, f ( x)). Le gradient de f en x indique la direction
d dans laquelle la quantité f augmente le plus : on dit que le gradient pointe dans la direction de
plus grande pente. En effet, la pente de la surface dans la direction d en x est donnée par
d
f ( x + t.d) = ∇ f ( x).d
dt |t=0
par la formule obtenue dans l’exemple 1.7. L’inégalité de Cauchy-Schwarz indique alors que
d
−k∇ f ( x)kkdk ≤ f ( x + t.d) ≤ k∇ f ( x)kkdk.
dt |t=0
L’égalité n’a lieu que si d et ∇ f ( x) sont colinéaires.
Exemple 1.8 Soit f : R3 → R définie par f ( x) = k xk2 . Si on écrit x = ( x1 , x2 , x3 )T , alors
f ( x) = x12 + x22 + x32
Alors le gradient est donné par ∇ f ( x) = (2x1 , 2x2 , 2x3 )T = 2x.
Exemple 1.9 Soit f : Ω = (0, +∞) × R → R définie par
f ( x1 , x2 ) = ex1 + x2 ln x1 + cos x2
Alors f ∈ C 1 (Ω, R ) et
 T
x1 x2
∇ f ( x) = e + , ln x1 − sin x2
x1
Exemple 1.10 Soit A ∈ Mn (R ) une matrice symétrique et b ∈ R n . Pour x ∈ R n , on pose
f ( x) = xTAx − bTx
Alors f ∈ C 1 (R n , R ) et
∀ x ∈ R n , ∇ f ( x) = 2Ax − b
n n n
En effet f ( x) = ∑ ∑ aij xj xi − ∑ bi xi d’où
i =1 j =1 i =1
n n
∂f
∂xk
( x) = ∑ akj xj + ∑ aik xi − bk
j =1 i =1

= ( Ax)k + ( ATx)k − bk
d’où le résultat puisque A est symétrique. Ce résultat peut également se retrouver à partir de la
définition intrinsèque de la différentielle. Pour un vecteur h ∈ R n , calculons f ( x + h) :
f ( x + h) = ( x + h)TA( x + h) − bT( x + h) = xTAx + hTAx + xTAh − bTx − bTh.
Comme la matrice A est symétrique, xTAh = hTAx et donc
f ( x + h) = xTAx − bTx + hT(2Ax − b) + hTAh = f ( x) + hT(2Ax − b) + hTAh.
On conclut en identifiant le coefficient d’ordre 1.
1.3. FONCTIONS VECTORIELLES DE PLUSIEURS VARIABLES 9

1.3.3 Différentiation à l’ordre 2


Définition 1.7 f est de classe C 2 sur Ω ssi f ∈ C 1 (Ω, R ) et ∇ f ∈ C 1 (Ω, R n ).
On note alors H f ou ∇2 f la matrice jacobienne de ∇ f ; elle est appelée hessienne de f .
Cette matrice carrée de taille n est donnée par

∂ ∂f ∂2 f
[ H f ( x)]ij = ( x) = ( x)
∂x j ∂xi ∂x j ∂xi

Exemple 1.11 On reprend l’exemple 1.8. Alors f ∈ C 2 (R3 , R ) et la hessienne est donnée par
 
2 0 0
H f ( x) =  0 2 0 
0 0 2

Exemple 1.12 La fonction de l’exemple 1.9 est de classe C 2 sur Ω = (0, +∞[×R et
 
x2
x1 1
 e − x2 x1 
H f ( x) =  1 
 1 
− cos x2
x1

On remarque que les deux matrices hessiennes calculées dans les exemples précédents
sont des matrices symétriques. C’est en fait vrai en général :

Théorème 1.2 (Schwartz) Soit f ∈ C 2 (Ω, R ), alors

∂2 f ∂2 f
( x) = ( x)
∂xi ∂x j ∂x j ∂xi

Exemple 1.13 On revient sur l’exemple (1.7) : la dérivée seconde de l’application ϕ est donnée
par
ϕ′′ (t) = dT ∇2 f ( x + td)d.

1.3.4 Formule de Taylor


On rappelle enfin la formule de Taylor à l’ordre 2 pour une fonction deux fois différen-
tiable de R n dans R :

Théorème 1.3 Soit f ∈ C 2 (Ω, R ), alors pour tout x ∈ Ω et h suffisamment petit,

1
f ( x + h) = f ( x) + ∇ f ( x) · h + hT ∇2 f ( x)h + O(khk2 ).
2

Remarque 1.4 La formule de Taylor permet de disposer d’un modèle polynomial de degré 2 pour
la fonction f . Il n’a de sens que localement autour du point x. Son intérêt est de permettre des
calculs explicites que ne permet pas la fonction f en général.
10 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL

1.3.5 Rappels d’algèbre linéaire


Soit x, y ∈ R n , on rappelle que xT y = yT x est le produit scalaire des vecteurs x et y : c’est
le nombre x1 y1 + · · · + xn yn . Il est majoré par l’inégalité de Cauchy-Schwarz

| xT y| ≤ k xkkyk.

Cette inégalité devient une égalité si et seulement si les vecteurs x et y sont colinéaires.
La norme k xk désigne la norme euclidienne sur R n définie par k xk2 = xT x. Si d est
un vecteur non nul, alors { x ∈ R n , xT d = 0}est l’hyperplan orthogonal à d tandis que
{ x ∈ R n , xT d > 0} est le demi-espace de frontière l’hyperplan précedent vers lequel d
pointe.
Si A est une matrice carrée, on vérifie que xT ( Ay) = ( AT x)T y. Soit A ∈ Mn (R ) une
matrice symétrique, on a alors xT Ay = yT Ax. On rappelle qu’une matrice symétrique à
coefficients réels est diagonalisable (en base orthonormale).

Définition 1.8 A est semi-définie positive ssi pour tout vecteur x ∈ R n , xTAx ≥ 0.
A est définie positive ssi A est semi-définie positive et xTAx = 0 ⇒ x = 0.

Exemple 1.14 Soit


 
2 −1
A=
−1 2

Pour x ∈ R2 ,
  
2 −1 x1
T
x Ax = ( x1 , x2 ) = 2x12 − 2x1 x2 + 2x22 = ( x1 − x2 )2 + x12 + x22
−1 2 x2

ce qui prouve que A est définie positive.

Dire qu’une matrice est définie positive n’a pas de rapport avec le fait que ses coeffi-
cients soient positifs ou pas. Voici une caractérisation utile de la définition 1.8 à partir des
valeurs propres de la matrice A.

Proposition 1.4 A est semi-définie positive ssi toutes les valeurs propres de A sont positives ou
nulles.
A est définie positive ssi toutes les valeurs propres de A sont strictement positives.

Exemple 1.15 On reprend la matrice de l’exemple 1.14. Pour rechercher ses valeurs propres, on
calcule le polynôme caractéristique et on le factorise :

χ A ( X ) = det( X I − A) = ( X − 2)2 − 1 = ( X − 1)( X − 3)

Les deux valeurs propres sont donc 1 et 3 : elles sont strictement positives, donc A est définie
positive en vertu du résultat 1.4.
1.4. THÉORÈME DE LA FONCTION IMPLICITE 11

1.4 Théorème de la fonction implicite


Soit Ω1 ⊂ R n et Ω2 ⊂ R p deux ouverts. On considère une application f : Ω1 × Ω2 → R p .
Notations : On désignera par ( x, y) les éléments de Ω1 × Ω2 . La matrice p × p
 
∂ fi
( x, y) , 1 ≤ i ≤ p et 1 ≤ j ≤ p
∂y j

est appelée jacobienne (ou différentielle) partielle par rapport à y et est notée ∂y f ( x, y).
On peut aussi définir de même la jacobienne partielle par rapport à x.
Dans le cas particulier d’une fonction numérique (p = 1), on parle de gradient partiel par
rapport à y et on note
 T
∂f ∂f
∇y f ( x, y) = ( x, y), · · · , ( x, y)
∂y1 ∂yn
On rappelle maintenant un résultat essentiel du calcul différentiel :
Théorème 1.5 (fonction implicite) On suppose que f ∈ C 1 (Ω1 × Ω2 , R p ). On suppose que
( a, b) ∈ Ω1 × Ω2 est tel que
f ( a, b) = 0 et ∂y f ( a, b) est inversible.

Alors il existe des voisinages V ⊂ Ω1 de a et W ⊂ Ω2 de b tels que pour tout x ∈ V, l’équation


(en y)
f ( x, y) = 0
admette une et une seule solution y = ϕ( x) dans W (en particulier ϕ( a) = b). De plus la fonction
ϕ est de classe C 1 (V, R p ) et
  −1
∀ x ∈ V, ϕ′ ( x) = − ∂y f ( x, ϕ( x)) ∂ x f ( x, ϕ( x))

D ÉMONSTRATION : admise. 
On peut remplacer l’expression “voisinage de” par “boule centrée en” dans l’énoncé
précédent.
Exemple 1.16 Soit f : R2 → R définie par

f ( x, y) = x + y2

On calcule les différentielles partielles :


∂f ∂f
∂x f ( x, y) = ( x, y) = 1 et ∂y f ( x, y) = ( x, y) = 2y
∂x ∂y
Considérons les deux cas suivants :
• f (−1, 1) = 0 et ∂y f (−1, 1) = 2 6= 0. On peut donc appliquer le théorème 1.5 : il existe α > 0
et une fonction ϕ : ( a − α, a + α) → R tels que
1
∀ x ∈ ( a − α, a + α), f ( x, ϕ( x)) = 0 et ϕ′ ( x) =
2ϕ( x)
12 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL

• f (0, 0) = 0 et ∂y f (0, 0) = 0. Donc le théorème


√ 1.5 ne s’applique pas.
On pourra vérifier que la fonction ϕ( x) = x convient dans le premier cas. Elle est candidate
pour le deuxième, mais elle ne convient pas car n’est pas définie sur un voisinage de 0.

Remarque 1.5 Le théorème de la fonction implicite permet de donner une nouvelle interprétation
du vecteur gradient ∇ f ( x). Plaçons nous dans R n autour de x et supposons ∇ f ( x) 6= 0. L’en-
semble S isovaleur de f passant par x c’est-à-dire S = {y ∈ R n , f (y) = f ( x)} est une sur-
face autour de x dont le vecteur normal est ∇ f ( x). De plus, le gradient pointe vers la partie
{y ∈ R n , f (y) > f ( x)} du complémentaire de S.
Chapitre 2

Généralités sur les problèmes


d’optimisation

Dans toute la suite, on considère f : A ⊂ R n → R où A est un sous-ensemble de R n .

2.1 Définitions
2.1.1 Optima absolus
Définition 2.1 Si x∗ ∈ A est tel que

∀ x ∈ A, f ( x∗ ) ≤ f ( x)
alors on dit que f admet un minimum (absolu) sur A en x∗ . On note

f ( x∗ ) = min f ( x) et x∗ = argmin f ( x)
x∈ A x∈ A

Attention au vocabulaire : f ( x∗ ) est le minimum de f sur A ; f admet un minimum en x∗


et x∗ réalise le minimum de f sur A.

Remarque 2.1 Le minimum d’une fonction, s’il existe, est unique. Il peut cependant être atteint
en plusieurs points différents (voir l’exemple 2.3). En effet, le minimum s’il existe est nécessairement
la borne inférieure m de l’ensemble des valeurs prises par la fonction f sur l’ensemble A. Il existe
donc toujours une suite ( xn ) de points de A telle que la suite ( f ( xn )) converge vers m. Une telle
suite ( xn ) est dite suite minimisante. Le question de l’existence d’un minimum pour f revient
alors à savoir si la suite ( xn ) converge avec une limite dans A de sorte que la borne inférieure de
l’ensemble des valeurs prises par f sur A soit atteinte.

Exemple 2.1 La fonction f : [0, 1] → R définie par

∀ x ∈ R, f ( x) = x2 + 1
admet un minimum absolu sur R :

min f ( x) = f (0) = 1 et 0 = argmin f ( x)


x ∈R x ∈R

13
14 CHAPITRE 2. GÉNÉRALITÉS SUR LES PROBLÈMES D’OPTIMISATION

Exemple 2.2 La fonction ln : (0, 1) → R n’admet pas de minimum (car ln x → −∞ quand


x → 0).

Exemple 2.3 Soit f : R → R la fonction définie par

∀ x ∈ R, f ( x) = x4 − 2x2 + 1

Alors f admet 0 pour minimum absolu sur R. Il est atteint en deux valeurs de x différentes : 1 et
−1. En effet
∀ x ∈ R, f ( x) = ( x2 − 1)2

Exemple 2.4 Soit f : B → R donnée par f ( x, y) = 2 − x2 − y2 . B est la boule unité euclidienne


fermée de R2 :
B = {( x, y) ∈ R2 | x2 + y2 ≤ 1}

Alors f admet un minimum en tout point de la sphère unité ; ce minimum vaut 1.

Définition 2.2 Si x∗ ∈ A est tel que

∀ x ∈ A, f ( x∗ ) ≥ f ( x)

alors on dit que f admet un maximum (absolu) sur A en x∗ . On note

f ( x∗ ) = max f ( x) et x∗ = argmax f ( x)
x∈ A x∈ A

Définition 2.3 Si f admet en x∗ un minimum ou un maximum, on dit qu’elle admet un opti-


mum en x∗ .

Remarque 2.2 Si f admet un minimum en x∗ , alors − f admet un maximum en x∗ . C’est pour-


quoi, dans la suite, on ne parlera plus que de minimum, les énoncés concernant les maxima pour-
ront étre déduits facilement.

2.1.2 Optima relatifs


Définition 2.4 On dit que f admet un minimum relatif (ou local) sur A en x∗ ssi il existe un
voisinage V de x∗ dans A tel que f admette un minimum absolu sur V en x∗ .

(on peut ici encore remplacer l’expression “voisinage de” par “petite boule centrée en”).

Exemple 2.5 Soit f : R → R la fonction définie par

∀ x ∈ R, f ( x) = x3 − 3x + 1

Alors f admet en 1 un minimum relatif sur R, mais pas un minimum absolu car f ( x) tend vers
−∞ quand x → −∞.
2.2. OPTIMISATION SANS CONTRAINTES – AVEC CONTRAINTES 15

2.2 Optimisation sans contraintes – avec contraintes


Définition 2.5 On appelle problème de minimisation :
“ Trouver x∗ ∈ Ω tel que f ( x∗ ) = min f ( x). ”
x∈ A

Remarque 2.3 Un problème de minimisation n’admet pas nécessairement de solution :


1
x∗ = argmin n’admet pas de solution.
x ∈[1,+ ∞ ) x

De plus s’il admet une solution, elle peut ne pas être unique :
x∗ = argmin cos x admet π et 3π pour solutions.
x ∈[0,4π ]

Vocabulaire : Si A = R n , on parle d’optimisation sans contraintes (ou libre), sinon il s’agit


d’optimisation sous contrainte (ou liée).
A = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0} contraintes d’égalités

A = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0} contraintes d’inégalités
On peut aussi mélanger les deux types de contraintes :
A = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
On parle alors de contraintes égalités–inégalités. C’est le seul type d’optimisation liée que
nous étudierons.

Définition 2.6 On considère un problème d’optimisation avec contraintes de type inégalité et x∗


une solution de ce problème :
x∗ = argmin f ( x) ( A = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0})
x∈ A

Si hi( x∗ )
= 0, on dit que la contrainte hi ( x) ≤ 0 est serrée en x∗ (ou saturée, ou encore active).
Dans le cas contraire (hi ( x∗ ) < 0), on dit que la contrainte ne joue pas (ou est inactive).

2.3 Exemples de problèmes d’optimisation


Exemple 2.6 Une entreprise produit un bien C à partir des matières premières A et B. Elle achète
A au prix p1 et B au prix p2 . On note f la fonction qui, à la quantité de matières premières, associe
la quantité de bien produit (fonction de production). Le prix de vente de C est p.
Quelles quantités de matières premières A et B l’entreprise doit-elle acheter pour que son profit
soit maximum ?

Mathématiquement, ce problème s’écrit :


h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2
x1 ,x2 ∈R +

Il s’agit d’un problème d’optimisation avec contraintes d’inégalités (x1 ≥ 0 et x2 ≥ 0).


16 CHAPITRE 2. GÉNÉRALITÉS SUR LES PROBLÈMES D’OPTIMISATION

Exemple 2.7 On reprend l’exemple précédent, mais on suppose que le budget pour l’achat de
matières premières est fixé à S.

Le problème devient :
h i h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2 = argmax p f ( x1 , x2 ) − S
x1 , x2 ∈ R + x1 , x2 ∈ R +
p1 x1 + p2 x2 = S p1 x1 + p2 x2 = S

On est ici en présence d’un problème d’optimisation avec contraintes de type égalités–
inégalités.

Exemple 2.8 Dans l’exemple précédent, on suppose que le budget d’achat peut ne pas être totale-
ment dépensé.

Le problème d’optimisation devient


h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2
x1 , x2 ∈ R +
p1 x1 + p2 x2 ≤ S

Les contraintes sont toutes de type inégalité.

Remarque 2.4 Comme le montrent les trois exemples précédents, les problèmes provenant de
situations concrètes sont souvent des problèmes avec contraintes.

Dans le dernier exemple, la contrainte

p1 x2 + p2 x2 ≤ S

sera active. On le montrera mathématiquement, mais le contexte économique permet


de le pressentir : le profit sera d’autant plus grand qu’il y aura d’avantage de matières
premières.
Chapitre 3

Optimisation sans contrainte

On considère f : R n → R et le problème de minimisation suivant :

(P) x∗ = argmin f ( x)
x ∈R n

3.1 En dimension 1
On suppose ici n = 1.

3.1.1 Théorèmes d’existence et d’unicité


Théorème 3.1 (i) Si lim f ( x) = +∞ et f est continue sur R, alors le problème (P) admet
| x |→+ ∞
au moins une solution.
(ii) Si, de plus, f est strictement convexe, il y a unicité.
D ÉMONSTRATION : (i) Soit a = f (0). Comme lim f ( x) = +∞, il existe R > 0 tel que
| x |→+ ∞

| x| > R =⇒ f ( x) > f (0)


On en déduit
min f ( x) = min f ( x)
x ∈R | x |≤ R

Or f est continue sur I = [− R, R] et l’image d’un intervalle fermé borné par une applica-
tion continue est un intervalle fermé borné :
f ( I ) = [m, M ] avec f ( x∗ ) = m
ce qui prouve que
m = min f ( x)
| x |≤ R
d’où le résultat.
(ii) Notons x1∗ et x2∗ deux solutions et x∗ = ( x1∗ + x2∗ )/2. Alors, par stricte convexité,
1h i
f ( x∗ ) < f ( x1∗ ) + f ( x2∗ ) = f ( x1∗ ),
2
ce qui est une contradiction. 

17
18 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE

Exemple 3.1 Soit f ( x) = x6 − 3x2 − x + 1. Alors f ( x) → +∞ quand x → ±∞. Donc f


admet un minimum absolu sur R.

3.1.2 Condition nécessaire d’ordre 1


Théorème 3.2 Si f ∈ C 1 (R, R ) et admet en x∗ un minimum relatif, alors

f ′ ( x) = 0

D ÉMONSTRATION : Par définition de la dérivée :


f ( x ∗ + h) − f ( x ∗ )
f ′ ( x∗ ) = lim
h →0 h
Or (
f ( x ∗ + h) − f ( x ∗ ) ≥0 si h ≥ 0
h ≤0 si h ≤ 0
Par passage à la limite, f ′ ( x∗ ) ≥ 0 et f ′ ( x∗ ) ≤ 0 d’où f ′ ( x∗ ) = 0. 

Définition 3.1 Un point ξ vérifiant f ′ (ξ ) = 0 est appelé point critique de f .

Exemple 3.2 Soit f : R → R définie par

∀ x ∈ R, f ( x) = x3 − 3x − 1

Les points candidats à être minimum de f vérifient

f ′ ( x) = 3x2 − 3 = 3( x2 − 1) = 0 =⇒ x = ±1

Une étude de la fonction f permet de voir que f possède en −1 un maximum relatif et en 1 un


minimum relatif.

L’exemple précédent montre que la condition du théorème 3.2 n’est pas suffisante : elle
ne permet pas de faire la différence entre maximum et minimum, elle ne distingue pas un
optimum relatif d’un optimum absolu (c’est une condition locale). La situation est pire
encore : les points critiques peuvent même ne pas être optimum relatif de f :

Exemple 3.3 On considère la fonction x 7→ x3 . Les points critiques sont les solutions de 3x2 = 0,
donc il n’y en a qu’un : 0, qui ne correspond ni à un minimum relatif, ni à un maximum relatif de
la fonction cube.

3.1.3 Conditions d’ordre 2


On peut préciser le résultat vu au paragraphe précédent :

Théorème 3.3 Soit f ∈ C 2 (R, R ). Si f admet un minimum relatif en x∗ , alors

f ′ ( x∗ ) = 0 et f ′′ ( x∗ ) ≥ 0
3.1. EN DIMENSION 1 19

D ÉMONSTRATION : On sait déjà que f ′ ( x∗ ) = 0. D’après la formule de Taylor, on peut


écrire :
1
f ( x) = f ( x∗ ) + ( x − x∗ )2 f ′′ ( x∗ ) + o(| x − x∗ |2 )
2
D’où
f ( x) − f ( x∗ )
∀ x 6= x∗ , f ′′ ( x∗ ) = 2 + o ( 1)
( x − x ∗ )2
Or
f ( x) − f ( x∗ )
∀ x 6= x∗ , ≥0
( x − x ∗ )2
Le résultat s’en déduit par passage à la limite x → x∗ . 
On verra dans les exemples suivants que la réciproque de ce théorème est fausse. On peut
cependant donner une condition suffisante de minimum local :
Théorème 3.4 Si f ∈ C 2 (R, R ). Si f vérifie
f ′ ( x∗ ) = 0 et f ′′ ( x∗ ) > 0
alors f admet un minimum relatif en x∗ .
D ÉMONSTRATION : Ici encore, on écrit la formule de Taylor
f ( x) − f ( x∗ )
f ′′ ( x∗ ) = 2 + ε( x ) avec lim∗ ε( x) = 0
( x − x ∗ )2 x→x

Il existe η > 0 tel que


| x − x∗ | ≤ η =⇒ |ε( x)| ≤ f ′′ ( x∗ )
On en déduit que
f ( x) − f ( x∗ )
∀ x 6= x∗ , ≥ 0 =⇒ f ( x∗ ) ≤ f ( x)
( x − x ∗ )2
pour | x − x∗ | ≤ η, ce qui prouve que f admet en x∗ un minimum relatif. 
Remarque 3.1 En appliquant ces deux théorèmes pour − f on obtient des résultats similaires
pour un maximum relatif : les conditions d’ordre 2 deviennent f ′′ ( x∗ ) ≤ 0 et f ′′ ( x∗ ) < 0.

Exemple 3.4 On reprend les exemples du paragraphe précédent.


• Pour f ( x) = x3 − 3x − 1, on a
f ′′ (−1) = −6 et f ′′ (1) = 6
ce qui prouve que f admet un maximum relatif en −1 et un minimum relatif en 1.
• Pour f ( x) = x3 , on a f ′′ (0) = 0 donc on ne peut pas conclure à l’aide du théorème 3.4.
• Pour f ( x) = x4 , on vérifie que f (0) = 0 est bien un minimum absolu de f mais que f ′′ (0) = 0
n’est pas strictement positif. La condition donnée par le théorème 3.4 n’est pas nécessaire.

Remarque 3.2 Les théorèmes précédents ne permettent pas de détecter un minimum absolu. En
effet, ils sont basés sur les valeurs prises par les dérivées de la fonction en certains points : ils ne
peuvent donc contenir que de l’information locale autour de ce point. Il faut par exemple faire une
hypothèse de convexité (de nature globale : la dérivée est positive en tout point x et pas seulement
au point qui réalise le minimum) pour obtenir un énoncé concluant à un minimum absolu.
20 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE

3.2 En dimension supérieure


3.2.1 Théorème d’existence
On peut énoncer le même résultat qu’en dimension 1 :

Théorème 3.5 Si lim f ( x) = +∞ et f est continue sur R n , alors le problème (P) admet au
k x k→+ ∞
moins une solution. Il y a unicité si on ajoute une hypothse de stricte convexité.

D ÉMONSTRATION : La preuve est la même qu’en dimension 1, elle repose sur le fait que
l’image d’un compact par une application continue est un compact. 

Remarque 3.3 L’énoncé précédent fait intervenir la norme de x, mais de laquelle s’agit-il ? En
fait, peut importe car elles sont toutes équivalentes ( R n est de dimension finie n).

Exemple 3.5 Soit f : R2 → R définie par


2
∀( x, y) ∈ R2 , f ( x, y) = ex − x + y4

Alors f est continue et vérifie


lim f ( x, y) = +∞
k( x,y)k→+ ∞

En effet,
2
f ( x, y) = [ex − x] + [y4 ] = h( x) + g(y) avec lim h = lim g = +∞
±∞ ±∞

3.2.2 Condition nécessaire d’ordre 1


Théorème 3.6 Si f ∈ C 1 (R n , R ) et admet en x∗ un minimum relatif, alors

∇ f ( x∗ ) = 0 = 0R n

Cette égalité est appelée équation d’Euler.

D ÉMONSTRATION : Soit d ∈ R n . On définit ϕ : R → R par

∀t ∈ R, ϕ(t) = f ( x∗ + td)

Par la formule de dérivation composée, ϕ est de classe C 1 sur R et

∀t ∈ R, ϕ′ (t) = ∇ f ( x∗ + td)T d

Comme x∗ est un minimum relatif de f , 0 est un minimum relatif de ϕ. On en déduit :

ϕ′ (0) = 0 =⇒ ∇ f ( x∗ )T d = 0

Comme d est quelconque, on peut prendre d = ∇ f ( x∗ ), d’où le résultat. 

Définition 3.2 Une solution x de l’équation d’Euler ∇ f ( x) = 0 est appelé point critique de la
fonction f .
3.2. EN DIMENSION SUPÉRIEURE 21

Remarque 3.4 En un point critique, une fonction peut atteindre un extremum (soit minimum
soit maximum) ou non. En effet, la seule information traduite par l’équation d’Euler est que la
surface y = ( f x) a un plan tangent horizontal en x∗ . L’exemple de la fonction réelle f ( x) = x3
montre bien que cela n’implique pas que la fonction f y atteigne une valeur extrémale.

Exemple 3.6 Soit f : R2 → R définie par

f ( x, y) = x2 + y2

Les points candidats à réaliser un minimum de f vérifient

∇ f ( x, y) = 2x = 0 =⇒ x = 0 et y = 0.

Donc seul f (0R2 ) est un possible minimum.

Exemple 3.7 Soit f : R2 → R définie par

f ( x, y) = x3 + y3

Les points candidats à réaliser un minimum de f vérifient

∇ f ( x, y) = (3x2 , 3y2 ) = (0, 0) =⇒ x = 0 et y = 0.

Donc seul f (0R2 ) est un possible minimum. Mais comme f (0, y) = y3 < 0 = f (0R2 ) pour
2
y < 0, la fonction f n’a pas de minimum en 0R donc sur R2 .

Remarque 3.5 Soit x∗ un point critique pour une fonction f de classe C 2 (R n , R ). La formule
de Taylor en x∗ se simplifie en

1
f ( x∗ + h) = f ( x∗ ) + hT ∇2 f ( x∗ )h + ø(khk2 ).
2

Cela signifie que, à des termes d’erreurs négligeables devant khk2 près, la fonction f ressemble au
polynôme de dégré deux
1
P(h) = f ( x∗ ) + hT ∇2 f ( x∗ )h.
2
Si nous décomposons le vecteur h = (h1 , . . . , hn ) dans une base diagonale pour la matrice
∇2 f ( x∗ ) dont les n valeurs propres sont notées λi , nous obtenons que

1 n
P ( h) = f ( x ∗ ) + λi h2i .
2 i∑
=1

Le signe de P(h) − f ( x∗ ) qui est positif si la fonction f a un minimum en x∗ est donc relié au
signe des valeurs propres λi de la matrice ∇2 f ( x∗ ).
22 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE

3.2.3 Conditions d’ordre 2


Le théorème 3.3 devient

Théorème 3.7 Soit f ∈ C 2 (R n , R ). Si f admet un minimum relatif en x∗ , alors


∇ f ( x∗ ) = 0 et ∇2 f ( x∗ ) est semi-définie positive.

D ÉMONSTRATION : Soit ϕ définie comme dans la démonstration précédente. Alors

∀t ∈ R, ϕ′′ (t) = d T ∇2 f ( x∗ + td)d


Par application du théorème 3.3, d T ∇2 f ( x∗ )d ≥ 0. Comme d est quelconque, on en déduit
le résultat. 
De la même façon, voici le résultat correspondant au théorème 3.4

Théorème 3.8 Si f ∈ C 2 (R n , R ). Si f vérifie


∇ f ( x∗ ) = 0 et ∇2 f ( x∗ ) est définie positive.
alors f admet un minimum relatif en x∗ .

D ÉMONSTRATION : Comme en dimension 1, elle repose sur la formule de Taylor à l’ordre


deux. Donnons nous x 6= x∗ dans un voisinage de x∗ et passons en coordonnées adaptées
autour de x∗ . Posons ρ = k x − x∗ k > 0 et d = ( x − x∗ )/ρ de sorte que x = x∗ + ρd et
écrivons la formule de Taylor en x∗
1
∀ x ∈ R n , f ( x) = f ( x∗ ) + ( x − x∗ )T ∇2 f ( x∗ )( x − x∗ ) + o(k x − x∗ k2 ).
2
En passant en ρ, d, on en déduit
 
f ( x) − f ( x∗ ) = ρ2 dT ∇2 f ( x∗ )d + ψ(ρ) .

avec ψ(ρ) → 0 quand ρ → 0. Par hypothèse, d T ∇2 f ( x∗ )d > 0 pour tout d. Ici, d est de
norme 1 et, comme la dimension n est finie, la boule unité de R n est compacte : il existe
un réel α tel que d T ∇2 f ( x∗ )d ≤ α > 0. On peut choisir pour α la plus petite des valeurs
propres de la hessienne ∇2 f ( x∗ ). Comme ψ(ρ) → 0, il existe ρ0 > 0 tel que
ρ < ρ0 =⇒ |ψ(ρ)| ≤ α,

Alors, pour x dans la boule de centre x∗ et de rayon ρ0 ,


f ( x) − f ( x∗ ) = f ( x∗ + εd) − f ( x∗ ) ≥ 0

d’où les valeurs prises par f dans une boule autour de x∗ sont donc supérieures à f ( x∗ ).


Exemple 3.8 On reprend l’exemple précédent. La hessienne est constante :

∀ x ∈ R2 , ∇2 f ( x) = 2I2
Donc ∇2 f (0) est définie positive, on peut donc conclure que f admet un minimum en 0 (ce qu’il
est facile de voir par ailleurs).
3.2. EN DIMENSION SUPÉRIEURE 23

Exemple 3.9 Soit f : R2 → R définie par

∀( x, y) ∈ R2 , f ( x, y) = x2 + y2 − xy

Les points critiques de f sont les solutions de ∇ f ( x, y) = 0. Or

∇ f ( x, y) = (2x − y, 2y − x)T

D’où x = y = 0. L’étude de la hessienne permet de conclure :


 
2 2 −1
∇ f ( x, y) =
−1 2

qui est une matrice définie positive. Donc f admet un minimum relatif en (0, 0).

Remarque 3.6 Comme en dimension 1, on ne peut pas conclure dans le cas où la hessienne est
seulement semi-définie positive. Prenons ainsi f ( x, y) = x2 + y3 . Les points critiques de f sont
solutions de ∇ f ( x, y) = (2x, 3y2 ) = (0, 0), il existe donc un unique point critique qui est (0, 0)
la hessienne est alors  
2 2 0
∇ f (0, 0) =
0 0
qui est semi-définie positive. Ici, f n’admet pas de minimum en (0, 0) : en effet, on constate que
f (0, y) = y3 < 0 = f (0, 0) dès que y < 0.
24 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
Chapitre 4

Optimisation avec contraintes

Dans ce chapitre, on considère f : Ω → R p où Ω est un ouvert.


Le problème qui nous intéresse est le suivant :

(Q) x∗ = argmin f ( x)
x ∈K

avec K ⊂ Ω. L’ensemble K désigne l’ensemble des paramètres admissibles c’est-à-dire


l’ensemble des états qui satisfont aux contraintes alors que Ω est l’ensemble de définition
du coût f .
La première remarque est la suivante : si x∗ solution du problème (Q) est dans l’intérieur
de K, tous les états voisins de x∗ satisfont la contrainte : cette dernière est automatiquent
vérifée autour de x∗ , elle n’intervient pas.

Théorème 4.1 Soit x∗ solution du problème (Q). Si x∗ est à l’intérieur du domaine K, alors
∇ f ( x∗ ) = 0.

D ÉMONSTRATION : La preuve est la même qu’en l’absence de contraintes, car on peut


faire des petites variations dans toutes les directions autour de x∗ . 

Par contre, comme le montre l’exemple suivant, la condition d’annulation du gradient


n’est pas nécessaire en présence de contraintes :

Exemple 4.1 Soit le problème suivant :

x∗ = argmin( x2 + x + 1)
x ∈[0,1]

Il est facile de voir que x∗ = 0 en est l’unique solution. Cependant la dérivée en 0 vaut 1 6= 0.

Le problème provient du fait que le minimum est atteint au bord du domaine. Le but de
ce chapitre est de trouver l’équivalent des conditions d’Euler dans le cas de l’optimisation
avec contraintes. On se restreint aux contraintes de type égalité–inégalité.

25
26 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES

4.1 Condition nécessaire d’ordre 1


4.1.1 Contraintes de type égalité
Dans ce paragraphe, on suppose que l’ensemble des contraintes K est donné par

K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0}

Pour chaque i, gi désigne une fonction de x qui traduit une contrainte. Ici, on suppose que
le nombre de contraintes est exactement p. On notera g( x) le vecteur ( g1 ( x), . . . , g p ( x))T ∈
R p.

Définition 4.1 On appelle Lagrangien du problème de minimisation (Q) l’application L de


Ω × R p valeurs dans R définie par

∀( x, Λ) ∈ Ω × R p , L ( x, Λ) = f ( x) + ΛT g( x)

Ou encore
p
∀ x ∈ Ω ∀λ1 , . . . , λ p ∈ R, L ( x, λ1 , . . . , λ p ) = f ( x) + ∑ λi gi ( x)
i =1

Théorème 4.2 (extrema liés) Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 ,
. . . , g p sont de classe C 1 et que les vecteurs

∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) ∈ R n

sont linéairement indépendants. Alors

∃Λ ∈ R p , ∇x L ( x∗ , Λ) = 0

c’est-à-dire qu’il existe des réels λ1 , . . . , λ p tels que


p
∇ f ( x ∗ ) + ∑ λ i ∇ gi ( x ∗ ) = 0
i =1

Cette équation est appelée équation d’Euler-Lagrange.

D ÉMONSTRATION : Soit A la matrice


h iT
A = ∇ g1 ( x∗ ) · · · ∇ g p ( x∗ ) = Jg( x∗ ) ∈ M pn (R )

L’hypothèse d’indépendance linéaire faite sur les gradients des fonctions gi signifie que
A est surjective. Elle admet donc un inverse à droite B ∈ Mnp (R ) : AB = I p .
On définit alors la fonction G : R n × R p → R p par

∀( x, y) ∈ R n × R p , G ( x, y) = g( x∗ + By + x)

On a G (0, 0) = g( x∗ ) = 0 car x∗ ∈ K. De plus G est de classe C 1 et

∂y G ( x, y) = Jg( x∗ + By + x) · B =⇒ ∂y G (0, 0) = Jg( x∗ ) · B = I p


4.1. CONDITION NÉCESSAIRE D’ORDRE 1 27

Le théorème de la fonction implicite s’applique donc : il existe un voisinage V ⊂ R n de 0


et un voisinage W ⊂ R p de 0 tels que, pour tout x ∈ V, l’équation G ( x, y) = 0 admette
une unique solution y = ϕ( x) ∈ W (en particulier ϕ(0) = 0). On a donc G ( x, ϕ( x)) = 0,
d’où, après dérivation par rapport à x,

∂x G ( x, ϕ( x)) + ∂y G ( x, ϕ( x)) · J ϕ( x) = 0

Pour x = 0, on obtient :
∂x G (0, 0) + ∂y G (0, 0) · J ϕ(0) = 0
Or ∂ x G (0, 0) = Jg(0) et ∂y G (0, 0) = I p donc J ϕ(0) = − Jg( x∗ ).
Si x ∈ V, alors x∗ + Bϕ( x) + x ∈ K et

f ( x∗ ) ≤ f ( x∗ + Bϕ( x) + x) ∀x ∈ V
Donc x = 0 est un minimum relatif de f˜ définie par

∀ x ∈ R n , f˜( x) = f ( x∗ + Bϕ( x) + x)
Le théorème 3.6 s’applique à f˜ :

0 = ∇ f˜(0) = ∇ f ( x∗ ) + J ϕ(0)T BT ∇ f ( x∗ ) = ∇ f ( x∗ ) − Jg( x∗ )T BT ∇ f ( x∗ )

En posant Λ = − BT ∇ f ( x∗ ), on obtient le résultat. 

Remarque 4.1 Les nombres λ1 , . . . , λ p sont appelés multiplicateurs de Lagrange.

Remarque 4.2 Le théorème des extrema liés s’interprète simplement dans le cas où l’ensemble des
contraintes est le cercle unité de R2 . En effet, minimiser une fonction f ( x, y) sous la contrainte
x2 + y2 = 1 revient à minimiser la fonction ϕ(θ ) = f (cos θ, sin θ ) pour θ dans R. On est donc
ramené un problème sans contrainte. La condition d’optimalité s’écrit
∂f ∂f
ϕ′ (θ ∗ ) = 0 ⇐⇒ − sin θ ∗ (cos θ ∗ , sin θ ∗ ) + cos θ ∗ (cos θ ∗ , sin θ ∗ ) = 0.
∂x ∂x
En interprétant cette dernière comme l’annulation d’un déterminant, elle montre que les vec-
teurs ∇ f (cos θ ∗ , sin θ ∗ ) et (cos θ ∗ , sin θ ∗ )T sont colinéaires. Or ce dernier vecteur n’est autre
que 21 ∇ g(cos θ ∗ , sin θ ∗ ), o g( x, y) = x2 + y2 − 1 définit la contrainte.
Ainsi, il existe un nombre réel µ tel que

∇ f (cos θ ∗ , sin θ ∗ ) = µ∇ g(cos θ ∗ , sin θ ∗ ),


il suffit de poser λ = −µ pour retrouver le résultat annoncé.

Exemple 4.2 Soit le problème de minimiser x2 − y sous la contrainte x2 + y2 = 1. Le Lagrangien


s’écrit :
L ( x, y, λ) = x2 − y + λ( x2 + y2 − 1)
si bien que la condition nécessaire d’ordre 1 s’écrit :
   
2x 2x
+λ =0
−1 2y
Deux cas se présentent :
28 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES

F IG . 4.1 – Graphe de la fonction f de l’exemple 4.2

1.25

0.12

−1.00 −1
−1

0
0
x y
1 1

– x = 0 d’où y = ±1. √
– x 6= 0 et alors λ = −1 et y = −1/2. Comme x2 + y2 = 1, on en déduit x = ± 3/2
Il suffit maintenant de vérifier la condition d’indépendance linéaire, elle revient ici à la non nullité
du gradient de la fonction définissant√ la contrainte, ce qui est aisé de vérifier.
En conclusion, les quatre points (± 3/2, −1/2), (0, ±1) sont candidats. Il est facile de montrer
que les deux premiers correspondent à un maximum absolu et que parmi les deux derniers, (0, 1)
correspond à un minimum absolu et (0, −1) à un minimum relatif (voir F IG 4.1).

Remarque 4.3 Il est crucial de vérifier la condition d’indépendance linéaire des gradients des
fonctions définissant les contraintes. Cette condition est naturelle car elle écarte le cas de contraintes
redondantes. Considérons en effet la minimisation de x1 + x22 sous la contrainte x13 − x22 = 0 :
dans le cas d’une unique contrainte, l’indépendance signifie la non annulation. On voit facilement
que (0, 0) est l’unique solution. Pourtant on n’a pas de condition d’ordre 1 :
   
1 3x12
∇x L ( x, λ) = +λ
2x2 2x2

En x = (0, 0), la condition d’ordre 1 fournit les deux égalités 1 = 0 et 0 = 0, ce qui est impossible.
4.1. CONDITION NÉCESSAIRE D’ORDRE 1 29

Exemple 4.3 Considérons le problème géométrique suivant : parmi tous les parallélépipédes
rectangle de surface unité, quel est celui de volume maximal ?
Notons x, y, z les longueurs des trois cotés du parallélépipède, ce sont des nombres strictement
positifs. Son volume est V ( x, y, z) = xyz tandis que sa surface est S( x, y, z) = 2( xy + yz + zx).
La question est de maximiser V sous la contrainte S( x, y, z) = 1. Introduisons le Lagrangien du
problème :
L( x, y, z, λ) = V ( x, y, z) + λ (S( x, y, z) − 1) .
En un éventuel point ( x, y, z) solution de ce problème d’opitmisation sous contraintes, la condition
d’extrémalité de Euler-Lagrange s’écrit alors

∃λ ∈ R, ∇V ( x, y, z) + λ∇S( x, y, z) = 0.

Comme ∇V ( x, y, z) = (yz, xz, xy) et ∇S( x, y, z) = 2(y + z, x + z, x + y), elle se ramène au


système :

 yz + 2λ(y + z) = 0,
xz + 2λ( x + z) = 0,

xy + 2λ( x + y) = 0.
On en déduit que nécessairement λ 6= 0 puis que

x ( y + z ) = y ( x + z ) = z ( x + y ).

En particulier, la première égalité implique que xz = yz soit x = y comme z > 0. Le seconde


implique que yx = zx et donc que y = z car x > 0. Finalement, on avons obtenu que x = y = z,
2
√ est alors un cube. Comme sa surface est S( x, x, x) = 12x = 1, son coté est de
le parallélipède
longueur 2 3. Le multiplicateur de Lagrange vaut alors λ = −.

4.1.2 Contraintes de type inégalité


Dans ce paragraphe, on suppose que l’ensemble des contraintes K est donné par

K = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}

On notera h( x) le vecteur (h1 ( x), . . . , hq ( x))T ∈ R q .

Définition 4.2 On appelle Lagrangien du problème de minimisation (Q) la fonction L : Ω ×


R q → R définie par

∀( x, M) ∈ Ω × R q , L ( x, M) = f ( x) + MT h( x)

Ou encore
q
∀ x ∈ Ω ∀µ1 , . . . , µq ∈ R, L ( x, µ1 , . . . , µq ) = f ( x) + ∑ µi hi ( x)
i =1

Le résultat suivant fournit la condition nécessaire d’ordre 1 dans le cas des contraintes de
type inégalités :
30 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES

Théorème 4.3 (Kuhn et Tucker) Soit x∗ une solution de (Q). On suppose que les fonctions
f , h1 , . . . , hq sont de classe C 1 et que la condition suivante est vérifiée :
(∗) ∃d ∈ R n , hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
Alors il existe des réels µ1 , . . . , µq tels que

(i ) µi ≥ 0

(ii) µi hi ( x ∗ ) = 0
q

(iii) ∇ f ( x ) + ∑ µi ∇hi ( x∗ ) = 0
i =1

D ÉMONSTRATION : admise. 

Remarque 4.4 En dimension 1, le rsultat précédent est très naturel : si f admet un minimum
sur [0, 1] en x∗ = 0, alors f ′ ( x∗ ) ≥ 0. De même si x∗ = 1, f ′ ( x∗ ) ≤ 0. C’est le signe des
multiplicateurs de Kuhn-Tucker qui permet de retrouver ces conditions, associés aux contraintes
x ≥ 0 et x ≤ 1. Il traduit le fait que seul ce qui se passe d’un coté de 0 ou de 1 doit être considéré.

Remarque 4.5 La condition (ii ) signifie que si la contrainte n’est pas serrée (i.e. hi ( x∗ ) < 0),
alors µi = 0 : elle n’intervient pas dans la condition d’ordre 1. On appelle (ii ) relation d’exclu-
sion.
La condition (∗) est plus faible qu’une condition d’indépendance linéaire. On appelle (∗) hy-
pothèse de qualification des contraintes.
Les coefficients µ1 , . . . , µq sont appelés multiplicateurs de Kuhn et Tucker.
La condition (iii ) s’écrit en termes de Lagrangien :

∇x L ( x∗ , M) = 0 avec M = ( µ1 , . . . , µ n )

2 + y2
Exemple 4.4 Soit D = {( x, y) ∈ R2 | x2 + y2 ≤ 9} et f ( x, y) = ex + y2 − 1. La contrainte
est h(s, y) = x2 + y2 − 9. Le Lagrangien est donné par
2 + y2
L ( x, y, λ) = ex + y2 − 1 + λ ( x 2 + y2 − 9)

d’où " #
2 + y2
2xex + 2λx
∇( x,y) L ( x, y, λ) = 2 + y2
2yex + 2y + 2λy
Donc la condition de Kuhn et Tucker s’écrit :
2 + y2 2 + y2
x(ex + λ) = 0 et y( e x + 1 + λ) = 0

Comme λ ≥ 0, nécessairement ( x, y) = (0, 0). Vérifions maintenant la condition de qualification


des contraintes : elle est satisfaite car ∇h = 2( x, y) ne s’annule que en (0, 0) où h ne s’annule
pas.
4.1. CONDITION NÉCESSAIRE D’ORDRE 1 31

Exemple 4.5 Soit le problème de minimiser x sur l’ensemble


n o
K = ( x, y) ∈ R2 | y ≥ 0 et y ≤ (1 + x)3

Le Lagrangien du problème est


h i
L ( x, y, µ1 , µ2 ) = x − µ1 y + µ2 y − (1 + x)3
Donc  
1 − 3µ2 (1 + x)2
∇( x,y) L ( x, y, µ1 , µ2 ) =
− µ1 + µ2
La condition d’ordre 1 s’écrit :
1 − 3µ2 (1 + x)2 = 0 et µ1 = µ2
De plus, les conditions d’exclusion fournissent :
h i
µ1 y = 0 et µ2 y − (1 + x )3 = 0

– Si µ1 = 0, alors µ2 = 0 d’où 1 = 0, impossible ;


– Sinon, y = 0 et alors µ2 (1 + x)3 = 0. De même que dans le premier cas, on montre que µ2 6= 0,
d’où x = −1.
Le seul point candidat est (−1, 0).
Il reste à vérifier l’hypothèse de qualification des contraintes : si on note h1 ( x, y) = −y et
h2 ( x, y) = y − (1 + x)3 alors
   
0 0
∇h1 (−1, 0) = et ∇h2 (−1, 0) =
−1 1
Et justement, elles ne sont pas vérifiées ! Supposons qu’elles le soient : il existerait un vecteur
d = (d1 , d2 ) tel que
dT ∇h1 (−1, 0) = −d2 < 0 et dT ∇h1 (−1, 0) = d2 < 0.
Cela est impossible Donc on ne peut pas appliquer le théorème de Kuhn et Tucker. Pourtant (−1, 0)
est bien la solution recherchée.
Remarque 4.6 Si on a affaire à un problème de maximisation, on considère − f pour se ramener
à un problème de minimisation, plutôt que de changer le signe des multiplicateurs.
Exemple 4.6 Soit A ∈ Mn (R ) symétrique définie positive. On considère le problème
x∗ = argmax xTAx
k x k≤1

Le Lagrangien s’écrit L ( x, µ) = − xTAx + µ(k xk2 − 1) d’où


∇x L ( x∗ , µ) = −2Ax∗ + 2µx∗
La condition d’ordre 1 affirme donc que µ est valeur propre de A et x∗ est vecteur propre associé.
Ainsi
x∗TAx∗ = µk xk2
qui est maximum si µ est la plus grande valeur propre de A et x∗ vecteur propre unitaire associé.
La condition de qualification des contraintes est ici trivialement vérifiée.
32 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES

Remarque 4.7 En dimension 2, la condition de qualification des contraintes peut s’interpréter


ainsi : les vecteurs gradients de contraintes serrées au point considéré sont situés dans un même
demi-plan strict.

4.1.3 Contraintes mixtes égalités–inégalités


Ici l’ensemble contrainte est donné par
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
Le Lagrangien s’écrit
∀( x, Λ, M) ∈ R n × R p × R q , L ( x, Λ, M) = f ( x) + ΛT g( x) + MT h( x)
La condition nécessaire d’ordre 1 est donnée par le théorème suivant :

Théorème 4.4 Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 , . . . , g p et h1 ,
. . . , hq sont de classe C 1 . On fait, de plus, l’hypothèse de qualification des contraintes :

∃d ∈ R n , d T ∇ gi ( x∗ ) = 0 et hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
(∗)
Les vecteurs ∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) sont linéairement indépendants.
Alors il existe des réels λ1 , . . . , λ p , µ1 , . . . , µq tels que
(i ) µi ≥ 0

(ii) µi hi ( x ∗ ) = 0

(iii) gi ( x∗ ) = 0
p q
(iv) ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1

D ÉMONSTRATION : admise. 
Exemple 4.7 On se propose de minimiser x2 sur l’ensemble contrainte :
K = {( x, y) ∈ R2 | x2 + y2 ≤ 2 et x = y}
On écrit le Lagrangien : L ( x, y, λ, µ) = x2 + λ( x − y) + µ( x2 + y2 − 2) si bien que
 
2x + λ + 2µx
∇x L ( x, y, λ, µ) =
−λ + 2µy
La condition de Kuhn et Tucker s’écrit
2x∗ + λ + 2µx∗ = 0 et 2µy∗ = λ
On écrit aussi les relations de liaison et d’exclusion
x ∗ = y∗ et µ ( x ∗ 2 + y ∗ 2 − 2) = 0 ( µ ≥ 0)
On en déduit x∗ (1 + 2µ) = 0 d’où x∗ = 0 puisque µ ≥ 0. Donc y∗ = 0 (la condition de
qualification des contraintes est vérifiée).
4.2. CONDITION SUFFISANTE D’ORDRE 2 33

4.2 Condition suffisante d’ordre 2


Comme dans le cas de l’optimisation sans contrainte, on peut énoncer une condition suf-
fisante faisant intervenir les dérivées d’ordre 2 du Lagrangien. On donne ici une version
très faible du résultat, dans le cadre de contraintes de type “égalités”.

Théorème 4.5 On suppose que f , g1 , . . . , g p sont de classe C 2 . Si x∗ vérifie :

∇x L ( x, Λ) = 0 et ∇2x L ( x, Λ) est définie positive

alors x∗ est un minimum local de f sur K.

D ÉMONSTRATION : admise. 
34 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES
Chapitre 5

Algorithmes pour l’optimisation

5.1 Algorithmes de descente


5.1.1 Généralités
Méthodes de descente
Soit f : Ω ⊂ R n → R une application continue telle que le problème
x∗ = argmin f ( x)
x ∈Ω

admette une unique solution.


Le but de ce paragraphe est de présenter une classe d’algorithmes – dits algorithmes de
descente – pour déterminer numériquement x∗ .
L’idée de la méthode consiste à construire une suite ( xk ) telle que
– ∀k ∈ N, xk ∈ Ω ;
– f ( x k +1 ) ≤ f ( x k ).
On espère alors que la suite xk converge vers x∗ quand k → +∞. Par continuité de f ,
f ( xk ) −→ min f ( x)
x ∈Ω

5.1.2 Méthodes de gradient


Une méthode de descente peut s’écrire sous la forme :
x k +1 = x k + d k
La question est la suivante : xk étant fixé, comment choisir la direction de descente dk
pour que f ( xk+1 ) soit inférieur à f ( xk ) ?
La formule de Taylor au premier ordre fournit une approximation à l’ordre 1 :
f ( xk + dk ) ≃ f ( xk ) + ∇ f ( xk )T dk
On veut que la différence f ( xk ) − f ( xk + dk ) soit maximum. Il s’agit donc de maximiser
−∇ f ( xk )T dk . Or
| − ∇ f ( xk )T dk | ≤ k∇ f ( xk )k · kdk k (inégalité de Cauchy-Schwartz)

35
36 CHAPITRE 5. ALGORITHMES POUR L’OPTIMISATION

avec égalité pour dk = −ρ∇ f ( xk ) (ρ > 0). Cette remarque donne naissance aux méthodes
dites de gradient :
x k +1 = x k − ρ ∇ f ( x k )

5.1.3 Algorithme du gradient à pas fixe


Optimisation sans contrainte
On suppose ici Ω = R n .
Afin de montrer la convergence de la méthode, on fait les hypothèses suivantes sur f :
∀ω borné ∃ Lω > 0 ∀ x, y ∈ ω, k∇ f ( x) − ∇ f (y)k ≤ Lω k x − yk (∇ f est lipschitzien)

∃α > 0 ∀ x, y ∈ R n , ( x − y)T (∇ f ( x) − ∇ f (y) ≥ αk x − yk2 ( f est α−convexe)


Ces hypothèses impliquent que le problème de minimisation admet une unique solution.
On peut alors énoncer le théorème suivant :
Théorème 5.1 (convergence de la méthode du gradient) On suppose que f vérifie les deux
conditions ci-dessus, alors la suite construite par
x k +1 = x k − ρ ∇ f ( x k )
converge vers la solution x∗ du problème de minimisation dès que ρ est suffisamment proche de 0.
D ÉMONSTRATION : La suite xk est bornée : en effet la suite f ( xk ) décroı̂t, donc f ( xk ) ap-
partient à la boule fermée B(0, f ( x0 )) d’où xk ∈ B = f −1 ( B(0, f ( x0 ))). Comme B(0, f ( x0 ))
est compacte et f continue, alors B est compact donc borné.
Soit Φ : R n → R n définie par
∀ x ∈ R n , Φ( x ) = x − ρ∇ f ( x )
Montrons que Φ est contractante sur B : soient x, y ∈ B,
kΦ( x) − Φ(y)k2 = k x − y − ρ(∇ f ( x) − ∇ f (y))k2
= k x − yk2 + ρ2 k∇ f ( x) − ∇ f (y)k2 − 2ρ( x − y)T (∇ f ( x) − ∇ f (y))
≤ k x − yk2 + ρ2 L2B k x − yk2 − 2αρk x − yk2
= (1 − 2αρ + L2B ρ2 )k x − yk2
Une étude simple de la fonction ψ : ρ 7→ 1 − 2αρ + L2B ρ2 permet de dresser le tableau de
variations suivant
α 2α
x −∞ 0 +∞
L2B L2B
α
ψ +∞ ց 1 ց ց 1 − ր ր 1 ր +∞
L2B

Donc Φ est strictement contractante pour 0 < ρ < . On conclut à l’aide du théorème
L2B
du point fixe. 
Remarque 5.1 La convergence de l’algorithme est géométrique, de raison ψ(ρ).
5.1. ALGORITHMES DE DESCENTE 37

Optimisation avec contraintes

Dans le cas de contraintes, l’algorithme précédent ne s’applique pas tel quel. En effet,
même si xk ∈ Ω, il n’est pas sûr que xk+1 ∈ Ω. Pour pallier cette difficulté, on modifie la
méthode comme suit dans le cas où Ω est un convexe fermé :
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )

où ΠΩ est la projection sur Ω. Cette méthode converge sous les mêmes hypothèses :

Théorème 5.2 Si f vérifie les hypothèses du paragraphe précédent et ρ est suffisamment proche
de 0, alors la suite construite par
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )

converge vers la solution x∗ du problème de minimisation.

D ÉMONSTRATION : La démonstration est identique à la précédente ; on utilise le fait que


ΠΩ est contractante. 

Pratique de l’algorithme de gradient.

Plusieurs problèmes se posent quand l’on veut utiliser effectivement l’algorithme du


gradient sur une situation. Heuristiquement, cet algorithme reproduit le comportement
d’une goutte de pluie qui tombe sur une surface imperméable : elle tombe en un point,
puis suit la ligne de plus grande pente en s’arrétant sur le premier creux qu’elle rencontre.
Ce premier creux correspond à un minimum de la fonction mais n’a aucune raison de cor-
respondre au minimum absolu de celle ci. Pour poursuivre la métaphore météorologique,
ceci correspond aux lacs qui se remplissent jusqu’à déborder ; l’eau poursuit ainsi son
chemin de minimum local de l’altitude en minimum local jusque la mer qui réalise le
miminum global. L’algorithme de gradient s’arrête au premier lac. En d’autres termes, le
résultat final de l’application de l’algorithme de gradient dépend trés fortement du point
initial choisi.
Dans le cadre des applications, les minima locaux ne présentent que peu d’intérêt, seul le
ou les minima absolus comptent. Il convient donc d’essayer de se débarrasser de ce blo-
cage dans un minimum relatif. Une façon de faire est d’utiliser une méthode d’optimisa-
tion globale souvent basée sur une approche stochastique. Un autre manière de procéder
est de multiplier les applications de l’algorithme pour des points initiaux variés. Ainsi, si
on arrose le domaine des paramètres admissibles par des points et que l’on fait partir une
méthode de gradient à paritr de chacun de ces points, on peut espèrer contourner cette
difficulté.
Un second problème fondamental en pratique est de choisir correctement le pas ρ. Dans
le cadre du théorème 5.1, le pas est toujours le même. Ce choix n’est pas forcément le plus
approprié.
38 CHAPITRE 5. ALGORITHMES POUR L’OPTIMISATION

5.2 Méthode de Newton


Une autre façon d’aborder le problème consiste à travailler sur les équations d’Euler du
problème (cas sans contraintes) ou les équations d’Euler-Lagrange (cas avec contraintes).
On est donc ramené à résoudre une équation du type

F ( x) = 0 où F : R d → R d

Nous allons ici décrire la méthode de Newton (ou méthode de Newton-Raphson) pour
déterminer numériquement une racine de F.
Soit x0 ∈ R d . On construit la suite ( xk ) comme suit :
h i −1
xk+1 = xk − JF ( xk ) F ( xk )

(on suppose qu’il est licite d’écrire cette égalité).

Remarque 5.2 Dans la pratique, on ne calcule jamais l’inverse de la matrice JF ( xk ). Ceci revien-
h i −1
drait à résoudre d systèmes linéaires de taille d ∗ d. Rappelons que la ième colonne de JF ( xk )
est obtenue en résolvant JF ( xk ) x = ei où ei = (0, . . . , 0, 1, 0, . . . , 0) est le ième vecteur de la base
cannonique de R d . Il suffit en fait d’en résoudre un seul. En effet, la suite xk est aussi construite
par
h i −1
xk+1 = xk + dk avec dk = − JF ( xk ) F ( xk ) ⇔ JF ( xk )dk = − F ( xk ).

Remarque 5.3 La direction −dk solution du système linéaire JF ( xk )d = F ( xk ) peut être vue
comme une direction de descente en dehors du point x∗ . Cela suppose que l’on associe à l’équation
F ( x) = 0 une fonction coût dont les points où les minima absolus sont atteints sont exactement
les solutions de l’équation F ( x) = 0. L’idée est alors de poser C ( x) = k F ( x)k2 . De sorte que
JC ( x) = 2F ( x) JF ( x) et donc que la dérivée directionelle (voir exemple 1.7 du chapitre 1) de C en
xk est h i −1
φ′ (0) = 2F ( xk ) JF ( xk ).( JF ( xk ) F ( xk )) = −2F ( xk )k JF ( xk )k2 < 0.

Théorème 5.3 Soit x∗ solution de F ( x∗ ) = 0. Si F ∈ C 2 (R d , R d ) et JF ( x∗ ) est inversible, alors


la suite xk est bien définie et converge vers x∗ .

D ÉMONSTRATION : Ici encore, on se ramène à un problème de point fixe : soit Φ : R d →


R d définie par
h i −1
Φ( x) = x − JF ( x) F ( x)

Montrons que Φ est contractante dans un voisinage de x∗ . Puisque Φ est de classe C 1 ,


cela équivaut à montrer que
k JΦ( x∗ )k < 1
Or JF ( x)Φ( x) = JF ( x) x − F ( x) donc

HF ( x)Φ( x) + JF ( x) JΦ( x) = HF ( x) x + JF ( x) − JF ( x)
5.2. MÉTHODE DE NEWTON 39

h i −2
D’où JΦ( x∗ ) = JF ( x∗ ) HF ( x∗ ) F ( x∗ ) = 0 donc k JΦ( x∗ )k < 1. 
Comme JΦ( x∗ ) = 0, la convergence est très rapide : montrons qu’elle est quadratique,
c’est-à-dire qu’à chaque étape le nombre de décimales exactes est doublé par rapport à
l’étape précédente.

Théorème 5.4 Soit F ∈ C 1 (R d , R d ) avec JF L-Lipschizienne sur R d et x∗ ∈ R d tel que


F ( x∗ ) = 0 et JF ( x∗ ) est inversible. Alors il existe ρ > 0 tel que la suite xk définie par
h i −1
xk+1 = xk − JF ( xk ) F ( xk )

reste dans la boule B( x∗ , r) et converge vers x∗ . De plus, la convergence est quadratique : il existe
c > 0 tel que
∀k ≥ 0, k xk+1 − x∗ k ≤ ck xk − x∗ k2 .

D ÉMONSTRATION : Fixons k et exprimons xk+1 − x∗ en fonction de xk − x∗ . Puisque


F ( x∗ ) = 0, il vient
h i −1  
xk+1 − x∗ = xk − x∗ − JF ( xk ) F ( xk ) − F ( x∗ ) ,
h i −1  
= − JF ( xk ) F ( xk ) − F ( x∗ ) − JF ( xk ) ( xk − x∗ ) .

Maintenant, l’idée est d’écrire la variation F ( xk ) − F ( x∗ ) comme une intégrale le long du


segment [ x∗ , xk ]. Ceci nous donne :
Z 1
∗ ∗
k
F ( x ) − F ( x ) − JF ( xk ) ( xk − x ) = [ JF ( x∗ + t( xk − x∗ )) ( xk − x∗ ) − JF ( xk ) ( xk − x∗ )] dt
0

Nous pouvons maintenant majorer cette intégrale :


Z 1
k F ( xk ) − F ( x∗ ) − JF ( xk ) ( xk − x∗ ) k ≤ k JF ( x∗ + t( xk − x∗ )) − JF ( xk )kdt k xk − x∗ k
0

Comme la fonction JF est Lipschitzienne de rapport L, nous obtenons


Z 1 Z 1
∗ ∗ L
k JF ( x + t( xk − x )) − JF ( xk )kdt ≤ Ltk xk − x∗ kdt = k x − x ∗ k.
0 0 2 k
h i −1
Maintenant, il nous faut majorer k JF ( xk ) k. Pour cela nous utilisons la continuité du
déterminant (polynôme en les coefficients de la matrice) : comme JF ( xk ) est inversible,
la matrice JF ( x) reste inversible dans une boule B( x∗ , 2R) avec R > 0. Les formules de
h i −1
Cramer donnent alors une expression analytique des coefficients de JF ( x) qui est
donc une fonction continue sur B( x∗ , R). Notons
h i −1
M = Supx ∈ B( x ∗ ,R) k JF ( x) kL(R d ) .
40 CHAPITRE 5. ALGORITHMES POUR L’OPTIMISATION

Résumons ce que nous avons montré : si k xk − x∗ k ≤ R alors

ML k
k x k +1 − x ∗ k ≤ k x − x ∗ k2 .
2
Reste à trouver la boule stable. Par exemple, pour r = min(1/ML, R/2) nous vérifions
par récurrence que si x0 ∈ B(0, r) alors chaque terme de la suite ( xk ) est aussi dans cette
boule. 

5.3 Vers l’optimisation globale


Les méthodes décrites plus haut partagent toutes le même défaut de ne pas distinguer
les minima locaux du minimum global. Des idées différentes ont été introduites, qui per-
mettent de contourner plus ou moins cette difficulté. Les méthodes couramment utilisées
dans cette optique sont les algorithmes génétiques ou évolutionnaires.
Annexe 41

Annexe : méthode pratique


de recherche d’extrema

Soit le problème d’optimisation (P) : “Trouver les minima de f sur K”

Écrire le Lagrangien du problème


Si l’ensemble contrainte est donné par (eventuellement p = 0 et/ou q = 0)

K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}

alors
p q
L ( x, Λ, M ) = f ( x) + ∑ λi gi ( x) + ∑ µi hi ( x)
i =1 i =1

Écrire la CN d’ordre 1 et les relations de liaison et d’exclusion

p q
∇x L ( x∗ , Λ, M ) = 0 ⇐⇒ ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1

gi ( x ∗ ) = 0 ; µi hi ( x ∗ ) = 0 et µi ≥ 0
Il s’agit d’un système de n + p + q équations à n + p + q inconnues.

Vérifier les conditions de qualification des contraintes


Pour chaque solution x∗ du système précédent, on vérifie que
Les vecteurs ∇ gi ( x∗ ) sont linéairement indépendants
 
∃d ∈ R n hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0 et d T ∇ gi ( x∗ ) = 0
N.B. les points qui ne satisfont pas la condition de qualification des contraintes sont de
potentiels points de minimum.

Tester la condition suffisante d’ordre 2

∇x2 L ( x∗ , Λ) définie positive =⇒ minimum


Dans le cas sans contraintes, on sait aussi que si la hessienne n’est pas semi-définie posi-
tive, alors on n’est pas en présence d’un minimum.
42 Méthode de recherche pratique d’extrema
Bibliographie

[1] J.-M. A RNAUDI ÈS , H. F RAYSSE. Cours de mathématiques. 3. Dunod, Paris 1989.
Compléments d’analyse. [Complements of analysis].
[2] X. G OURDON. Les Maths en tête, mathématiques pour M’ : Analyse. Ellipses, Paris 1994.
[3] J.-B. H IRIART-U RRUTY. L’optimisation. Que sais-je ? PUF, Paris 1996.

43

Vous aimerez peut-être aussi