Cours Optimisation

COURS D’OPTIMISATION
Marc D AMBRINE & Grégory V IAL
21 décembre 2007
Table des matières
1 Rappels et compléments de calcul différentiel 5

1.1 Fonctions numériques d’une variable réelle . . . . . . . . . . . . . . . . . . 5
1.2 Fonctions vectorielles d’une variable réelle . . . . . . . . . . . . . . . . . . 5
1.3 Fonctions vectorielles de plusieurs variables . . . . . . . . . . . . . . . . . 6
1.3.1 Cas particulier p = 1 : gradient, hessienne . . . . . . . . . . . . . . 7
1.3.2 Différentiation à l’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Différentiation à l’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.4 Formule de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.5 Rappels d’algèbre linéaire . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Théorème de la fonction implicite . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Généralités sur les problèmes d’optimisation 13

2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Optima absolus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Optima relatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Optimisation sans contraintes – avec contraintes . . . . . . . . . . . . . . . 15
2.3 Exemples de problèmes d’optimisation . . . . . . . . . . . . . . . . . . . . 15
3 Optimisation sans contrainte 17

3.1 En dimension 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Théorèmes d’existence et d’unicité . . . . . . . . . . . . . . . . . . . 17
3.1.2 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Conditions d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 En dimension supérieure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Théorème d’existence . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 Conditions d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4 Optimisation avec contraintes 25

4.1 Condition nécessaire d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Contraintes de type égalité . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.2 Contraintes de type inégalité . . . . . . . . . . . . . . . . . . . . . . 29
4.1.3 Contraintes mixtes égalités–inégalités . . . . . . . . . . . . . . . . . 32
4.2 Condition suffisante d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3
4 TABLE DES MATI ÈRES
5 Algorithmes pour l’optimisation 35

5.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.2 Méthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.3 Algorithme du gradient à pas fixe . . . . . . . . . . . . . . . . . . . 36
5.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Vers l’optimisation globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Annexe : méthode pratique de recherche d’extrema 41

Chapitre 1
Rappels et compléments de calcul

différentiel
1.1 Fonctions numériques d’une variable réelle

Soit I un intervalle ouvert de R et f : I → R une application.
f ( x + h) − f ( x )
Définition 1.1 f est dérivable sur I ssi pour tout x ∈ I, lim existe. On note
h →0 h
alors cette limite f ′ ( x).
Définition 1.2 f est de classe C 1 sur I – on note f ∈ C 1 ( I, R ) – ssi f est dérivable sur I et
l’application x 7→ f ′ ( x) est continue sur I.
Exemple 1.1 Soit f : R → R définie par f ( x) = e2x − x2 . La fonction f est de classe C 1 sur R
car pour tout réel x, f ′ ( x) = 2e2x − 2x qui définit une fonction continue sur R.
Exemple 1.2 Soit f : R + → R définie par f ( x) = x2 sin x1 pour x > 0 et f (0) = 0. Alors f est
dérivable sur R + :
1 1
∀ x > 0, f ′ ( x) = 2x sin − sin 2 et f ′ (0) = 0
x x
Mais f n’est pas de classe C 1 sur R + car f ′ n’est pas continue en 0.
1.2 Fonctions vectorielles d’une variable réelle

Soit I un intervalle de R et f : I → R p une application. Pour tout x ∈ I, on note f ( x) =
( f1 ( x), . . . , f p ( x))T .
Définition 1.3 f est de classe C 1 sur I ssi pour tout i ∈ {1, . . . , p}, f i est de classe C 1 sur I.
On note alors, pour x ∈ R n ,
f ′ ( x) = ( f 1′ ( x), . . . , f p′ ( x))T
5
6 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL
Exemple 1.3 Soit f : R ∗+ → R2 définie par

√
∀ x ∈ R ∗+ , f ( x) = ( x − x, ex − ln x)T
f ∈ C 1 (R ∗+ ) car
1 1 T
∀ x ∈ R ∗+ , f ′ ( x) = √ − 1, ex −
2 x x
qui est continue sur R ∗+ .
1.3 Fonctions vectorielles de plusieurs variables

Soit Ω un ouvert de R n (pour simplifier, on peut considrer que Ω est un produit d’inter-
valles ouverts I1 × · · · × In ) et f : Ω → R p une application. On notera x = ( x1 , . . . , xn )T
pour x ∈ Ω.
Définition 1.4 La fonction f est différentiable en x ∈ Ω ssi l’application
t ∈ Ii 7→ f ( x1 , . . . , xi−1 , t, xi+1 , . . . , xn ) ∈ R p
∂f
est dérivable en t = xi . On note alors sa dérivée ( x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) (appelée
∂xi
dérivée partielle de f selon la ie direction).
En outre, la fonction f est dite de classe C 1 sur Ω si elle est différentiable en chaque x de Ω, et
chacune des ses dérivées partielles est continue sur Ω.
Exemple 1.4 Soit f : R2 → R2 définie par
f ( x1 , x2 ) = ( f 1 ( x1 , x2 ), f2 ( x1 , x2 ) = ( x12 − 3x23 + 2x2 − 1, e2x1 − x2 )T
Alors f est de classe C 1 sur R2 et
∂f ∂f
( x1 , x2 ) = (2x1 , 2e2x1 )T et ( x1 , x2 ) = (−9x22 + 2, −1)T
∂x1 ∂x2
Définition 1.5 Soit f ∈ C 1 (Ω, R p ). On appelle matrice jacobienne de f en x la matrice J f ( x)

de taille p × n, telle que
∂ fi
[ J f ( x)]ij = ( x) (1 ≤ i ≤ p, 1 ≤ j ≤ n)
∂x j
Remarque 1.1 On appelle aussi cette matrice la différentielle de f en x – on note alors d f ( x) ou

f ′ ( x). Il s’agit en fait de la définition intrinsecque de la différentiabilité : la dérivée est le terme
de degré un dans le développement de Taylor de f autour de x. La fonction f est différentiable en
x ∈ Ω ssi il existe une application linéaire G de R n dans R p telle que
f ( x + h) = f ( x) + G.h + O(khk2 ).
Cette application G est appelée différentielle de f en x.

1.3. FONCTIONS VECTORIELLES DE PLUSIEURS VARIABLES 7
Exemple 1.5 On reprend la fonction de l’exemple précédent. La matrice jacobienne est donnée
par :
2x1 −9x22 + 2
J f ( x) =
2e2x1 −1
Exemple 1.6 Soit f : R3 → R2 l’application définie par
f ( x1 , x2 , x3 ) = (ex1 − x3 , x2 + sin x3 )T
Alors f ∈ C 1 (R3 , R2 ) et
e x1 0 −1
J f ( x) =
0 1 cos x3
On rappelle aussi le résultat de dérivation composée :
Théorème 1.1 Soit f : R n → R p et g : R p → R q de classe C 1 . Alors g ◦ f : R n → R q est de

classe C 1 et
J [ g ◦ f ]( x) = Jg( f ( x)) · J f ( x)
Exemple 1.7 (dérivée directionelle) Soit f ∈ C 1 (R n , R p ) et x, d ∈ R n . On définit la restric-

tion ϕ : R → R p de la fonction φ à la droite passant par x et de vecteur directeur d par
∀t ∈ R, ϕ(t) = f ( x + td)
Alors ϕ ∈ C 1 (R, R p ) et
ϕ= f ◦g avec g : t ∈ R 7→ x + td ∈ R n
Donc la formule de dérivation composée s’écrit :
∀t ∈ R, ϕ′ (t) = J f ( x + td) · Jg(t) = J f ( x + td) · d ∈ M p1 (R )

| {z } | {z }
p×n n ×1
1.3.1 Cas particulier p = 1 : gradient, hessienne

Dans toute la suite, on considère f : Ω → R une application.
1.3.2 Différentiation à l’ordre 1

Définition 1.6 Si f ∈ C 1 (Ω, R ), alors on appelle gradient de f en x le vecteur de R n
 
∂f
( x)
 ∂x1 

∇ f ( x) =  .
..


 
 ∂f 
( x)
∂xn
Remarquons que f ( x) est un nombre alors que ∇ f ( x) est un vecteur.

Remarque 1.2 Le gradient d’une application f : R n → R est obtenu par transposition de la

jacobienne de f qui est une matrice à une ligne et n colonnes. C’est une forme linéaire et cette
identification entre forme linéaire et vecteur au travers de la transposition est réalisée grâce au
théorème de représentation.
Remarque 1.3 Le vecteur gradient a un sens géométrique précis. Regardons dans R n+1 la sur-
face d’équation y = f ( x) autour du point ( x, f ( x)). Le gradient de f en x indique la direction
d dans laquelle la quantité f augmente le plus : on dit que le gradient pointe dans la direction de
plus grande pente. En effet, la pente de la surface dans la direction d en x est donnée par
d
f ( x + t.d) = ∇ f ( x).d
dt |t=0
par la formule obtenue dans l’exemple 1.7. L’inégalité de Cauchy-Schwarz indique alors que
d
−k∇ f ( x)kkdk ≤ f ( x + t.d) ≤ k∇ f ( x)kkdk.
dt |t=0
L’égalité n’a lieu que si d et ∇ f ( x) sont colinéaires.
Exemple 1.8 Soit f : R3 → R définie par f ( x) = k xk2 . Si on écrit x = ( x1 , x2 , x3 )T , alors
f ( x) = x12 + x22 + x32
Alors le gradient est donné par ∇ f ( x) = (2x1 , 2x2 , 2x3 )T = 2x.
Exemple 1.9 Soit f : Ω = (0, +∞) × R → R définie par
f ( x1 , x2 ) = ex1 + x2 ln x1 + cos x2
Alors f ∈ C 1 (Ω, R ) et
T
x1 x2
∇ f ( x) = e + , ln x1 − sin x2
x1
Exemple 1.10 Soit A ∈ Mn (R ) une matrice symétrique et b ∈ R n . Pour x ∈ R n , on pose
f ( x) = xTAx − bTx
Alors f ∈ C 1 (R n , R ) et
∀ x ∈ R n , ∇ f ( x) = 2Ax − b
n n n
En effet f ( x) = ∑ ∑ aij xj xi − ∑ bi xi d’où
i =1 j =1 i =1
n n
∂f
∂xk
( x) = ∑ akj xj + ∑ aik xi − bk
j =1 i =1
= ( Ax)k + ( ATx)k − bk
d’où le résultat puisque A est symétrique. Ce résultat peut également se retrouver à partir de la
définition intrinsèque de la différentielle. Pour un vecteur h ∈ R n , calculons f ( x + h) :
f ( x + h) = ( x + h)TA( x + h) − bT( x + h) = xTAx + hTAx + xTAh − bTx − bTh.
Comme la matrice A est symétrique, xTAh = hTAx et donc
f ( x + h) = xTAx − bTx + hT(2Ax − b) + hTAh = f ( x) + hT(2Ax − b) + hTAh.
On conclut en identifiant le coefficient d’ordre 1.
1.3. FONCTIONS VECTORIELLES DE PLUSIEURS VARIABLES 9
1.3.3 Différentiation à l’ordre 2

Définition 1.7 f est de classe C 2 sur Ω ssi f ∈ C 1 (Ω, R ) et ∇ f ∈ C 1 (Ω, R n ).
On note alors H f ou ∇2 f la matrice jacobienne de ∇ f ; elle est appelée hessienne de f .
Cette matrice carrée de taille n est donnée par
∂ ∂f ∂2 f
[ H f ( x)]ij = ( x) = ( x)
∂x j ∂xi ∂x j ∂xi
Exemple 1.11 On reprend l’exemple 1.8. Alors f ∈ C 2 (R3 , R ) et la hessienne est donnée par
 
2 0 0
H f ( x) =  0 2 0 
0 0 2
Exemple 1.12 La fonction de l’exemple 1.9 est de classe C 2 sur Ω = (0, +∞[×R et
 
x2
x1 1
 e − x2 x1 
H f ( x) =  1 
 1 
− cos x2
x1
On remarque que les deux matrices hessiennes calculées dans les exemples précédents
sont des matrices symétriques. C’est en fait vrai en général :
Théorème 1.2 (Schwartz) Soit f ∈ C 2 (Ω, R ), alors
∂2 f ∂2 f
( x) = ( x)
∂xi ∂x j ∂x j ∂xi
Exemple 1.13 On revient sur l’exemple (1.7) : la dérivée seconde de l’application ϕ est donnée
par
ϕ′′ (t) = dT ∇2 f ( x + td)d.
1.3.4 Formule de Taylor

On rappelle enfin la formule de Taylor à l’ordre 2 pour une fonction deux fois différen-
tiable de R n dans R :
Théorème 1.3 Soit f ∈ C 2 (Ω, R ), alors pour tout x ∈ Ω et h suffisamment petit,
1
f ( x + h) = f ( x) + ∇ f ( x) · h + hT ∇2 f ( x)h + O(khk2 ).
2
Remarque 1.4 La formule de Taylor permet de disposer d’un modèle polynomial de degré 2 pour
la fonction f . Il n’a de sens que localement autour du point x. Son intérêt est de permettre des
calculs explicites que ne permet pas la fonction f en général.
1.3.5 Rappels d’algèbre linéaire

Soit x, y ∈ R n , on rappelle que xT y = yT x est le produit scalaire des vecteurs x et y : c’est
le nombre x1 y1 + · · · + xn yn . Il est majoré par l’inégalité de Cauchy-Schwarz
| xT y| ≤ k xkkyk.
Cette inégalité devient une égalité si et seulement si les vecteurs x et y sont colinéaires.
La norme k xk désigne la norme euclidienne sur R n définie par k xk2 = xT x. Si d est
un vecteur non nul, alors { x ∈ R n , xT d = 0}est l’hyperplan orthogonal à d tandis que
{ x ∈ R n , xT d > 0} est le demi-espace de frontière l’hyperplan précedent vers lequel d
pointe.
Si A est une matrice carrée, on vérifie que xT ( Ay) = ( AT x)T y. Soit A ∈ Mn (R ) une
matrice symétrique, on a alors xT Ay = yT Ax. On rappelle qu’une matrice symétrique à
coefficients réels est diagonalisable (en base orthonormale).
Définition 1.8 A est semi-définie positive ssi pour tout vecteur x ∈ R n , xTAx ≥ 0.
A est définie positive ssi A est semi-définie positive et xTAx = 0 ⇒ x = 0.
Exemple 1.14 Soit

2 −1
A=
−1 2
Pour x ∈ R2 ,

2 −1 x1
T
x Ax = ( x1 , x2 ) = 2x12 − 2x1 x2 + 2x22 = ( x1 − x2 )2 + x12 + x22
−1 2 x2
ce qui prouve que A est définie positive.
Dire qu’une matrice est définie positive n’a pas de rapport avec le fait que ses coeffi-
cients soient positifs ou pas. Voici une caractérisation utile de la définition 1.8 à partir des
valeurs propres de la matrice A.
Proposition 1.4 A est semi-définie positive ssi toutes les valeurs propres de A sont positives ou
nulles.
A est définie positive ssi toutes les valeurs propres de A sont strictement positives.
Exemple 1.15 On reprend la matrice de l’exemple 1.14. Pour rechercher ses valeurs propres, on
calcule le polynôme caractéristique et on le factorise :
χ A ( X ) = det( X I − A) = ( X − 2)2 − 1 = ( X − 1)( X − 3)
Les deux valeurs propres sont donc 1 et 3 : elles sont strictement positives, donc A est définie
positive en vertu du résultat 1.4.
1.4. THÉORÈME DE LA FONCTION IMPLICITE 11
1.4 Théorème de la fonction implicite

Soit Ω1 ⊂ R n et Ω2 ⊂ R p deux ouverts. On considère une application f : Ω1 × Ω2 → R p .
Notations : On désignera par ( x, y) les éléments de Ω1 × Ω2 . La matrice p × p

∂ fi
( x, y) , 1 ≤ i ≤ p et 1 ≤ j ≤ p
∂y j
est appelée jacobienne (ou différentielle) partielle par rapport à y et est notée ∂y f ( x, y).
On peut aussi définir de même la jacobienne partielle par rapport à x.
Dans le cas particulier d’une fonction numérique (p = 1), on parle de gradient partiel par
rapport à y et on note
T
∂f ∂f
∇y f ( x, y) = ( x, y), · · · , ( x, y)
∂y1 ∂yn
On rappelle maintenant un résultat essentiel du calcul différentiel :
Théorème 1.5 (fonction implicite) On suppose que f ∈ C 1 (Ω1 × Ω2 , R p ). On suppose que
( a, b) ∈ Ω1 × Ω2 est tel que
f ( a, b) = 0 et ∂y f ( a, b) est inversible.
Alors il existe des voisinages V ⊂ Ω1 de a et W ⊂ Ω2 de b tels que pour tout x ∈ V, l’équation

(en y)
f ( x, y) = 0
admette une et une seule solution y = ϕ( x) dans W (en particulier ϕ( a) = b). De plus la fonction
ϕ est de classe C 1 (V, R p ) et
−1
∀ x ∈ V, ϕ′ ( x) = − ∂y f ( x, ϕ( x)) ∂ x f ( x, ϕ( x))
D ÉMONSTRATION : admise.
On peut remplacer l’expression “voisinage de” par “boule centrée en” dans l’énoncé
précédent.
Exemple 1.16 Soit f : R2 → R définie par
f ( x, y) = x + y2
On calcule les différentielles partielles :

∂f ∂f
∂x f ( x, y) = ( x, y) = 1 et ∂y f ( x, y) = ( x, y) = 2y
∂x ∂y
Considérons les deux cas suivants :
• f (−1, 1) = 0 et ∂y f (−1, 1) = 2 6= 0. On peut donc appliquer le théorème 1.5 : il existe α > 0
et une fonction ϕ : ( a − α, a + α) → R tels que
1
∀ x ∈ ( a − α, a + α), f ( x, ϕ( x)) = 0 et ϕ′ ( x) =
2ϕ( x)
• f (0, 0) = 0 et ∂y f (0, 0) = 0. Donc le théorème

√ 1.5 ne s’applique pas.
On pourra vérifier que la fonction ϕ( x) = x convient dans le premier cas. Elle est candidate
pour le deuxième, mais elle ne convient pas car n’est pas définie sur un voisinage de 0.
Remarque 1.5 Le théorème de la fonction implicite permet de donner une nouvelle interprétation
du vecteur gradient ∇ f ( x). Plaçons nous dans R n autour de x et supposons ∇ f ( x) 6= 0. L’en-
semble S isovaleur de f passant par x c’est-à-dire S = {y ∈ R n , f (y) = f ( x)} est une sur-
face autour de x dont le vecteur normal est ∇ f ( x). De plus, le gradient pointe vers la partie
{y ∈ R n , f (y) > f ( x)} du complémentaire de S.
Chapitre 2
Généralités sur les problèmes

d’optimisation
Dans toute la suite, on considère f : A ⊂ R n → R où A est un sous-ensemble de R n .
2.1 Définitions
2.1.1 Optima absolus
Définition 2.1 Si x∗ ∈ A est tel que
∀ x ∈ A, f ( x∗ ) ≤ f ( x)
alors on dit que f admet un minimum (absolu) sur A en x∗ . On note
f ( x∗ ) = min f ( x) et x∗ = argmin f ( x)
x∈ A x∈ A
Attention au vocabulaire : f ( x∗ ) est le minimum de f sur A ; f admet un minimum en x∗

et x∗ réalise le minimum de f sur A.
Remarque 2.1 Le minimum d’une fonction, s’il existe, est unique. Il peut cependant être atteint
en plusieurs points différents (voir l’exemple 2.3). En effet, le minimum s’il existe est nécessairement
la borne inférieure m de l’ensemble des valeurs prises par la fonction f sur l’ensemble A. Il existe
donc toujours une suite ( xn ) de points de A telle que la suite ( f ( xn )) converge vers m. Une telle
suite ( xn ) est dite suite minimisante. Le question de l’existence d’un minimum pour f revient
alors à savoir si la suite ( xn ) converge avec une limite dans A de sorte que la borne inférieure de
l’ensemble des valeurs prises par f sur A soit atteinte.
Exemple 2.1 La fonction f : [0, 1] → R définie par
∀ x ∈ R, f ( x) = x2 + 1
admet un minimum absolu sur R :
min f ( x) = f (0) = 1 et 0 = argmin f ( x)

x ∈R x ∈R
13
14 CHAPITRE 2. GÉNÉRALITÉS SUR LES PROBLÈMES D’OPTIMISATION
Exemple 2.2 La fonction ln : (0, 1) → R n’admet pas de minimum (car ln x → −∞ quand

x → 0).
Exemple 2.3 Soit f : R → R la fonction définie par
∀ x ∈ R, f ( x) = x4 − 2x2 + 1
Alors f admet 0 pour minimum absolu sur R. Il est atteint en deux valeurs de x différentes : 1 et
−1. En effet
∀ x ∈ R, f ( x) = ( x2 − 1)2
Exemple 2.4 Soit f : B → R donnée par f ( x, y) = 2 − x2 − y2 . B est la boule unité euclidienne

fermée de R2 :
B = {( x, y) ∈ R2 | x2 + y2 ≤ 1}
Alors f admet un minimum en tout point de la sphère unité ; ce minimum vaut 1.
Définition 2.2 Si x∗ ∈ A est tel que
∀ x ∈ A, f ( x∗ ) ≥ f ( x)
alors on dit que f admet un maximum (absolu) sur A en x∗ . On note
f ( x∗ ) = max f ( x) et x∗ = argmax f ( x)
x∈ A x∈ A
Définition 2.3 Si f admet en x∗ un minimum ou un maximum, on dit qu’elle admet un opti-

mum en x∗ .
Remarque 2.2 Si f admet un minimum en x∗ , alors − f admet un maximum en x∗ . C’est pour-

quoi, dans la suite, on ne parlera plus que de minimum, les énoncés concernant les maxima pour-
ront étre déduits facilement.
2.1.2 Optima relatifs

Définition 2.4 On dit que f admet un minimum relatif (ou local) sur A en x∗ ssi il existe un
voisinage V de x∗ dans A tel que f admette un minimum absolu sur V en x∗ .
(on peut ici encore remplacer l’expression “voisinage de” par “petite boule centrée en”).
Exemple 2.5 Soit f : R → R la fonction définie par
∀ x ∈ R, f ( x) = x3 − 3x + 1
Alors f admet en 1 un minimum relatif sur R, mais pas un minimum absolu car f ( x) tend vers
−∞ quand x → −∞.
2.2. OPTIMISATION SANS CONTRAINTES – AVEC CONTRAINTES 15
2.2 Optimisation sans contraintes – avec contraintes

Définition 2.5 On appelle problème de minimisation :
“ Trouver x∗ ∈ Ω tel que f ( x∗ ) = min f ( x). ”
x∈ A
Remarque 2.3 Un problème de minimisation n’admet pas nécessairement de solution :

1
x∗ = argmin n’admet pas de solution.
x ∈[1,+ ∞ ) x
De plus s’il admet une solution, elle peut ne pas être unique :
x∗ = argmin cos x admet π et 3π pour solutions.
x ∈[0,4π ]
Vocabulaire : Si A = R n , on parle d’optimisation sans contraintes (ou libre), sinon il s’agit

d’optimisation sous contrainte (ou liée).
A = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0} contraintes d’égalités
A = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0} contraintes d’inégalités
On peut aussi mélanger les deux types de contraintes :
A = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
On parle alors de contraintes égalités–inégalités. C’est le seul type d’optimisation liée que
nous étudierons.
Définition 2.6 On considère un problème d’optimisation avec contraintes de type inégalité et x∗

une solution de ce problème :
x∗ = argmin f ( x) ( A = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0})
x∈ A
Si hi( x∗ )
= 0, on dit que la contrainte hi ( x) ≤ 0 est serrée en x∗ (ou saturée, ou encore active).
Dans le cas contraire (hi ( x∗ ) < 0), on dit que la contrainte ne joue pas (ou est inactive).
2.3 Exemples de problèmes d’optimisation

Exemple 2.6 Une entreprise produit un bien C à partir des matières premières A et B. Elle achète
A au prix p1 et B au prix p2 . On note f la fonction qui, à la quantité de matières premières, associe
la quantité de bien produit (fonction de production). Le prix de vente de C est p.
Quelles quantités de matières premières A et B l’entreprise doit-elle acheter pour que son profit
soit maximum ?
Mathématiquement, ce problème s’écrit :

h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2
x1 ,x2 ∈R +
Il s’agit d’un problème d’optimisation avec contraintes d’inégalités (x1 ≥ 0 et x2 ≥ 0).

16 CHAPITRE 2. GÉNÉRALITÉS SUR LES PROBLÈMES D’OPTIMISATION
Exemple 2.7 On reprend l’exemple précédent, mais on suppose que le budget pour l’achat de
matières premières est fixé à S.
Le problème devient :
h i h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2 = argmax p f ( x1 , x2 ) − S
x1 , x2 ∈ R + x1 , x2 ∈ R +
p1 x1 + p2 x2 = S p1 x1 + p2 x2 = S
On est ici en présence d’un problème d’optimisation avec contraintes de type égalités–
inégalités.
Exemple 2.8 Dans l’exemple précédent, on suppose que le budget d’achat peut ne pas être totale-
ment dépensé.
Le problème d’optimisation devient

h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2
x1 , x2 ∈ R +
p1 x1 + p2 x2 ≤ S
Les contraintes sont toutes de type inégalité.
Remarque 2.4 Comme le montrent les trois exemples précédents, les problèmes provenant de
situations concrètes sont souvent des problèmes avec contraintes.
Dans le dernier exemple, la contrainte
p1 x2 + p2 x2 ≤ S
sera active. On le montrera mathématiquement, mais le contexte économique permet

de le pressentir : le profit sera d’autant plus grand qu’il y aura d’avantage de matières
premières.
Chapitre 3
Optimisation sans contrainte
On considère f : R n → R et le problème de minimisation suivant :
(P) x∗ = argmin f ( x)
x ∈R n
3.1 En dimension 1
On suppose ici n = 1.
3.1.1 Théorèmes d’existence et d’unicité

Théorème 3.1 (i) Si lim f ( x) = +∞ et f est continue sur R, alors le problème (P) admet
| x |→+ ∞
au moins une solution.
(ii) Si, de plus, f est strictement convexe, il y a unicité.
D ÉMONSTRATION : (i) Soit a = f (0). Comme lim f ( x) = +∞, il existe R > 0 tel que
| x |→+ ∞
| x| > R =⇒ f ( x) > f (0)

On en déduit
min f ( x) = min f ( x)
x ∈R | x |≤ R
Or f est continue sur I = [− R, R] et l’image d’un intervalle fermé borné par une applica-
tion continue est un intervalle fermé borné :
f ( I ) = [m, M ] avec f ( x∗ ) = m
ce qui prouve que
m = min f ( x)
| x |≤ R
d’où le résultat.
(ii) Notons x1∗ et x2∗ deux solutions et x∗ = ( x1∗ + x2∗ )/2. Alors, par stricte convexité,
1h i
f ( x∗ ) < f ( x1∗ ) + f ( x2∗ ) = f ( x1∗ ),
2
ce qui est une contradiction.
17
18 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
Exemple 3.1 Soit f ( x) = x6 − 3x2 − x + 1. Alors f ( x) → +∞ quand x → ±∞. Donc f

admet un minimum absolu sur R.
3.1.2 Condition nécessaire d’ordre 1

Théorème 3.2 Si f ∈ C 1 (R, R ) et admet en x∗ un minimum relatif, alors
f ′ ( x) = 0
D ÉMONSTRATION : Par définition de la dérivée :

f ( x ∗ + h) − f ( x ∗ )
f ′ ( x∗ ) = lim
h →0 h
Or (
f ( x ∗ + h) − f ( x ∗ ) ≥0 si h ≥ 0
h ≤0 si h ≤ 0
Par passage à la limite, f ′ ( x∗ ) ≥ 0 et f ′ ( x∗ ) ≤ 0 d’où f ′ ( x∗ ) = 0.
Définition 3.1 Un point ξ vérifiant f ′ (ξ ) = 0 est appelé point critique de f .
Exemple 3.2 Soit f : R → R définie par
∀ x ∈ R, f ( x) = x3 − 3x − 1
Les points candidats à être minimum de f vérifient
f ′ ( x) = 3x2 − 3 = 3( x2 − 1) = 0 =⇒ x = ±1
Une étude de la fonction f permet de voir que f possède en −1 un maximum relatif et en 1 un

minimum relatif.
L’exemple précédent montre que la condition du théorème 3.2 n’est pas suffisante : elle
ne permet pas de faire la différence entre maximum et minimum, elle ne distingue pas un
optimum relatif d’un optimum absolu (c’est une condition locale). La situation est pire
encore : les points critiques peuvent même ne pas être optimum relatif de f :
Exemple 3.3 On considère la fonction x 7→ x3 . Les points critiques sont les solutions de 3x2 = 0,
donc il n’y en a qu’un : 0, qui ne correspond ni à un minimum relatif, ni à un maximum relatif de
la fonction cube.
3.1.3 Conditions d’ordre 2

On peut préciser le résultat vu au paragraphe précédent :
Théorème 3.3 Soit f ∈ C 2 (R, R ). Si f admet un minimum relatif en x∗ , alors
f ′ ( x∗ ) = 0 et f ′′ ( x∗ ) ≥ 0
3.1. EN DIMENSION 1 19
D ÉMONSTRATION : On sait déjà que f ′ ( x∗ ) = 0. D’après la formule de Taylor, on peut

écrire :
1
f ( x) = f ( x∗ ) + ( x − x∗ )2 f ′′ ( x∗ ) + o(| x − x∗ |2 )
2
D’où
f ( x) − f ( x∗ )
∀ x 6= x∗ , f ′′ ( x∗ ) = 2 + o ( 1)
( x − x ∗ )2
Or
f ( x) − f ( x∗ )
∀ x 6= x∗ , ≥0
( x − x ∗ )2
Le résultat s’en déduit par passage à la limite x → x∗ .
On verra dans les exemples suivants que la réciproque de ce théorème est fausse. On peut
cependant donner une condition suffisante de minimum local :
Théorème 3.4 Si f ∈ C 2 (R, R ). Si f vérifie
f ′ ( x∗ ) = 0 et f ′′ ( x∗ ) > 0
alors f admet un minimum relatif en x∗ .
D ÉMONSTRATION : Ici encore, on écrit la formule de Taylor
f ( x) − f ( x∗ )
f ′′ ( x∗ ) = 2 + ε( x ) avec lim∗ ε( x) = 0
( x − x ∗ )2 x→x
Il existe η > 0 tel que

| x − x∗ | ≤ η =⇒ |ε( x)| ≤ f ′′ ( x∗ )
On en déduit que
f ( x) − f ( x∗ )
∀ x 6= x∗ , ≥ 0 =⇒ f ( x∗ ) ≤ f ( x)
( x − x ∗ )2
pour | x − x∗ | ≤ η, ce qui prouve que f admet en x∗ un minimum relatif.
Remarque 3.1 En appliquant ces deux théorèmes pour − f on obtient des résultats similaires
pour un maximum relatif : les conditions d’ordre 2 deviennent f ′′ ( x∗ ) ≤ 0 et f ′′ ( x∗ ) < 0.
Exemple 3.4 On reprend les exemples du paragraphe précédent.

• Pour f ( x) = x3 − 3x − 1, on a
f ′′ (−1) = −6 et f ′′ (1) = 6
ce qui prouve que f admet un maximum relatif en −1 et un minimum relatif en 1.
• Pour f ( x) = x3 , on a f ′′ (0) = 0 donc on ne peut pas conclure à l’aide du théorème 3.4.
• Pour f ( x) = x4 , on vérifie que f (0) = 0 est bien un minimum absolu de f mais que f ′′ (0) = 0
n’est pas strictement positif. La condition donnée par le théorème 3.4 n’est pas nécessaire.
Remarque 3.2 Les théorèmes précédents ne permettent pas de détecter un minimum absolu. En
effet, ils sont basés sur les valeurs prises par les dérivées de la fonction en certains points : ils ne
peuvent donc contenir que de l’information locale autour de ce point. Il faut par exemple faire une
hypothèse de convexité (de nature globale : la dérivée est positive en tout point x et pas seulement
au point qui réalise le minimum) pour obtenir un énoncé concluant à un minimum absolu.
3.2 En dimension supérieure

3.2.1 Théorème d’existence
On peut énoncer le même résultat qu’en dimension 1 :
Théorème 3.5 Si lim f ( x) = +∞ et f est continue sur R n , alors le problème (P) admet au
k x k→+ ∞
moins une solution. Il y a unicité si on ajoute une hypothse de stricte convexité.
D ÉMONSTRATION : La preuve est la même qu’en dimension 1, elle repose sur le fait que
l’image d’un compact par une application continue est un compact.
Remarque 3.3 L’énoncé précédent fait intervenir la norme de x, mais de laquelle s’agit-il ? En
fait, peut importe car elles sont toutes équivalentes ( R n est de dimension finie n).

2
∀( x, y) ∈ R2 , f ( x, y) = ex − x + y4
Alors f est continue et vérifie

lim f ( x, y) = +∞
k( x,y)k→+ ∞
En effet,
2
f ( x, y) = [ex − x] + [y4 ] = h( x) + g(y) avec lim h = lim g = +∞
±∞ ±∞
3.2.2 Condition nécessaire d’ordre 1

Théorème 3.6 Si f ∈ C 1 (R n , R ) et admet en x∗ un minimum relatif, alors
∇ f ( x∗ ) = 0 = 0R n
Cette égalité est appelée équation d’Euler.
D ÉMONSTRATION : Soit d ∈ R n . On définit ϕ : R → R par
∀t ∈ R, ϕ(t) = f ( x∗ + td)
Par la formule de dérivation composée, ϕ est de classe C 1 sur R et
∀t ∈ R, ϕ′ (t) = ∇ f ( x∗ + td)T d
Comme x∗ est un minimum relatif de f , 0 est un minimum relatif de ϕ. On en déduit :
ϕ′ (0) = 0 =⇒ ∇ f ( x∗ )T d = 0
Comme d est quelconque, on peut prendre d = ∇ f ( x∗ ), d’où le résultat.
Définition 3.2 Une solution x de l’équation d’Euler ∇ f ( x) = 0 est appelé point critique de la
fonction f .
3.2. EN DIMENSION SUPÉRIEURE 21
Remarque 3.4 En un point critique, une fonction peut atteindre un extremum (soit minimum
soit maximum) ou non. En effet, la seule information traduite par l’équation d’Euler est que la
surface y = ( f x) a un plan tangent horizontal en x∗ . L’exemple de la fonction réelle f ( x) = x3
montre bien que cela n’implique pas que la fonction f y atteigne une valeur extrémale.
f ( x, y) = x2 + y2
Les points candidats à réaliser un minimum de f vérifient
∇ f ( x, y) = 2x = 0 =⇒ x = 0 et y = 0.
Donc seul f (0R2 ) est un possible minimum.
f ( x, y) = x3 + y3
Les points candidats à réaliser un minimum de f vérifient
∇ f ( x, y) = (3x2 , 3y2 ) = (0, 0) =⇒ x = 0 et y = 0.
Donc seul f (0R2 ) est un possible minimum. Mais comme f (0, y) = y3 < 0 = f (0R2 ) pour
2
y < 0, la fonction f n’a pas de minimum en 0R donc sur R2 .
Remarque 3.5 Soit x∗ un point critique pour une fonction f de classe C 2 (R n , R ). La formule
de Taylor en x∗ se simplifie en
1
f ( x∗ + h) = f ( x∗ ) + hT ∇2 f ( x∗ )h + ø(khk2 ).
2
Cela signifie que, à des termes d’erreurs négligeables devant khk2 près, la fonction f ressemble au
polynôme de dégré deux
1
P(h) = f ( x∗ ) + hT ∇2 f ( x∗ )h.
2
Si nous décomposons le vecteur h = (h1 , . . . , hn ) dans une base diagonale pour la matrice
∇2 f ( x∗ ) dont les n valeurs propres sont notées λi , nous obtenons que
1 n
P ( h) = f ( x ∗ ) + λi h2i .
2 i∑
=1
Le signe de P(h) − f ( x∗ ) qui est positif si la fonction f a un minimum en x∗ est donc relié au
signe des valeurs propres λi de la matrice ∇2 f ( x∗ ).
3.2.3 Conditions d’ordre 2

Le théorème 3.3 devient
Théorème 3.7 Soit f ∈ C 2 (R n , R ). Si f admet un minimum relatif en x∗ , alors

∇ f ( x∗ ) = 0 et ∇2 f ( x∗ ) est semi-définie positive.
D ÉMONSTRATION : Soit ϕ définie comme dans la démonstration précédente. Alors
∀t ∈ R, ϕ′′ (t) = d T ∇2 f ( x∗ + td)d

Par application du théorème 3.3, d T ∇2 f ( x∗ )d ≥ 0. Comme d est quelconque, on en déduit
le résultat.
De la même façon, voici le résultat correspondant au théorème 3.4
Théorème 3.8 Si f ∈ C 2 (R n , R ). Si f vérifie

∇ f ( x∗ ) = 0 et ∇2 f ( x∗ ) est définie positive.
alors f admet un minimum relatif en x∗ .
D ÉMONSTRATION : Comme en dimension 1, elle repose sur la formule de Taylor à l’ordre

deux. Donnons nous x 6= x∗ dans un voisinage de x∗ et passons en coordonnées adaptées
autour de x∗ . Posons ρ = k x − x∗ k > 0 et d = ( x − x∗ )/ρ de sorte que x = x∗ + ρd et
écrivons la formule de Taylor en x∗
1
∀ x ∈ R n , f ( x) = f ( x∗ ) + ( x − x∗ )T ∇2 f ( x∗ )( x − x∗ ) + o(k x − x∗ k2 ).
2
En passant en ρ, d, on en déduit

f ( x) − f ( x∗ ) = ρ2 dT ∇2 f ( x∗ )d + ψ(ρ) .
avec ψ(ρ) → 0 quand ρ → 0. Par hypothèse, d T ∇2 f ( x∗ )d > 0 pour tout d. Ici, d est de
norme 1 et, comme la dimension n est finie, la boule unité de R n est compacte : il existe
un réel α tel que d T ∇2 f ( x∗ )d ≤ α > 0. On peut choisir pour α la plus petite des valeurs
propres de la hessienne ∇2 f ( x∗ ). Comme ψ(ρ) → 0, il existe ρ0 > 0 tel que
ρ < ρ0 =⇒ |ψ(ρ)| ≤ α,
Alors, pour x dans la boule de centre x∗ et de rayon ρ0 ,

f ( x) − f ( x∗ ) = f ( x∗ + εd) − f ( x∗ ) ≥ 0
d’où les valeurs prises par f dans une boule autour de x∗ sont donc supérieures à f ( x∗ ).
Exemple 3.8 On reprend l’exemple précédent. La hessienne est constante :
∀ x ∈ R2 , ∇2 f ( x) = 2I2
Donc ∇2 f (0) est définie positive, on peut donc conclure que f admet un minimum en 0 (ce qu’il
est facile de voir par ailleurs).
3.2. EN DIMENSION SUPÉRIEURE 23
∀( x, y) ∈ R2 , f ( x, y) = x2 + y2 − xy
Les points critiques de f sont les solutions de ∇ f ( x, y) = 0. Or
∇ f ( x, y) = (2x − y, 2y − x)T
D’où x = y = 0. L’étude de la hessienne permet de conclure :

2 2 −1
∇ f ( x, y) =
−1 2
qui est une matrice définie positive. Donc f admet un minimum relatif en (0, 0).
Remarque 3.6 Comme en dimension 1, on ne peut pas conclure dans le cas où la hessienne est
seulement semi-définie positive. Prenons ainsi f ( x, y) = x2 + y3 . Les points critiques de f sont
solutions de ∇ f ( x, y) = (2x, 3y2 ) = (0, 0), il existe donc un unique point critique qui est (0, 0)
la hessienne est alors
2 2 0
∇ f (0, 0) =
0 0
qui est semi-définie positive. Ici, f n’admet pas de minimum en (0, 0) : en effet, on constate que
f (0, y) = y3 < 0 = f (0, 0) dès que y < 0.
Chapitre 4
Optimisation avec contraintes
Dans ce chapitre, on considère f : Ω → R p où Ω est un ouvert.

Le problème qui nous intéresse est le suivant :
(Q) x∗ = argmin f ( x)
x ∈K
avec K ⊂ Ω. L’ensemble K désigne l’ensemble des paramètres admissibles c’est-à-dire

l’ensemble des états qui satisfont aux contraintes alors que Ω est l’ensemble de définition
du coût f .
La première remarque est la suivante : si x∗ solution du problème (Q) est dans l’intérieur
de K, tous les états voisins de x∗ satisfont la contrainte : cette dernière est automatiquent
vérifée autour de x∗ , elle n’intervient pas.
Théorème 4.1 Soit x∗ solution du problème (Q). Si x∗ est à l’intérieur du domaine K, alors
∇ f ( x∗ ) = 0.
D ÉMONSTRATION : La preuve est la même qu’en l’absence de contraintes, car on peut

faire des petites variations dans toutes les directions autour de x∗ .
Par contre, comme le montre l’exemple suivant, la condition d’annulation du gradient

n’est pas nécessaire en présence de contraintes :
Exemple 4.1 Soit le problème suivant :
x∗ = argmin( x2 + x + 1)
x ∈[0,1]
Il est facile de voir que x∗ = 0 en est l’unique solution. Cependant la dérivée en 0 vaut 1 6= 0.
Le problème provient du fait que le minimum est atteint au bord du domaine. Le but de
ce chapitre est de trouver l’équivalent des conditions d’Euler dans le cas de l’optimisation
avec contraintes. On se restreint aux contraintes de type égalité–inégalité.
25
26 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES
4.1 Condition nécessaire d’ordre 1

4.1.1 Contraintes de type égalité
Dans ce paragraphe, on suppose que l’ensemble des contraintes K est donné par
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0}
Pour chaque i, gi désigne une fonction de x qui traduit une contrainte. Ici, on suppose que
le nombre de contraintes est exactement p. On notera g( x) le vecteur ( g1 ( x), . . . , g p ( x))T ∈
R p.
Définition 4.1 On appelle Lagrangien du problème de minimisation (Q) l’application L de

Ω × R p valeurs dans R définie par
∀( x, Λ) ∈ Ω × R p , L ( x, Λ) = f ( x) + ΛT g( x)
Ou encore
p
∀ x ∈ Ω ∀λ1 , . . . , λ p ∈ R, L ( x, λ1 , . . . , λ p ) = f ( x) + ∑ λi gi ( x)
i =1
Théorème 4.2 (extrema liés) Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 ,
. . . , g p sont de classe C 1 et que les vecteurs
∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) ∈ R n
sont linéairement indépendants. Alors
∃Λ ∈ R p , ∇x L ( x∗ , Λ) = 0
c’est-à-dire qu’il existe des réels λ1 , . . . , λ p tels que

p
∇ f ( x ∗ ) + ∑ λ i ∇ gi ( x ∗ ) = 0
i =1
Cette équation est appelée équation d’Euler-Lagrange.
D ÉMONSTRATION : Soit A la matrice

h iT
A = ∇ g1 ( x∗ ) · · · ∇ g p ( x∗ ) = Jg( x∗ ) ∈ M pn (R )

L’hypothèse d’indépendance linéaire faite sur les gradients des fonctions gi signifie que
A est surjective. Elle admet donc un inverse à droite B ∈ Mnp (R ) : AB = I p .
On définit alors la fonction G : R n × R p → R p par
∀( x, y) ∈ R n × R p , G ( x, y) = g( x∗ + By + x)
On a G (0, 0) = g( x∗ ) = 0 car x∗ ∈ K. De plus G est de classe C 1 et
∂y G ( x, y) = Jg( x∗ + By + x) · B =⇒ ∂y G (0, 0) = Jg( x∗ ) · B = I p

4.1. CONDITION NÉCESSAIRE D’ORDRE 1 27
Le théorème de la fonction implicite s’applique donc : il existe un voisinage V ⊂ R n de 0

et un voisinage W ⊂ R p de 0 tels que, pour tout x ∈ V, l’équation G ( x, y) = 0 admette
une unique solution y = ϕ( x) ∈ W (en particulier ϕ(0) = 0). On a donc G ( x, ϕ( x)) = 0,
d’où, après dérivation par rapport à x,
∂x G ( x, ϕ( x)) + ∂y G ( x, ϕ( x)) · J ϕ( x) = 0
Pour x = 0, on obtient :
∂x G (0, 0) + ∂y G (0, 0) · J ϕ(0) = 0
Or ∂ x G (0, 0) = Jg(0) et ∂y G (0, 0) = I p donc J ϕ(0) = − Jg( x∗ ).
Si x ∈ V, alors x∗ + Bϕ( x) + x ∈ K et
f ( x∗ ) ≤ f ( x∗ + Bϕ( x) + x) ∀x ∈ V
Donc x = 0 est un minimum relatif de f˜ définie par
∀ x ∈ R n , f˜( x) = f ( x∗ + Bϕ( x) + x)
Le théorème 3.6 s’applique à f˜ :
0 = ∇ f˜(0) = ∇ f ( x∗ ) + J ϕ(0)T BT ∇ f ( x∗ ) = ∇ f ( x∗ ) − Jg( x∗ )T BT ∇ f ( x∗ )
En posant Λ = − BT ∇ f ( x∗ ), on obtient le résultat.
Remarque 4.1 Les nombres λ1 , . . . , λ p sont appelés multiplicateurs de Lagrange.
Remarque 4.2 Le théorème des extrema liés s’interprète simplement dans le cas où l’ensemble des
contraintes est le cercle unité de R2 . En effet, minimiser une fonction f ( x, y) sous la contrainte
x2 + y2 = 1 revient à minimiser la fonction ϕ(θ ) = f (cos θ, sin θ ) pour θ dans R. On est donc
ramené un problème sans contrainte. La condition d’optimalité s’écrit
∂f ∂f
ϕ′ (θ ∗ ) = 0 ⇐⇒ − sin θ ∗ (cos θ ∗ , sin θ ∗ ) + cos θ ∗ (cos θ ∗ , sin θ ∗ ) = 0.
∂x ∂x
En interprétant cette dernière comme l’annulation d’un déterminant, elle montre que les vec-
teurs ∇ f (cos θ ∗ , sin θ ∗ ) et (cos θ ∗ , sin θ ∗ )T sont colinéaires. Or ce dernier vecteur n’est autre
que 21 ∇ g(cos θ ∗ , sin θ ∗ ), o g( x, y) = x2 + y2 − 1 définit la contrainte.
Ainsi, il existe un nombre réel µ tel que
∇ f (cos θ ∗ , sin θ ∗ ) = µ∇ g(cos θ ∗ , sin θ ∗ ),

il suffit de poser λ = −µ pour retrouver le résultat annoncé.
Exemple 4.2 Soit le problème de minimiser x2 − y sous la contrainte x2 + y2 = 1. Le Lagrangien

s’écrit :
L ( x, y, λ) = x2 − y + λ( x2 + y2 − 1)
si bien que la condition nécessaire d’ordre 1 s’écrit :

2x 2x
+λ =0
−1 2y
Deux cas se présentent :
F IG . 4.1 – Graphe de la fonction f de l’exemple 4.2
1.25
0.12
−1.00 −1
−1
0
0
x y
1 1
– x = 0 d’où y = ±1. √
– x 6= 0 et alors λ = −1 et y = −1/2. Comme x2 + y2 = 1, on en déduit x = ± 3/2
Il suffit maintenant de vérifier la condition d’indépendance linéaire, elle revient ici à la non nullité
du gradient de la fonction définissant√ la contrainte, ce qui est aisé de vérifier.
En conclusion, les quatre points (± 3/2, −1/2), (0, ±1) sont candidats. Il est facile de montrer
que les deux premiers correspondent à un maximum absolu et que parmi les deux derniers, (0, 1)
correspond à un minimum absolu et (0, −1) à un minimum relatif (voir F IG 4.1).
Remarque 4.3 Il est crucial de vérifier la condition d’indépendance linéaire des gradients des
fonctions définissant les contraintes. Cette condition est naturelle car elle écarte le cas de contraintes
redondantes. Considérons en effet la minimisation de x1 + x22 sous la contrainte x13 − x22 = 0 :
dans le cas d’une unique contrainte, l’indépendance signifie la non annulation. On voit facilement
que (0, 0) est l’unique solution. Pourtant on n’a pas de condition d’ordre 1 :

1 3x12
∇x L ( x, λ) = +λ
2x2 2x2
En x = (0, 0), la condition d’ordre 1 fournit les deux égalités 1 = 0 et 0 = 0, ce qui est impossible.
Exemple 4.3 Considérons le problème géométrique suivant : parmi tous les parallélépipédes
rectangle de surface unité, quel est celui de volume maximal ?
Notons x, y, z les longueurs des trois cotés du parallélépipède, ce sont des nombres strictement
positifs. Son volume est V ( x, y, z) = xyz tandis que sa surface est S( x, y, z) = 2( xy + yz + zx).
La question est de maximiser V sous la contrainte S( x, y, z) = 1. Introduisons le Lagrangien du
problème :
L( x, y, z, λ) = V ( x, y, z) + λ (S( x, y, z) − 1) .
En un éventuel point ( x, y, z) solution de ce problème d’opitmisation sous contraintes, la condition
d’extrémalité de Euler-Lagrange s’écrit alors
∃λ ∈ R, ∇V ( x, y, z) + λ∇S( x, y, z) = 0.
Comme ∇V ( x, y, z) = (yz, xz, xy) et ∇S( x, y, z) = 2(y + z, x + z, x + y), elle se ramène au

système :

 yz + 2λ(y + z) = 0,
xz + 2λ( x + z) = 0,

xy + 2λ( x + y) = 0.
On en déduit que nécessairement λ 6= 0 puis que
x ( y + z ) = y ( x + z ) = z ( x + y ).
En particulier, la première égalité implique que xz = yz soit x = y comme z > 0. Le seconde

implique que yx = zx et donc que y = z car x > 0. Finalement, on avons obtenu que x = y = z,
2
√ est alors un cube. Comme sa surface est S( x, x, x) = 12x = 1, son coté est de
le parallélipède
longueur 2 3. Le multiplicateur de Lagrange vaut alors λ = −.
4.1.2 Contraintes de type inégalité

Dans ce paragraphe, on suppose que l’ensemble des contraintes K est donné par
K = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
On notera h( x) le vecteur (h1 ( x), . . . , hq ( x))T ∈ R q .
Définition 4.2 On appelle Lagrangien du problème de minimisation (Q) la fonction L : Ω ×

R q → R définie par
∀( x, M) ∈ Ω × R q , L ( x, M) = f ( x) + MT h( x)
Ou encore
q
∀ x ∈ Ω ∀µ1 , . . . , µq ∈ R, L ( x, µ1 , . . . , µq ) = f ( x) + ∑ µi hi ( x)
i =1
Le résultat suivant fournit la condition nécessaire d’ordre 1 dans le cas des contraintes de
type inégalités :
Théorème 4.3 (Kuhn et Tucker) Soit x∗ une solution de (Q). On suppose que les fonctions
f , h1 , . . . , hq sont de classe C 1 et que la condition suivante est vérifiée :
(∗) ∃d ∈ R n , hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
Alors il existe des réels µ1 , . . . , µq tels que
(i ) µi ≥ 0
(ii) µi hi ( x ∗ ) = 0
q
∗
(iii) ∇ f ( x ) + ∑ µi ∇hi ( x∗ ) = 0
i =1
Remarque 4.4 En dimension 1, le rsultat précédent est très naturel : si f admet un minimum
sur [0, 1] en x∗ = 0, alors f ′ ( x∗ ) ≥ 0. De même si x∗ = 1, f ′ ( x∗ ) ≤ 0. C’est le signe des
multiplicateurs de Kuhn-Tucker qui permet de retrouver ces conditions, associés aux contraintes
x ≥ 0 et x ≤ 1. Il traduit le fait que seul ce qui se passe d’un coté de 0 ou de 1 doit être considéré.
Remarque 4.5 La condition (ii ) signifie que si la contrainte n’est pas serrée (i.e. hi ( x∗ ) < 0),
alors µi = 0 : elle n’intervient pas dans la condition d’ordre 1. On appelle (ii ) relation d’exclu-
sion.
La condition (∗) est plus faible qu’une condition d’indépendance linéaire. On appelle (∗) hy-
pothèse de qualification des contraintes.
Les coefficients µ1 , . . . , µq sont appelés multiplicateurs de Kuhn et Tucker.
La condition (iii ) s’écrit en termes de Lagrangien :
∇x L ( x∗ , M) = 0 avec M = ( µ1 , . . . , µ n )
2 + y2
Exemple 4.4 Soit D = {( x, y) ∈ R2 | x2 + y2 ≤ 9} et f ( x, y) = ex + y2 − 1. La contrainte
est h(s, y) = x2 + y2 − 9. Le Lagrangien est donné par
2 + y2
L ( x, y, λ) = ex + y2 − 1 + λ ( x 2 + y2 − 9)
d’où " #
2 + y2
2xex + 2λx
∇( x,y) L ( x, y, λ) = 2 + y2
2yex + 2y + 2λy
Donc la condition de Kuhn et Tucker s’écrit :
2 + y2 2 + y2
x(ex + λ) = 0 et y( e x + 1 + λ) = 0
Comme λ ≥ 0, nécessairement ( x, y) = (0, 0). Vérifions maintenant la condition de qualification

des contraintes : elle est satisfaite car ∇h = 2( x, y) ne s’annule que en (0, 0) où h ne s’annule
pas.
Exemple 4.5 Soit le problème de minimiser x sur l’ensemble

n o
K = ( x, y) ∈ R2 | y ≥ 0 et y ≤ (1 + x)3
Le Lagrangien du problème est

h i
L ( x, y, µ1 , µ2 ) = x − µ1 y + µ2 y − (1 + x)3
Donc
1 − 3µ2 (1 + x)2
∇( x,y) L ( x, y, µ1 , µ2 ) =
− µ1 + µ2
La condition d’ordre 1 s’écrit :
1 − 3µ2 (1 + x)2 = 0 et µ1 = µ2
De plus, les conditions d’exclusion fournissent :
h i
µ1 y = 0 et µ2 y − (1 + x )3 = 0
– Si µ1 = 0, alors µ2 = 0 d’où 1 = 0, impossible ;

– Sinon, y = 0 et alors µ2 (1 + x)3 = 0. De même que dans le premier cas, on montre que µ2 6= 0,
d’où x = −1.
Le seul point candidat est (−1, 0).
Il reste à vérifier l’hypothèse de qualification des contraintes : si on note h1 ( x, y) = −y et
h2 ( x, y) = y − (1 + x)3 alors

0 0
∇h1 (−1, 0) = et ∇h2 (−1, 0) =
−1 1
Et justement, elles ne sont pas vérifiées ! Supposons qu’elles le soient : il existerait un vecteur
d = (d1 , d2 ) tel que
dT ∇h1 (−1, 0) = −d2 < 0 et dT ∇h1 (−1, 0) = d2 < 0.
Cela est impossible Donc on ne peut pas appliquer le théorème de Kuhn et Tucker. Pourtant (−1, 0)
est bien la solution recherchée.
Remarque 4.6 Si on a affaire à un problème de maximisation, on considère − f pour se ramener
à un problème de minimisation, plutôt que de changer le signe des multiplicateurs.
Exemple 4.6 Soit A ∈ Mn (R ) symétrique définie positive. On considère le problème
x∗ = argmax xTAx
k x k≤1
Le Lagrangien s’écrit L ( x, µ) = − xTAx + µ(k xk2 − 1) d’où

∇x L ( x∗ , µ) = −2Ax∗ + 2µx∗
La condition d’ordre 1 affirme donc que µ est valeur propre de A et x∗ est vecteur propre associé.
Ainsi
x∗TAx∗ = µk xk2
qui est maximum si µ est la plus grande valeur propre de A et x∗ vecteur propre unitaire associé.
La condition de qualification des contraintes est ici trivialement vérifiée.
Remarque 4.7 En dimension 2, la condition de qualification des contraintes peut s’interpréter

ainsi : les vecteurs gradients de contraintes serrées au point considéré sont situés dans un même
demi-plan strict.
4.1.3 Contraintes mixtes égalités–inégalités

Ici l’ensemble contrainte est donné par
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
Le Lagrangien s’écrit
∀( x, Λ, M) ∈ R n × R p × R q , L ( x, Λ, M) = f ( x) + ΛT g( x) + MT h( x)
La condition nécessaire d’ordre 1 est donnée par le théorème suivant :
Théorème 4.4 Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 , . . . , g p et h1 ,
. . . , hq sont de classe C 1 . On fait, de plus, l’hypothèse de qualification des contraintes :

∃d ∈ R n , d T ∇ gi ( x∗ ) = 0 et hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
(∗)
Les vecteurs ∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) sont linéairement indépendants.
Alors il existe des réels λ1 , . . . , λ p , µ1 , . . . , µq tels que
(i ) µi ≥ 0
(ii) µi hi ( x ∗ ) = 0
(iii) gi ( x∗ ) = 0
p q
(iv) ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1
Exemple 4.7 On se propose de minimiser x2 sur l’ensemble contrainte :
K = {( x, y) ∈ R2 | x2 + y2 ≤ 2 et x = y}
On écrit le Lagrangien : L ( x, y, λ, µ) = x2 + λ( x − y) + µ( x2 + y2 − 2) si bien que

2x + λ + 2µx
∇x L ( x, y, λ, µ) =
−λ + 2µy
La condition de Kuhn et Tucker s’écrit
2x∗ + λ + 2µx∗ = 0 et 2µy∗ = λ
On écrit aussi les relations de liaison et d’exclusion
x ∗ = y∗ et µ ( x ∗ 2 + y ∗ 2 − 2) = 0 ( µ ≥ 0)
On en déduit x∗ (1 + 2µ) = 0 d’où x∗ = 0 puisque µ ≥ 0. Donc y∗ = 0 (la condition de
qualification des contraintes est vérifiée).
4.2. CONDITION SUFFISANTE D’ORDRE 2 33
4.2 Condition suffisante d’ordre 2

Comme dans le cas de l’optimisation sans contrainte, on peut énoncer une condition suf-
fisante faisant intervenir les dérivées d’ordre 2 du Lagrangien. On donne ici une version
très faible du résultat, dans le cadre de contraintes de type “égalités”.
Théorème 4.5 On suppose que f , g1 , . . . , g p sont de classe C 2 . Si x∗ vérifie :
∇x L ( x, Λ) = 0 et ∇2x L ( x, Λ) est définie positive
alors x∗ est un minimum local de f sur K.
Chapitre 5
Algorithmes pour l’optimisation
5.1 Algorithmes de descente

5.1.1 Généralités
Méthodes de descente
Soit f : Ω ⊂ R n → R une application continue telle que le problème
x∗ = argmin f ( x)
x ∈Ω
admette une unique solution.

Le but de ce paragraphe est de présenter une classe d’algorithmes – dits algorithmes de
descente – pour déterminer numériquement x∗ .
L’idée de la méthode consiste à construire une suite ( xk ) telle que
– ∀k ∈ N, xk ∈ Ω ;
– f ( x k +1 ) ≤ f ( x k ).
On espère alors que la suite xk converge vers x∗ quand k → +∞. Par continuité de f ,
f ( xk ) −→ min f ( x)
x ∈Ω
5.1.2 Méthodes de gradient

Une méthode de descente peut s’écrire sous la forme :
x k +1 = x k + d k
La question est la suivante : xk étant fixé, comment choisir la direction de descente dk
pour que f ( xk+1 ) soit inférieur à f ( xk ) ?
La formule de Taylor au premier ordre fournit une approximation à l’ordre 1 :
f ( xk + dk ) ≃ f ( xk ) + ∇ f ( xk )T dk
On veut que la différence f ( xk ) − f ( xk + dk ) soit maximum. Il s’agit donc de maximiser
−∇ f ( xk )T dk . Or
| − ∇ f ( xk )T dk | ≤ k∇ f ( xk )k · kdk k (inégalité de Cauchy-Schwartz)
35
36 CHAPITRE 5. ALGORITHMES POUR L’OPTIMISATION
avec égalité pour dk = −ρ∇ f ( xk ) (ρ > 0). Cette remarque donne naissance aux méthodes
dites de gradient :
x k +1 = x k − ρ ∇ f ( x k )
5.1.3 Algorithme du gradient à pas fixe

Optimisation sans contrainte
On suppose ici Ω = R n .
Afin de montrer la convergence de la méthode, on fait les hypothèses suivantes sur f :
∀ω borné ∃ Lω > 0 ∀ x, y ∈ ω, k∇ f ( x) − ∇ f (y)k ≤ Lω k x − yk (∇ f est lipschitzien)
∃α > 0 ∀ x, y ∈ R n , ( x − y)T (∇ f ( x) − ∇ f (y) ≥ αk x − yk2 ( f est α−convexe)

Ces hypothèses impliquent que le problème de minimisation admet une unique solution.
On peut alors énoncer le théorème suivant :
Théorème 5.1 (convergence de la méthode du gradient) On suppose que f vérifie les deux
conditions ci-dessus, alors la suite construite par
x k +1 = x k − ρ ∇ f ( x k )
converge vers la solution x∗ du problème de minimisation dès que ρ est suffisamment proche de 0.
D ÉMONSTRATION : La suite xk est bornée : en effet la suite f ( xk ) décroı̂t, donc f ( xk ) ap-
partient à la boule fermée B(0, f ( x0 )) d’où xk ∈ B = f −1 ( B(0, f ( x0 ))). Comme B(0, f ( x0 ))
est compacte et f continue, alors B est compact donc borné.
Soit Φ : R n → R n définie par
∀ x ∈ R n , Φ( x ) = x − ρ∇ f ( x )
Montrons que Φ est contractante sur B : soient x, y ∈ B,
kΦ( x) − Φ(y)k2 = k x − y − ρ(∇ f ( x) − ∇ f (y))k2
= k x − yk2 + ρ2 k∇ f ( x) − ∇ f (y)k2 − 2ρ( x − y)T (∇ f ( x) − ∇ f (y))
≤ k x − yk2 + ρ2 L2B k x − yk2 − 2αρk x − yk2
= (1 − 2αρ + L2B ρ2 )k x − yk2
Une étude simple de la fonction ψ : ρ 7→ 1 − 2αρ + L2B ρ2 permet de dresser le tableau de
variations suivant
α 2α
x −∞ 0 +∞
L2B L2B
α
ψ +∞ ց 1 ց ց 1 − ր ր 1 ր +∞
L2B
2α
Donc Φ est strictement contractante pour 0 < ρ < . On conclut à l’aide du théorème
L2B
du point fixe.
Remarque 5.1 La convergence de l’algorithme est géométrique, de raison ψ(ρ).
5.1. ALGORITHMES DE DESCENTE 37
Optimisation avec contraintes
Dans le cas de contraintes, l’algorithme précédent ne s’applique pas tel quel. En effet,
même si xk ∈ Ω, il n’est pas sûr que xk+1 ∈ Ω. Pour pallier cette difficulté, on modifie la
méthode comme suit dans le cas où Ω est un convexe fermé :
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )
où ΠΩ est la projection sur Ω. Cette méthode converge sous les mêmes hypothèses :
Théorème 5.2 Si f vérifie les hypothèses du paragraphe précédent et ρ est suffisamment proche
de 0, alors la suite construite par
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )
converge vers la solution x∗ du problème de minimisation.
D ÉMONSTRATION : La démonstration est identique à la précédente ; on utilise le fait que

ΠΩ est contractante.
Pratique de l’algorithme de gradient.
Plusieurs problèmes se posent quand l’on veut utiliser effectivement l’algorithme du

gradient sur une situation. Heuristiquement, cet algorithme reproduit le comportement
d’une goutte de pluie qui tombe sur une surface imperméable : elle tombe en un point,
puis suit la ligne de plus grande pente en s’arrétant sur le premier creux qu’elle rencontre.
Ce premier creux correspond à un minimum de la fonction mais n’a aucune raison de cor-
respondre au minimum absolu de celle ci. Pour poursuivre la métaphore météorologique,
ceci correspond aux lacs qui se remplissent jusqu’à déborder ; l’eau poursuit ainsi son
chemin de minimum local de l’altitude en minimum local jusque la mer qui réalise le
miminum global. L’algorithme de gradient s’arrête au premier lac. En d’autres termes, le
résultat final de l’application de l’algorithme de gradient dépend trés fortement du point
initial choisi.
Dans le cadre des applications, les minima locaux ne présentent que peu d’intérêt, seul le
ou les minima absolus comptent. Il convient donc d’essayer de se débarrasser de ce blo-
cage dans un minimum relatif. Une façon de faire est d’utiliser une méthode d’optimisa-
tion globale souvent basée sur une approche stochastique. Un autre manière de procéder
est de multiplier les applications de l’algorithme pour des points initiaux variés. Ainsi, si
on arrose le domaine des paramètres admissibles par des points et que l’on fait partir une
méthode de gradient à paritr de chacun de ces points, on peut espèrer contourner cette
difficulté.
Un second problème fondamental en pratique est de choisir correctement le pas ρ. Dans
le cadre du théorème 5.1, le pas est toujours le même. Ce choix n’est pas forcément le plus
approprié.
5.2 Méthode de Newton

Une autre façon d’aborder le problème consiste à travailler sur les équations d’Euler du
problème (cas sans contraintes) ou les équations d’Euler-Lagrange (cas avec contraintes).
On est donc ramené à résoudre une équation du type
F ( x) = 0 où F : R d → R d
Nous allons ici décrire la méthode de Newton (ou méthode de Newton-Raphson) pour
déterminer numériquement une racine de F.
Soit x0 ∈ R d . On construit la suite ( xk ) comme suit :
h i −1
xk+1 = xk − JF ( xk ) F ( xk )
(on suppose qu’il est licite d’écrire cette égalité).
Remarque 5.2 Dans la pratique, on ne calcule jamais l’inverse de la matrice JF ( xk ). Ceci revien-
h i −1
drait à résoudre d systèmes linéaires de taille d ∗ d. Rappelons que la ième colonne de JF ( xk )
est obtenue en résolvant JF ( xk ) x = ei où ei = (0, . . . , 0, 1, 0, . . . , 0) est le ième vecteur de la base
cannonique de R d . Il suffit en fait d’en résoudre un seul. En effet, la suite xk est aussi construite
par
h i −1
xk+1 = xk + dk avec dk = − JF ( xk ) F ( xk ) ⇔ JF ( xk )dk = − F ( xk ).
Remarque 5.3 La direction −dk solution du système linéaire JF ( xk )d = F ( xk ) peut être vue
comme une direction de descente en dehors du point x∗ . Cela suppose que l’on associe à l’équation
F ( x) = 0 une fonction coût dont les points où les minima absolus sont atteints sont exactement
les solutions de l’équation F ( x) = 0. L’idée est alors de poser C ( x) = k F ( x)k2 . De sorte que
JC ( x) = 2F ( x) JF ( x) et donc que la dérivée directionelle (voir exemple 1.7 du chapitre 1) de C en
xk est h i −1
φ′ (0) = 2F ( xk ) JF ( xk ).( JF ( xk ) F ( xk )) = −2F ( xk )k JF ( xk )k2 < 0.
Théorème 5.3 Soit x∗ solution de F ( x∗ ) = 0. Si F ∈ C 2 (R d , R d ) et JF ( x∗ ) est inversible, alors

la suite xk est bien définie et converge vers x∗ .
D ÉMONSTRATION : Ici encore, on se ramène à un problème de point fixe : soit Φ : R d →

R d définie par
h i −1
Φ( x) = x − JF ( x) F ( x)
Montrons que Φ est contractante dans un voisinage de x∗ . Puisque Φ est de classe C 1 ,

cela équivaut à montrer que
k JΦ( x∗ )k < 1
Or JF ( x)Φ( x) = JF ( x) x − F ( x) donc
HF ( x)Φ( x) + JF ( x) JΦ( x) = HF ( x) x + JF ( x) − JF ( x)
5.2. MÉTHODE DE NEWTON 39
h i −2
D’où JΦ( x∗ ) = JF ( x∗ ) HF ( x∗ ) F ( x∗ ) = 0 donc k JΦ( x∗ )k < 1.
Comme JΦ( x∗ ) = 0, la convergence est très rapide : montrons qu’elle est quadratique,
c’est-à-dire qu’à chaque étape le nombre de décimales exactes est doublé par rapport à
l’étape précédente.
Théorème 5.4 Soit F ∈ C 1 (R d , R d ) avec JF L-Lipschizienne sur R d et x∗ ∈ R d tel que

F ( x∗ ) = 0 et JF ( x∗ ) est inversible. Alors il existe ρ > 0 tel que la suite xk définie par
h i −1
xk+1 = xk − JF ( xk ) F ( xk )
reste dans la boule B( x∗ , r) et converge vers x∗ . De plus, la convergence est quadratique : il existe
c > 0 tel que
∀k ≥ 0, k xk+1 − x∗ k ≤ ck xk − x∗ k2 .
D ÉMONSTRATION : Fixons k et exprimons xk+1 − x∗ en fonction de xk − x∗ . Puisque

F ( x∗ ) = 0, il vient
h i −1
xk+1 − x∗ = xk − x∗ − JF ( xk ) F ( xk ) − F ( x∗ ) ,
h i −1
= − JF ( xk ) F ( xk ) − F ( x∗ ) − JF ( xk ) ( xk − x∗ ) .
Maintenant, l’idée est d’écrire la variation F ( xk ) − F ( x∗ ) comme une intégrale le long du

segment [ x∗ , xk ]. Ceci nous donne :
Z 1
∗ ∗
k
F ( x ) − F ( x ) − JF ( xk ) ( xk − x ) = [ JF ( x∗ + t( xk − x∗ )) ( xk − x∗ ) − JF ( xk ) ( xk − x∗ )] dt
0
Nous pouvons maintenant majorer cette intégrale :

Z 1
k F ( xk ) − F ( x∗ ) − JF ( xk ) ( xk − x∗ ) k ≤ k JF ( x∗ + t( xk − x∗ )) − JF ( xk )kdt k xk − x∗ k
0
Comme la fonction JF est Lipschitzienne de rapport L, nous obtenons

Z 1 Z 1
∗ ∗ L
k JF ( x + t( xk − x )) − JF ( xk )kdt ≤ Ltk xk − x∗ kdt = k x − x ∗ k.
0 0 2 k
h i −1
Maintenant, il nous faut majorer k JF ( xk ) k. Pour cela nous utilisons la continuité du
déterminant (polynôme en les coefficients de la matrice) : comme JF ( xk ) est inversible,
la matrice JF ( x) reste inversible dans une boule B( x∗ , 2R) avec R > 0. Les formules de
h i −1
Cramer donnent alors une expression analytique des coefficients de JF ( x) qui est
donc une fonction continue sur B( x∗ , R). Notons
h i −1
M = Supx ∈ B( x ∗ ,R) k JF ( x) kL(R d ) .
Résumons ce que nous avons montré : si k xk − x∗ k ≤ R alors
ML k
k x k +1 − x ∗ k ≤ k x − x ∗ k2 .
2
Reste à trouver la boule stable. Par exemple, pour r = min(1/ML, R/2) nous vérifions
par récurrence que si x0 ∈ B(0, r) alors chaque terme de la suite ( xk ) est aussi dans cette
boule.
5.3 Vers l’optimisation globale

Les méthodes décrites plus haut partagent toutes le même défaut de ne pas distinguer
les minima locaux du minimum global. Des idées différentes ont été introduites, qui per-
mettent de contourner plus ou moins cette difficulté. Les méthodes couramment utilisées
dans cette optique sont les algorithmes génétiques ou évolutionnaires.
Annexe 41
Annexe : méthode pratique

de recherche d’extrema
Soit le problème d’optimisation (P) : “Trouver les minima de f sur K”
Écrire le Lagrangien du problème

Si l’ensemble contrainte est donné par (eventuellement p = 0 et/ou q = 0)
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
alors
p q
L ( x, Λ, M ) = f ( x) + ∑ λi gi ( x) + ∑ µi hi ( x)
i =1 i =1
Écrire la CN d’ordre 1 et les relations de liaison et d’exclusion
p q
∇x L ( x∗ , Λ, M ) = 0 ⇐⇒ ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1
gi ( x ∗ ) = 0 ; µi hi ( x ∗ ) = 0 et µi ≥ 0
Il s’agit d’un système de n + p + q équations à n + p + q inconnues.
Vérifier les conditions de qualification des contraintes

Pour chaque solution x∗ du système précédent, on vérifie que
Les vecteurs ∇ gi ( x∗ ) sont linéairement indépendants

∃d ∈ R n hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0 et d T ∇ gi ( x∗ ) = 0
N.B. les points qui ne satisfont pas la condition de qualification des contraintes sont de
potentiels points de minimum.
Tester la condition suffisante d’ordre 2
∇x2 L ( x∗ , Λ) définie positive =⇒ minimum

Dans le cas sans contraintes, on sait aussi que si la hessienne n’est pas semi-définie posi-
tive, alors on n’est pas en présence d’un minimum.
42 Méthode de recherche pratique d’extrema
Bibliographie
[1] J.-M. A RNAUDI ÈS , H. F RAYSSE. Cours de mathématiques. 3. Dunod, Paris 1989.
Compléments d’analyse. [Complements of analysis].
[2] X. G OURDON. Les Maths en tête, mathématiques pour M’ : Analyse. Ellipses, Paris 1994.
[3] J.-B. H IRIART-U RRUTY. L’optimisation. Que sais-je ? PUF, Paris 1996.
43

Cours Optimisation

Transféré par

Droits d'auteur :

Formats disponibles

Cours Optimisation

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Optimisation

Transféré par

Droits d'auteur :

Formats disponibles

COURS D’OPTIMISATION

Marc D AMBRINE & Grégory V IAL

1 Rappels et compléments de calcul différentiel 5

2 Généralités sur les problèmes d’optimisation 13

3 Optimisation sans contrainte 17

4 Optimisation avec contraintes 25

5 Algorithmes pour l’optimisation 35

Annexe : méthode pratique de recherche d’extrema 41

Rappels et compléments de calcul

1.1 Fonctions numériques d’une variable réelle

Mais f n’est pas de classe C 1 sur R + car f ′ n’est pas continue en 0.

1.2 Fonctions vectorielles d’une variable réelle

Exemple 1.3 Soit f : R ∗+ → R2 définie par

qui est continue sur R ∗+ .

1.3 Fonctions vectorielles de plusieurs variables

Définition 1.4 La fonction f est différentiable en x ∈ Ω ssi l’application

Exemple 1.4 Soit f : R2 → R2 définie par

f ( x1 , x2 ) = ( f 1 ( x1 , x2 ), f2 ( x1 , x2 ) = ( x12 − 3x23 + 2x2 − 1, e2x1 − x2 )T

Alors f est de classe C 1 sur R2 et

Définition 1.5 Soit f ∈ C 1 (Ω, R p ). On appelle matrice jacobienne de f en x la matrice J f ( x)

Remarque 1.1 On appelle aussi cette matrice la différentielle de f en x – on note alors d f ( x) ou

Cette application G est appelée différentielle de f en x.

Exemple 1.6 Soit f : R3 → R2 l’application définie par

On rappelle aussi le résultat de dérivation composée :

Théorème 1.1 Soit f : R n → R p et g : R p → R q de classe C 1 . Alors g ◦ f : R n → R q est de

Exemple 1.7 (dérivée directionelle) Soit f ∈ C 1 (R n , R p ) et x, d ∈ R n . On définit la restric-

Donc la formule de dérivation composée s’écrit :

∀t ∈ R, ϕ′ (t) = J f ( x + td) · Jg(t) = J f ( x + td) · d ∈ M p1 (R )

1.3.1 Cas particulier p = 1 : gradient, hessienne

1.3.2 Différentiation à l’ordre 1

Remarquons que f ( x) est un nombre alors que ∇ f ( x) est un vecteur.

Remarque 1.2 Le gradient d’une application f : R n → R est obtenu par transposition de la

1.3.3 Différentiation à l’ordre 2

Théorème 1.2 (Schwartz) Soit f ∈ C 2 (Ω, R ), alors

1.3.4 Formule de Taylor

Théorème 1.3 Soit f ∈ C 2 (Ω, R ), alors pour tout x ∈ Ω et h suffisamment petit,

1.3.5 Rappels d’algèbre linéaire

Exemple 1.14 Soit

ce qui prouve que A est définie positive.

χ A ( X ) = det( X I − A) = ( X − 2)2 − 1 = ( X − 1)( X − 3)

1.4 Théorème de la fonction implicite

Alors il existe des voisinages V ⊂ Ω1 de a et W ⊂ Ω2 de b tels que pour tout x ∈ V, l’équation

On calcule les différentielles partielles :

• f (0, 0) = 0 et ∂y f (0, 0) = 0. Donc le théorème

Généralités sur les problèmes

Dans toute la suite, on considère f : A ⊂ R n → R où A est un sous-ensemble de R n .

Attention au vocabulaire : f ( x∗ ) est le minimum de f sur A ; f admet un minimum en x∗

Exemple 2.1 La fonction f : [0, 1] → R définie par

min f ( x) = f (0) = 1 et 0 = argmin f ( x)

Exemple 2.2 La fonction ln : (0, 1) → R n’admet pas de minimum (car ln x → −∞ quand

Exemple 2.3 Soit f : R → R la fonction définie par

Exemple 2.4 Soit f : B → R donnée par f ( x, y) = 2 − x2 − y2 . B est la boule unité euclidienne

Alors f admet un minimum en tout point de la sphère unité ; ce minimum vaut 1.

Définition 2.2 Si x∗ ∈ A est tel que

alors on dit que f admet un maximum (absolu) sur A en x∗ . On note

Définition 2.3 Si f admet en x∗ un minimum ou un maximum, on dit qu’elle admet un opti-

Remarque 2.2 Si f admet un minimum en x∗ , alors − f admet un maximum en x∗ . C’est pour-

2.1.2 Optima relatifs

Exemple 2.5 Soit f : R → R la fonction définie par