Cours Optimisation
Cours Optimisation
Cours Optimisation
21 décembre 2007
Table des matières
3
4 TABLE DES MATI ÈRES
f ( x + h) − f ( x )
Définition 1.1 f est dérivable sur I ssi pour tout x ∈ I, lim existe. On note
h →0 h
alors cette limite f ′ ( x).
Définition 1.2 f est de classe C 1 sur I – on note f ∈ C 1 ( I, R ) – ssi f est dérivable sur I et
l’application x 7→ f ′ ( x) est continue sur I.
Exemple 1.1 Soit f : R → R définie par f ( x) = e2x − x2 . La fonction f est de classe C 1 sur R
car pour tout réel x, f ′ ( x) = 2e2x − 2x qui définit une fonction continue sur R.
Exemple 1.2 Soit f : R + → R définie par f ( x) = x2 sin x1 pour x > 0 et f (0) = 0. Alors f est
dérivable sur R + :
1 1
∀ x > 0, f ′ ( x) = 2x sin − sin 2 et f ′ (0) = 0
x x
Définition 1.3 f est de classe C 1 sur I ssi pour tout i ∈ {1, . . . , p}, f i est de classe C 1 sur I.
On note alors, pour x ∈ R n ,
f ′ ( x) = ( f 1′ ( x), . . . , f p′ ( x))T
5
6 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL
f ∈ C 1 (R ∗+ ) car
1 1 T
∀ x ∈ R ∗+ , f ′ ( x) = √ − 1, ex −
2 x x
t ∈ Ii 7→ f ( x1 , . . . , xi−1 , t, xi+1 , . . . , xn ) ∈ R p
∂f
est dérivable en t = xi . On note alors sa dérivée ( x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) (appelée
∂xi
dérivée partielle de f selon la ie direction).
En outre, la fonction f est dite de classe C 1 sur Ω si elle est différentiable en chaque x de Ω, et
chacune des ses dérivées partielles est continue sur Ω.
∂f ∂f
( x1 , x2 ) = (2x1 , 2e2x1 )T et ( x1 , x2 ) = (−9x22 + 2, −1)T
∂x1 ∂x2
∂ fi
[ J f ( x)]ij = ( x) (1 ≤ i ≤ p, 1 ≤ j ≤ n)
∂x j
f ( x + h) = f ( x) + G.h + O(khk2 ).
Exemple 1.5 On reprend la fonction de l’exemple précédent. La matrice jacobienne est donnée
par :
2x1 −9x22 + 2
J f ( x) =
2e2x1 −1
f ( x1 , x2 , x3 ) = (ex1 − x3 , x2 + sin x3 )T
Alors f ∈ C 1 (R3 , R2 ) et
e x1 0 −1
J f ( x) =
0 1 cos x3
∀t ∈ R, ϕ(t) = f ( x + td)
Alors ϕ ∈ C 1 (R, R p ) et
ϕ= f ◦g avec g : t ∈ R 7→ x + td ∈ R n
= ( Ax)k + ( ATx)k − bk
d’où le résultat puisque A est symétrique. Ce résultat peut également se retrouver à partir de la
définition intrinsèque de la différentielle. Pour un vecteur h ∈ R n , calculons f ( x + h) :
f ( x + h) = ( x + h)TA( x + h) − bT( x + h) = xTAx + hTAx + xTAh − bTx − bTh.
Comme la matrice A est symétrique, xTAh = hTAx et donc
f ( x + h) = xTAx − bTx + hT(2Ax − b) + hTAh = f ( x) + hT(2Ax − b) + hTAh.
On conclut en identifiant le coefficient d’ordre 1.
1.3. FONCTIONS VECTORIELLES DE PLUSIEURS VARIABLES 9
∂ ∂f ∂2 f
[ H f ( x)]ij = ( x) = ( x)
∂x j ∂xi ∂x j ∂xi
Exemple 1.11 On reprend l’exemple 1.8. Alors f ∈ C 2 (R3 , R ) et la hessienne est donnée par
2 0 0
H f ( x) = 0 2 0
0 0 2
Exemple 1.12 La fonction de l’exemple 1.9 est de classe C 2 sur Ω = (0, +∞[×R et
x2
x1 1
e − x2 x1
H f ( x) = 1
1
− cos x2
x1
On remarque que les deux matrices hessiennes calculées dans les exemples précédents
sont des matrices symétriques. C’est en fait vrai en général :
∂2 f ∂2 f
( x) = ( x)
∂xi ∂x j ∂x j ∂xi
Exemple 1.13 On revient sur l’exemple (1.7) : la dérivée seconde de l’application ϕ est donnée
par
ϕ′′ (t) = dT ∇2 f ( x + td)d.
1
f ( x + h) = f ( x) + ∇ f ( x) · h + hT ∇2 f ( x)h + O(khk2 ).
2
Remarque 1.4 La formule de Taylor permet de disposer d’un modèle polynomial de degré 2 pour
la fonction f . Il n’a de sens que localement autour du point x. Son intérêt est de permettre des
calculs explicites que ne permet pas la fonction f en général.
10 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL
| xT y| ≤ k xkkyk.
Cette inégalité devient une égalité si et seulement si les vecteurs x et y sont colinéaires.
La norme k xk désigne la norme euclidienne sur R n définie par k xk2 = xT x. Si d est
un vecteur non nul, alors { x ∈ R n , xT d = 0}est l’hyperplan orthogonal à d tandis que
{ x ∈ R n , xT d > 0} est le demi-espace de frontière l’hyperplan précedent vers lequel d
pointe.
Si A est une matrice carrée, on vérifie que xT ( Ay) = ( AT x)T y. Soit A ∈ Mn (R ) une
matrice symétrique, on a alors xT Ay = yT Ax. On rappelle qu’une matrice symétrique à
coefficients réels est diagonalisable (en base orthonormale).
Définition 1.8 A est semi-définie positive ssi pour tout vecteur x ∈ R n , xTAx ≥ 0.
A est définie positive ssi A est semi-définie positive et xTAx = 0 ⇒ x = 0.
Pour x ∈ R2 ,
2 −1 x1
T
x Ax = ( x1 , x2 ) = 2x12 − 2x1 x2 + 2x22 = ( x1 − x2 )2 + x12 + x22
−1 2 x2
Dire qu’une matrice est définie positive n’a pas de rapport avec le fait que ses coeffi-
cients soient positifs ou pas. Voici une caractérisation utile de la définition 1.8 à partir des
valeurs propres de la matrice A.
Proposition 1.4 A est semi-définie positive ssi toutes les valeurs propres de A sont positives ou
nulles.
A est définie positive ssi toutes les valeurs propres de A sont strictement positives.
Exemple 1.15 On reprend la matrice de l’exemple 1.14. Pour rechercher ses valeurs propres, on
calcule le polynôme caractéristique et on le factorise :
Les deux valeurs propres sont donc 1 et 3 : elles sont strictement positives, donc A est définie
positive en vertu du résultat 1.4.
1.4. THÉORÈME DE LA FONCTION IMPLICITE 11
est appelée jacobienne (ou différentielle) partielle par rapport à y et est notée ∂y f ( x, y).
On peut aussi définir de même la jacobienne partielle par rapport à x.
Dans le cas particulier d’une fonction numérique (p = 1), on parle de gradient partiel par
rapport à y et on note
T
∂f ∂f
∇y f ( x, y) = ( x, y), · · · , ( x, y)
∂y1 ∂yn
On rappelle maintenant un résultat essentiel du calcul différentiel :
Théorème 1.5 (fonction implicite) On suppose que f ∈ C 1 (Ω1 × Ω2 , R p ). On suppose que
( a, b) ∈ Ω1 × Ω2 est tel que
f ( a, b) = 0 et ∂y f ( a, b) est inversible.
D ÉMONSTRATION : admise.
On peut remplacer l’expression “voisinage de” par “boule centrée en” dans l’énoncé
précédent.
Exemple 1.16 Soit f : R2 → R définie par
f ( x, y) = x + y2
Remarque 1.5 Le théorème de la fonction implicite permet de donner une nouvelle interprétation
du vecteur gradient ∇ f ( x). Plaçons nous dans R n autour de x et supposons ∇ f ( x) 6= 0. L’en-
semble S isovaleur de f passant par x c’est-à-dire S = {y ∈ R n , f (y) = f ( x)} est une sur-
face autour de x dont le vecteur normal est ∇ f ( x). De plus, le gradient pointe vers la partie
{y ∈ R n , f (y) > f ( x)} du complémentaire de S.
Chapitre 2
2.1 Définitions
2.1.1 Optima absolus
Définition 2.1 Si x∗ ∈ A est tel que
∀ x ∈ A, f ( x∗ ) ≤ f ( x)
alors on dit que f admet un minimum (absolu) sur A en x∗ . On note
f ( x∗ ) = min f ( x) et x∗ = argmin f ( x)
x∈ A x∈ A
Remarque 2.1 Le minimum d’une fonction, s’il existe, est unique. Il peut cependant être atteint
en plusieurs points différents (voir l’exemple 2.3). En effet, le minimum s’il existe est nécessairement
la borne inférieure m de l’ensemble des valeurs prises par la fonction f sur l’ensemble A. Il existe
donc toujours une suite ( xn ) de points de A telle que la suite ( f ( xn )) converge vers m. Une telle
suite ( xn ) est dite suite minimisante. Le question de l’existence d’un minimum pour f revient
alors à savoir si la suite ( xn ) converge avec une limite dans A de sorte que la borne inférieure de
l’ensemble des valeurs prises par f sur A soit atteinte.
∀ x ∈ R, f ( x) = x2 + 1
admet un minimum absolu sur R :
13
14 CHAPITRE 2. GÉNÉRALITÉS SUR LES PROBLÈMES D’OPTIMISATION
∀ x ∈ R, f ( x) = x4 − 2x2 + 1
Alors f admet 0 pour minimum absolu sur R. Il est atteint en deux valeurs de x différentes : 1 et
−1. En effet
∀ x ∈ R, f ( x) = ( x2 − 1)2
∀ x ∈ A, f ( x∗ ) ≥ f ( x)
f ( x∗ ) = max f ( x) et x∗ = argmax f ( x)
x∈ A x∈ A
(on peut ici encore remplacer l’expression “voisinage de” par “petite boule centrée en”).
∀ x ∈ R, f ( x) = x3 − 3x + 1
Alors f admet en 1 un minimum relatif sur R, mais pas un minimum absolu car f ( x) tend vers
−∞ quand x → −∞.
2.2. OPTIMISATION SANS CONTRAINTES – AVEC CONTRAINTES 15
De plus s’il admet une solution, elle peut ne pas être unique :
x∗ = argmin cos x admet π et 3π pour solutions.
x ∈[0,4π ]
A = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0} contraintes d’inégalités
On peut aussi mélanger les deux types de contraintes :
A = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
On parle alors de contraintes égalités–inégalités. C’est le seul type d’optimisation liée que
nous étudierons.
Si hi( x∗ )
= 0, on dit que la contrainte hi ( x) ≤ 0 est serrée en x∗ (ou saturée, ou encore active).
Dans le cas contraire (hi ( x∗ ) < 0), on dit que la contrainte ne joue pas (ou est inactive).
Exemple 2.7 On reprend l’exemple précédent, mais on suppose que le budget pour l’achat de
matières premières est fixé à S.
Le problème devient :
h i h i
( x1∗ , x2∗ ) = argmax p f ( x1 , x2 ) − p1 x1 − p2 x2 = argmax p f ( x1 , x2 ) − S
x1 , x2 ∈ R + x1 , x2 ∈ R +
p1 x1 + p2 x2 = S p1 x1 + p2 x2 = S
On est ici en présence d’un problème d’optimisation avec contraintes de type égalités–
inégalités.
Exemple 2.8 Dans l’exemple précédent, on suppose que le budget d’achat peut ne pas être totale-
ment dépensé.
Remarque 2.4 Comme le montrent les trois exemples précédents, les problèmes provenant de
situations concrètes sont souvent des problèmes avec contraintes.
p1 x2 + p2 x2 ≤ S
(P) x∗ = argmin f ( x)
x ∈R n
3.1 En dimension 1
On suppose ici n = 1.
Or f est continue sur I = [− R, R] et l’image d’un intervalle fermé borné par une applica-
tion continue est un intervalle fermé borné :
f ( I ) = [m, M ] avec f ( x∗ ) = m
ce qui prouve que
m = min f ( x)
| x |≤ R
d’où le résultat.
(ii) Notons x1∗ et x2∗ deux solutions et x∗ = ( x1∗ + x2∗ )/2. Alors, par stricte convexité,
1h i
f ( x∗ ) < f ( x1∗ ) + f ( x2∗ ) = f ( x1∗ ),
2
ce qui est une contradiction.
17
18 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
f ′ ( x) = 0
∀ x ∈ R, f ( x) = x3 − 3x − 1
f ′ ( x) = 3x2 − 3 = 3( x2 − 1) = 0 =⇒ x = ±1
L’exemple précédent montre que la condition du théorème 3.2 n’est pas suffisante : elle
ne permet pas de faire la différence entre maximum et minimum, elle ne distingue pas un
optimum relatif d’un optimum absolu (c’est une condition locale). La situation est pire
encore : les points critiques peuvent même ne pas être optimum relatif de f :
Exemple 3.3 On considère la fonction x 7→ x3 . Les points critiques sont les solutions de 3x2 = 0,
donc il n’y en a qu’un : 0, qui ne correspond ni à un minimum relatif, ni à un maximum relatif de
la fonction cube.
f ′ ( x∗ ) = 0 et f ′′ ( x∗ ) ≥ 0
3.1. EN DIMENSION 1 19
Remarque 3.2 Les théorèmes précédents ne permettent pas de détecter un minimum absolu. En
effet, ils sont basés sur les valeurs prises par les dérivées de la fonction en certains points : ils ne
peuvent donc contenir que de l’information locale autour de ce point. Il faut par exemple faire une
hypothèse de convexité (de nature globale : la dérivée est positive en tout point x et pas seulement
au point qui réalise le minimum) pour obtenir un énoncé concluant à un minimum absolu.
20 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
Théorème 3.5 Si lim f ( x) = +∞ et f est continue sur R n , alors le problème (P) admet au
k x k→+ ∞
moins une solution. Il y a unicité si on ajoute une hypothse de stricte convexité.
D ÉMONSTRATION : La preuve est la même qu’en dimension 1, elle repose sur le fait que
l’image d’un compact par une application continue est un compact.
Remarque 3.3 L’énoncé précédent fait intervenir la norme de x, mais de laquelle s’agit-il ? En
fait, peut importe car elles sont toutes équivalentes ( R n est de dimension finie n).
En effet,
2
f ( x, y) = [ex − x] + [y4 ] = h( x) + g(y) avec lim h = lim g = +∞
±∞ ±∞
∇ f ( x∗ ) = 0 = 0R n
∀t ∈ R, ϕ(t) = f ( x∗ + td)
∀t ∈ R, ϕ′ (t) = ∇ f ( x∗ + td)T d
ϕ′ (0) = 0 =⇒ ∇ f ( x∗ )T d = 0
Définition 3.2 Une solution x de l’équation d’Euler ∇ f ( x) = 0 est appelé point critique de la
fonction f .
3.2. EN DIMENSION SUPÉRIEURE 21
Remarque 3.4 En un point critique, une fonction peut atteindre un extremum (soit minimum
soit maximum) ou non. En effet, la seule information traduite par l’équation d’Euler est que la
surface y = ( f x) a un plan tangent horizontal en x∗ . L’exemple de la fonction réelle f ( x) = x3
montre bien que cela n’implique pas que la fonction f y atteigne une valeur extrémale.
f ( x, y) = x2 + y2
∇ f ( x, y) = 2x = 0 =⇒ x = 0 et y = 0.
f ( x, y) = x3 + y3
Donc seul f (0R2 ) est un possible minimum. Mais comme f (0, y) = y3 < 0 = f (0R2 ) pour
2
y < 0, la fonction f n’a pas de minimum en 0R donc sur R2 .
Remarque 3.5 Soit x∗ un point critique pour une fonction f de classe C 2 (R n , R ). La formule
de Taylor en x∗ se simplifie en
1
f ( x∗ + h) = f ( x∗ ) + hT ∇2 f ( x∗ )h + ø(khk2 ).
2
Cela signifie que, à des termes d’erreurs négligeables devant khk2 près, la fonction f ressemble au
polynôme de dégré deux
1
P(h) = f ( x∗ ) + hT ∇2 f ( x∗ )h.
2
Si nous décomposons le vecteur h = (h1 , . . . , hn ) dans une base diagonale pour la matrice
∇2 f ( x∗ ) dont les n valeurs propres sont notées λi , nous obtenons que
1 n
P ( h) = f ( x ∗ ) + λi h2i .
2 i∑
=1
Le signe de P(h) − f ( x∗ ) qui est positif si la fonction f a un minimum en x∗ est donc relié au
signe des valeurs propres λi de la matrice ∇2 f ( x∗ ).
22 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
avec ψ(ρ) → 0 quand ρ → 0. Par hypothèse, d T ∇2 f ( x∗ )d > 0 pour tout d. Ici, d est de
norme 1 et, comme la dimension n est finie, la boule unité de R n est compacte : il existe
un réel α tel que d T ∇2 f ( x∗ )d ≤ α > 0. On peut choisir pour α la plus petite des valeurs
propres de la hessienne ∇2 f ( x∗ ). Comme ψ(ρ) → 0, il existe ρ0 > 0 tel que
ρ < ρ0 =⇒ |ψ(ρ)| ≤ α,
d’où les valeurs prises par f dans une boule autour de x∗ sont donc supérieures à f ( x∗ ).
∀ x ∈ R2 , ∇2 f ( x) = 2I2
Donc ∇2 f (0) est définie positive, on peut donc conclure que f admet un minimum en 0 (ce qu’il
est facile de voir par ailleurs).
3.2. EN DIMENSION SUPÉRIEURE 23
∀( x, y) ∈ R2 , f ( x, y) = x2 + y2 − xy
∇ f ( x, y) = (2x − y, 2y − x)T
qui est une matrice définie positive. Donc f admet un minimum relatif en (0, 0).
Remarque 3.6 Comme en dimension 1, on ne peut pas conclure dans le cas où la hessienne est
seulement semi-définie positive. Prenons ainsi f ( x, y) = x2 + y3 . Les points critiques de f sont
solutions de ∇ f ( x, y) = (2x, 3y2 ) = (0, 0), il existe donc un unique point critique qui est (0, 0)
la hessienne est alors
2 2 0
∇ f (0, 0) =
0 0
qui est semi-définie positive. Ici, f n’admet pas de minimum en (0, 0) : en effet, on constate que
f (0, y) = y3 < 0 = f (0, 0) dès que y < 0.
24 CHAPITRE 3. OPTIMISATION SANS CONTRAINTE
Chapitre 4
(Q) x∗ = argmin f ( x)
x ∈K
Théorème 4.1 Soit x∗ solution du problème (Q). Si x∗ est à l’intérieur du domaine K, alors
∇ f ( x∗ ) = 0.
x∗ = argmin( x2 + x + 1)
x ∈[0,1]
Il est facile de voir que x∗ = 0 en est l’unique solution. Cependant la dérivée en 0 vaut 1 6= 0.
Le problème provient du fait que le minimum est atteint au bord du domaine. Le but de
ce chapitre est de trouver l’équivalent des conditions d’Euler dans le cas de l’optimisation
avec contraintes. On se restreint aux contraintes de type égalité–inégalité.
25
26 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0}
Pour chaque i, gi désigne une fonction de x qui traduit une contrainte. Ici, on suppose que
le nombre de contraintes est exactement p. On notera g( x) le vecteur ( g1 ( x), . . . , g p ( x))T ∈
R p.
∀( x, Λ) ∈ Ω × R p , L ( x, Λ) = f ( x) + ΛT g( x)
Ou encore
p
∀ x ∈ Ω ∀λ1 , . . . , λ p ∈ R, L ( x, λ1 , . . . , λ p ) = f ( x) + ∑ λi gi ( x)
i =1
Théorème 4.2 (extrema liés) Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 ,
. . . , g p sont de classe C 1 et que les vecteurs
∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) ∈ R n
∃Λ ∈ R p , ∇x L ( x∗ , Λ) = 0
L’hypothèse d’indépendance linéaire faite sur les gradients des fonctions gi signifie que
A est surjective. Elle admet donc un inverse à droite B ∈ Mnp (R ) : AB = I p .
On définit alors la fonction G : R n × R p → R p par
∀( x, y) ∈ R n × R p , G ( x, y) = g( x∗ + By + x)
∂x G ( x, ϕ( x)) + ∂y G ( x, ϕ( x)) · J ϕ( x) = 0
Pour x = 0, on obtient :
∂x G (0, 0) + ∂y G (0, 0) · J ϕ(0) = 0
Or ∂ x G (0, 0) = Jg(0) et ∂y G (0, 0) = I p donc J ϕ(0) = − Jg( x∗ ).
Si x ∈ V, alors x∗ + Bϕ( x) + x ∈ K et
f ( x∗ ) ≤ f ( x∗ + Bϕ( x) + x) ∀x ∈ V
Donc x = 0 est un minimum relatif de f˜ définie par
∀ x ∈ R n , f˜( x) = f ( x∗ + Bϕ( x) + x)
Le théorème 3.6 s’applique à f˜ :
Remarque 4.2 Le théorème des extrema liés s’interprète simplement dans le cas où l’ensemble des
contraintes est le cercle unité de R2 . En effet, minimiser une fonction f ( x, y) sous la contrainte
x2 + y2 = 1 revient à minimiser la fonction ϕ(θ ) = f (cos θ, sin θ ) pour θ dans R. On est donc
ramené un problème sans contrainte. La condition d’optimalité s’écrit
∂f ∂f
ϕ′ (θ ∗ ) = 0 ⇐⇒ − sin θ ∗ (cos θ ∗ , sin θ ∗ ) + cos θ ∗ (cos θ ∗ , sin θ ∗ ) = 0.
∂x ∂x
En interprétant cette dernière comme l’annulation d’un déterminant, elle montre que les vec-
teurs ∇ f (cos θ ∗ , sin θ ∗ ) et (cos θ ∗ , sin θ ∗ )T sont colinéaires. Or ce dernier vecteur n’est autre
que 21 ∇ g(cos θ ∗ , sin θ ∗ ), o g( x, y) = x2 + y2 − 1 définit la contrainte.
Ainsi, il existe un nombre réel µ tel que
1.25
0.12
−1.00 −1
−1
0
0
x y
1 1
– x = 0 d’où y = ±1. √
– x 6= 0 et alors λ = −1 et y = −1/2. Comme x2 + y2 = 1, on en déduit x = ± 3/2
Il suffit maintenant de vérifier la condition d’indépendance linéaire, elle revient ici à la non nullité
du gradient de la fonction définissant√ la contrainte, ce qui est aisé de vérifier.
En conclusion, les quatre points (± 3/2, −1/2), (0, ±1) sont candidats. Il est facile de montrer
que les deux premiers correspondent à un maximum absolu et que parmi les deux derniers, (0, 1)
correspond à un minimum absolu et (0, −1) à un minimum relatif (voir F IG 4.1).
Remarque 4.3 Il est crucial de vérifier la condition d’indépendance linéaire des gradients des
fonctions définissant les contraintes. Cette condition est naturelle car elle écarte le cas de contraintes
redondantes. Considérons en effet la minimisation de x1 + x22 sous la contrainte x13 − x22 = 0 :
dans le cas d’une unique contrainte, l’indépendance signifie la non annulation. On voit facilement
que (0, 0) est l’unique solution. Pourtant on n’a pas de condition d’ordre 1 :
1 3x12
∇x L ( x, λ) = +λ
2x2 2x2
En x = (0, 0), la condition d’ordre 1 fournit les deux égalités 1 = 0 et 0 = 0, ce qui est impossible.
4.1. CONDITION NÉCESSAIRE D’ORDRE 1 29
Exemple 4.3 Considérons le problème géométrique suivant : parmi tous les parallélépipédes
rectangle de surface unité, quel est celui de volume maximal ?
Notons x, y, z les longueurs des trois cotés du parallélépipède, ce sont des nombres strictement
positifs. Son volume est V ( x, y, z) = xyz tandis que sa surface est S( x, y, z) = 2( xy + yz + zx).
La question est de maximiser V sous la contrainte S( x, y, z) = 1. Introduisons le Lagrangien du
problème :
L( x, y, z, λ) = V ( x, y, z) + λ (S( x, y, z) − 1) .
En un éventuel point ( x, y, z) solution de ce problème d’opitmisation sous contraintes, la condition
d’extrémalité de Euler-Lagrange s’écrit alors
∃λ ∈ R, ∇V ( x, y, z) + λ∇S( x, y, z) = 0.
x ( y + z ) = y ( x + z ) = z ( x + y ).
K = { x ∈ R n | h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
∀( x, M) ∈ Ω × R q , L ( x, M) = f ( x) + MT h( x)
Ou encore
q
∀ x ∈ Ω ∀µ1 , . . . , µq ∈ R, L ( x, µ1 , . . . , µq ) = f ( x) + ∑ µi hi ( x)
i =1
Le résultat suivant fournit la condition nécessaire d’ordre 1 dans le cas des contraintes de
type inégalités :
30 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES
Théorème 4.3 (Kuhn et Tucker) Soit x∗ une solution de (Q). On suppose que les fonctions
f , h1 , . . . , hq sont de classe C 1 et que la condition suivante est vérifiée :
(∗) ∃d ∈ R n , hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
Alors il existe des réels µ1 , . . . , µq tels que
(i ) µi ≥ 0
(ii) µi hi ( x ∗ ) = 0
q
∗
(iii) ∇ f ( x ) + ∑ µi ∇hi ( x∗ ) = 0
i =1
D ÉMONSTRATION : admise.
Remarque 4.4 En dimension 1, le rsultat précédent est très naturel : si f admet un minimum
sur [0, 1] en x∗ = 0, alors f ′ ( x∗ ) ≥ 0. De même si x∗ = 1, f ′ ( x∗ ) ≤ 0. C’est le signe des
multiplicateurs de Kuhn-Tucker qui permet de retrouver ces conditions, associés aux contraintes
x ≥ 0 et x ≤ 1. Il traduit le fait que seul ce qui se passe d’un coté de 0 ou de 1 doit être considéré.
Remarque 4.5 La condition (ii ) signifie que si la contrainte n’est pas serrée (i.e. hi ( x∗ ) < 0),
alors µi = 0 : elle n’intervient pas dans la condition d’ordre 1. On appelle (ii ) relation d’exclu-
sion.
La condition (∗) est plus faible qu’une condition d’indépendance linéaire. On appelle (∗) hy-
pothèse de qualification des contraintes.
Les coefficients µ1 , . . . , µq sont appelés multiplicateurs de Kuhn et Tucker.
La condition (iii ) s’écrit en termes de Lagrangien :
∇x L ( x∗ , M) = 0 avec M = ( µ1 , . . . , µ n )
2 + y2
Exemple 4.4 Soit D = {( x, y) ∈ R2 | x2 + y2 ≤ 9} et f ( x, y) = ex + y2 − 1. La contrainte
est h(s, y) = x2 + y2 − 9. Le Lagrangien est donné par
2 + y2
L ( x, y, λ) = ex + y2 − 1 + λ ( x 2 + y2 − 9)
d’où " #
2 + y2
2xex + 2λx
∇( x,y) L ( x, y, λ) = 2 + y2
2yex + 2y + 2λy
Donc la condition de Kuhn et Tucker s’écrit :
2 + y2 2 + y2
x(ex + λ) = 0 et y( e x + 1 + λ) = 0
Théorème 4.4 Soit x∗ une solution de (Q). On suppose que les fonctions f , g1 , . . . , g p et h1 ,
. . . , hq sont de classe C 1 . On fait, de plus, l’hypothèse de qualification des contraintes :
∃d ∈ R n , d T ∇ gi ( x∗ ) = 0 et hi ( x∗ ) = 0 =⇒ d T ∇hi ( x∗ ) < 0
(∗)
Les vecteurs ∇ g1 ( x∗ ), . . . , ∇ g p ( x∗ ) sont linéairement indépendants.
Alors il existe des réels λ1 , . . . , λ p , µ1 , . . . , µq tels que
(i ) µi ≥ 0
(ii) µi hi ( x ∗ ) = 0
(iii) gi ( x∗ ) = 0
p q
(iv) ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1
D ÉMONSTRATION : admise.
Exemple 4.7 On se propose de minimiser x2 sur l’ensemble contrainte :
K = {( x, y) ∈ R2 | x2 + y2 ≤ 2 et x = y}
On écrit le Lagrangien : L ( x, y, λ, µ) = x2 + λ( x − y) + µ( x2 + y2 − 2) si bien que
2x + λ + 2µx
∇x L ( x, y, λ, µ) =
−λ + 2µy
La condition de Kuhn et Tucker s’écrit
2x∗ + λ + 2µx∗ = 0 et 2µy∗ = λ
On écrit aussi les relations de liaison et d’exclusion
x ∗ = y∗ et µ ( x ∗ 2 + y ∗ 2 − 2) = 0 ( µ ≥ 0)
On en déduit x∗ (1 + 2µ) = 0 d’où x∗ = 0 puisque µ ≥ 0. Donc y∗ = 0 (la condition de
qualification des contraintes est vérifiée).
4.2. CONDITION SUFFISANTE D’ORDRE 2 33
D ÉMONSTRATION : admise.
34 CHAPITRE 4. OPTIMISATION AVEC CONTRAINTES
Chapitre 5
35
36 CHAPITRE 5. ALGORITHMES POUR L’OPTIMISATION
avec égalité pour dk = −ρ∇ f ( xk ) (ρ > 0). Cette remarque donne naissance aux méthodes
dites de gradient :
x k +1 = x k − ρ ∇ f ( x k )
Dans le cas de contraintes, l’algorithme précédent ne s’applique pas tel quel. En effet,
même si xk ∈ Ω, il n’est pas sûr que xk+1 ∈ Ω. Pour pallier cette difficulté, on modifie la
méthode comme suit dans le cas où Ω est un convexe fermé :
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )
où ΠΩ est la projection sur Ω. Cette méthode converge sous les mêmes hypothèses :
Théorème 5.2 Si f vérifie les hypothèses du paragraphe précédent et ρ est suffisamment proche
de 0, alors la suite construite par
h i
x k +1 = Π Ω x k − ρ ∇ f ( x k )
F ( x) = 0 où F : R d → R d
Nous allons ici décrire la méthode de Newton (ou méthode de Newton-Raphson) pour
déterminer numériquement une racine de F.
Soit x0 ∈ R d . On construit la suite ( xk ) comme suit :
h i −1
xk+1 = xk − JF ( xk ) F ( xk )
Remarque 5.2 Dans la pratique, on ne calcule jamais l’inverse de la matrice JF ( xk ). Ceci revien-
h i −1
drait à résoudre d systèmes linéaires de taille d ∗ d. Rappelons que la ième colonne de JF ( xk )
est obtenue en résolvant JF ( xk ) x = ei où ei = (0, . . . , 0, 1, 0, . . . , 0) est le ième vecteur de la base
cannonique de R d . Il suffit en fait d’en résoudre un seul. En effet, la suite xk est aussi construite
par
h i −1
xk+1 = xk + dk avec dk = − JF ( xk ) F ( xk ) ⇔ JF ( xk )dk = − F ( xk ).
Remarque 5.3 La direction −dk solution du système linéaire JF ( xk )d = F ( xk ) peut être vue
comme une direction de descente en dehors du point x∗ . Cela suppose que l’on associe à l’équation
F ( x) = 0 une fonction coût dont les points où les minima absolus sont atteints sont exactement
les solutions de l’équation F ( x) = 0. L’idée est alors de poser C ( x) = k F ( x)k2 . De sorte que
JC ( x) = 2F ( x) JF ( x) et donc que la dérivée directionelle (voir exemple 1.7 du chapitre 1) de C en
xk est h i −1
φ′ (0) = 2F ( xk ) JF ( xk ).( JF ( xk ) F ( xk )) = −2F ( xk )k JF ( xk )k2 < 0.
HF ( x)Φ( x) + JF ( x) JΦ( x) = HF ( x) x + JF ( x) − JF ( x)
5.2. MÉTHODE DE NEWTON 39
h i −2
D’où JΦ( x∗ ) = JF ( x∗ ) HF ( x∗ ) F ( x∗ ) = 0 donc k JΦ( x∗ )k < 1.
Comme JΦ( x∗ ) = 0, la convergence est très rapide : montrons qu’elle est quadratique,
c’est-à-dire qu’à chaque étape le nombre de décimales exactes est doublé par rapport à
l’étape précédente.
reste dans la boule B( x∗ , r) et converge vers x∗ . De plus, la convergence est quadratique : il existe
c > 0 tel que
∀k ≥ 0, k xk+1 − x∗ k ≤ ck xk − x∗ k2 .
ML k
k x k +1 − x ∗ k ≤ k x − x ∗ k2 .
2
Reste à trouver la boule stable. Par exemple, pour r = min(1/ML, R/2) nous vérifions
par récurrence que si x0 ∈ B(0, r) alors chaque terme de la suite ( xk ) est aussi dans cette
boule.
K = { x ∈ R n | g1 ( x) = 0, . . . , g p ( x) = 0 et h1 ( x) ≤ 0, . . . , hq ( x) ≤ 0}
alors
p q
L ( x, Λ, M ) = f ( x) + ∑ λi gi ( x) + ∑ µi hi ( x)
i =1 i =1
p q
∇x L ( x∗ , Λ, M ) = 0 ⇐⇒ ∇ f ( x∗ ) + ∑ λi ∇ gi ( x∗ ) + ∑ µi ∇hi ( x∗ ) = 0
i =1 i =1
gi ( x ∗ ) = 0 ; µi hi ( x ∗ ) = 0 et µi ≥ 0
Il s’agit d’un système de n + p + q équations à n + p + q inconnues.
[1] J.-M. A RNAUDI ÈS , H. F RAYSSE. Cours de mathématiques. 3. Dunod, Paris 1989.
Compléments d’analyse. [Complements of analysis].
[2] X. G OURDON. Les Maths en tête, mathématiques pour M’ : Analyse. Ellipses, Paris 1994.
[3] J.-B. H IRIART-U RRUTY. L’optimisation. Que sais-je ? PUF, Paris 1996.
43