0% found this document useful (0 votes)
25 views85 pages

Optimization For Data Analysis Stephen J Wright Benjamin Recht Instant Download

The document discusses the book 'Optimization for Data Analysis' by Stephen J. Wright and Benjamin Recht, which focuses on optimization techniques essential for data science and machine learning. It covers various optimization algorithms, including gradient methods, stochastic gradient methods, and approaches for constrained optimization problems. The authors, both esteemed professors in their fields, aim to provide a comprehensive understanding of optimization's role in data analysis, supported by practical applications and theoretical foundations.

Uploaded by

marmikgmh
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
25 views85 pages

Optimization For Data Analysis Stephen J Wright Benjamin Recht Instant Download

The document discusses the book 'Optimization for Data Analysis' by Stephen J. Wright and Benjamin Recht, which focuses on optimization techniques essential for data science and machine learning. It covers various optimization algorithms, including gradient methods, stochastic gradient methods, and approaches for constrained optimization problems. The authors, both esteemed professors in their fields, aim to provide a comprehensive understanding of optimization's role in data analysis, supported by practical applications and theoretical foundations.

Uploaded by

marmikgmh
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 85

Optimization For Data Analysis Stephen J Wright

Benjamin Recht download

https://ebookbell.com/product/optimization-for-data-analysis-
stephen-j-wright-benjamin-recht-42617428

Explore and download more ebooks at ebookbell.com


Here are some recommended products that we believe you will be
interested in. You can click the link to download.

Data Analysis And Optimization For Engineering And Computing Problems


Proceedings Of The 3rd Eai International Conference On Computer
Science And Engineering And Health Services 1st Ed Pandian Vasant

https://ebookbell.com/product/data-analysis-and-optimization-for-
engineering-and-computing-problems-proceedings-of-the-3rd-eai-
international-conference-on-computer-science-and-engineering-and-
health-services-1st-ed-pandian-vasant-22505734

Engineering Mathematics Ii Algebraic Stochastic And Analysis


Structures For Networks Data Classification And Optimization 1st
Edition Sergei Silvestrov

https://ebookbell.com/product/engineering-mathematics-ii-algebraic-
stochastic-and-analysis-structures-for-networks-data-classification-
and-optimization-1st-edition-sergei-silvestrov-5838406

Learning To Love Data Science Explorations Of Emerging Technologies


And Platforms For Predictive Analytics Machine Learning Digital
Manufacturing And Supply Chain Optimization Mike Barlow

https://ebookbell.com/product/learning-to-love-data-science-
explorations-of-emerging-technologies-and-platforms-for-predictive-
analytics-machine-learning-digital-manufacturing-and-supply-chain-
optimization-mike-barlow-23686416

Data Deduplication For Data Optimization For Storage And Network


Systems 1st Edition Daehee Kim

https://ebookbell.com/product/data-deduplication-for-data-
optimization-for-storage-and-network-systems-1st-edition-daehee-
kim-5675370
Source Code Optimization Techniques For Data Flow Dominated Embedded
Software 1st Edition Heiko Falk

https://ebookbell.com/product/source-code-optimization-techniques-for-
data-flow-dominated-embedded-software-1st-edition-heiko-falk-4190050

Ai For Data Science Artificial Intelligence Frameworks And


Functionality For Deep Learning Optimization And Beyond Zacharias
Voulgaris Phd Yunus Emrah Bulut

https://ebookbell.com/product/ai-for-data-science-artificial-
intelligence-frameworks-and-functionality-for-deep-learning-
optimization-and-beyond-zacharias-voulgaris-phd-yunus-emrah-
bulut-50200348

Ai For Data Science Artificial Intelligence Frameworks And


Functionality For Deep Learning Optimization And Beyond Zacharias
Voulgaris

https://ebookbell.com/product/ai-for-data-science-artificial-
intelligence-frameworks-and-functionality-for-deep-learning-
optimization-and-beyond-zacharias-voulgaris-11240018

Business Intelligence Data Mining And Optimization For Decision Making


1st Edition Carlo Vercellis

https://ebookbell.com/product/business-intelligence-data-mining-and-
optimization-for-decision-making-1st-edition-carlo-vercellis-1719914

Energy Efficient Servers Blueprints For Data Center Optimization 1st


Edition Corey Gough

https://ebookbell.com/product/energy-efficient-servers-blueprints-for-
data-center-optimization-1st-edition-corey-gough-5053214
Optimization for Data Analysis

Optimization techniques are at the core of data science, including data analysis and
machine learning. An understanding of basic optimization techniques and their
fundamental properties provides important grounding for students, researchers, and
practitioners in these areas This text covers the fundamentals of optimization
algorithms in a compact, self-contained way, focusing on the techniques most relevant
to data science An introductory chapter demonstrates that many standard problems in
data science can be formulated as optimization problems Next, many fundamental
methods in optimization are described and analyzed, including gradient and
accelerated gradient methods for unconstrained optimization of smooth (especially
convex) functions; the stochastic gradient method, a workhorse algorithm in machine
learning; the coordinate descent approach; several key algorithms for constrained
optimization problems; algorithms for minimizing nonsmooth functions arising in data
science; foundations of the analysis of nonsmooth functions and optimization duality;
and the back-propagation approach, relevant to neural networks.

s t e p h e n j . w r i g h t holds the George B. Dantzig Professorship, the Sheldon


Lubar Chair, and the Amar and Balinder Sohi Professorship of Computer Sciences at
the University of Wisconsin–Madison. He is a Discovery Fellow in the Wisconsin
Institute for Discovery and works in computational optimization and its applications to
data science and many other areas of science and engineering. Wright is also a fellow
of the Society for Industrial and Applied Mathematics (SIAM) and recipient of the
2014 W. R. G. Baker Award from IEEE for most outstanding paper, the 2020
Khachiyan Prize by the INFORMS Optimization Society for lifetime achievements in
optimization, and the 2020 NeurIPS Test of Time award. He is the author and coauthor
of widely used textbooks and reference books in optimization, including Primal Dual
Interior-Point Methods and Numerical Optimization
b e n j a m i n r e c h t is Associate Professor in the Department of Electrical
Engineering and Computer Sciences at the University of California, Berkeley His
research group studies how to make machine learning systems more robust to
interactions with a dynamic and uncertain world by using mathematical tools from
optimization, statistics, and dynamical systems Recht is the recipient of a Presidential
Early Career Award for Scientists and Engineers, an Alfred P Sloan Research
Fellowship, the 2012 SIAM/MOS Lagrange Prize in Continuous Optimization, the
2014 Jamon Prize, the 2015 William O Baker Award for Initiatives in Research, and
the 2017 and 2020 NeurIPS Test of Time awards.
Optimization for Data Analysis

STEPHEN J. WRIGHT
University of Wisconsin–Madison

B E N JA M I N R E C H T
University of California, Berkeley
University Printing House, Cambridge CB2 8BS, United Kingdom
One Liberty Plaza, 20th Floor, New York, NY 10006, USA
477 Williamstown Road, Port Melbourne, VIC 3207, Australia
314 321, 3rd Floor, Plot 3, Splendor Forum, Jasola District Centre,
New Delhi 110025, India
103 Penang Road, #05–06/07, Visioncrest Commercial, Singapore 238467

Cambridge University Press is part of the University of Cambridge.


It furthers the University’s mission by disseminating knowledge in the pursuit of
education, learning, and research at the highest international levels of excellence.

www.cambridge org
Information on this title: www.cambridge.org/9781316518984
DOI: 10 1017/9781009004282
© Stephen J. Wright and Benjamin Recht 2022
This publication is in copyright. Subject to statutory exception
and to the provisions of relevant collective licensing agreements,
no reproduction of any part may take place without the written
permission of Cambridge University Press.
First published 2022
Printed in the United Kingdom by TJ Books Ltd, Padstow Cornwall
A catalogue record for this publication is available from the British Library.
Library of Congress Cataloging-in-Publication Data
Names: Wright, Stephen J , 1960– author | Recht, Benjamin, author
Title: Optimization for data analysis / Stephen J. Wright and Benjamin Recht.
Description: New York : Cambridge University Press, [2021] | Includes
bibliographical references and index.
Identifiers: LCCN 2021028671 (print) | LCCN 2021028672 (ebook) |
ISBN 9781316518984 (hardback) | ISBN 9781009004282 (epub)
Subjects: LCSH: Big data | Mathematical optimization. | Quantitative
research. | Artificial intgelligence. | BISAC: MATHEMATICS / General |
MATHEMATICS / General
Classification: LCC QA76.9.B45 W75 2021 (print) | LCC QA76.9.B45 (ebook)
| DDC 005.7–dc23
LC record available at https://lccn.loc.gov/2021028671
LC ebook record available at https://lccn.loc.gov/2021028672
ISBN 978-1-316-51898-4 Hardback
Cambridge University Press has no responsibility for the persistence or accuracy of
URLs for external or third-party internet websites referred to in this publication
and does not guarantee that any content on such websites is, or will remain,
accurate or appropriate.

Cover image courtesy of © Isaac Sparks


Contents

Preface page ix

1 Introduction 1
1.1 Data Analysis and Optimization 1
1.2 Least Squares 4
1.3 Matrix Factorization Problems 5
1.4 Support Vector Machines 6
1.5 Logistic Regression 9
1.6 Deep Learning 11
1.7 Emphasis 13
2 Foundations of Smooth Optimization 15
2.1 A Taxonomy of Solutions to Optimization Problems 15
2.2 Taylor’s Theorem 16
2.3 Characterizing Minima of Smooth Functions 18
2.4 Convex Sets and Functions 20
2.5 Strongly Convex Functions 22
3 Descent Methods 26
3.1 Descent Directions 27
3.2 Steepest-Descent Method 28
3.2.1 General Case 28
3.2.2 Convex Case 29
3.2.3 Strongly Convex Case 30
3.2.4 Comparison between Rates 32
3.3 Descent Methods: Convergence 33
3.4 Line-Search Methods: Choosing the Direction 36
3.5 Line-Search Methods: Choosing the Steplength 38

v
vi Contents

3.6 Convergence to Approximate Second-Order Necessary Points 42


3.7 Mirror Descent 44
3.8 The KL and PL Properties 51
4 Gradient Methods Using Momentum 55
4.1 Motivation from Differential Equations 56
4.2 Nesterov’s Method: Convex Quadratics 58
4.3 Convergence for Strongly Convex Functions 62
4.4 Convergence for Weakly Convex Functions 66
4.5 Conjugate Gradient Methods 68
4.6 Lower Bounds on Convergence Rates 70
5 Stochastic Gradient 75
5.1 Examples and Motivation 76
5.1.1 Noisy Gradients 76
5.1.2 Incremental Gradient Method 77
5.1.3 Classification and the Perceptron 77
5.1.4 Empirical Risk Minimization 78
5.2 Randomness and Steplength: Insights 80
5.2.1 Example: Computing a Mean 80
5.2.2 The Randomized Kaczmarz Method 82
5.3 Key Assumptions for Convergence Analysis 85
5.3.1 Case 1: Bounded Gradients: Lg = 0 86
5.3.2 Case 2: Randomized Kaczmarz: B = 0, Lg > 0 86
5.3.3 Case 3: Additive Gaussian Noise 86
5.3.4 Case 4: Incremental Gradient 87
5.4 Convergence Analysis 87
5.4.1 Case 1: Lg = 0 89
5.4.2 Case 2: B = 0 90
5.4.3 Case 3: B and Lg Both Nonzero 92
5.5 Implementation Aspects 93
5.5.1 Epochs 93
5.5.2 Minibatching 94
5.5.3 Acceleration Using Momentum 94
6 Coordinate Descent 100
6.1 Coordinate Descent in Machine Learning 101
6.2 Coordinate Descent for Smooth Convex Functions 103
6.2.1 Lipschitz Constants 104
6.2.2 Randomized CD: Sampling with Replacement 105
6.2.3 Cyclic CD 110
Contents vii

6.2.4 Random Permutations CD: Sampling without


Replacement 112
6.3 Block-Coordinate Descent 113
7 First-Order Methods for Constrained Optimization 118
7.1 Optimality Conditions 118
7.2 Euclidean Projection 120
7.3 The Projected Gradient Algorithm 122
7.3.1 General Case: A Short-Step Approach 123
7.3.2 General Case: Backtracking 124
7.3.3 Smooth Strongly Convex Case 125
7.3.4 Momentum Variants 126
7.3.5 Alternative Search Directions 126
7.4 The Conditional Gradient (Frank–Wolfe) Method 127
8 Nonsmooth Functions and Subgradients 132
8.1 Subgradients and Subdifferentials 134
8.2 The Subdifferential and Directional Derivatives 137
8.3 Calculus of Subdifferentials 141
8.4 Convex Sets and Convex Constrained Optimization 144
8.5 Optimality Conditions for Composite Nonsmooth Functions 146
8.6 Proximal Operators and the Moreau Envelope 148
9 Nonsmooth Optimization Methods 153
9.1 Subgradient Descent 155
9.2 The Subgradient Method 156
9.2.1 Steplengths 158
9.3 Proximal-Gradient Algorithms for Regularized Optimization 160
9.3.1 Convergence Rate for Convex f 162
9.4 Proximal Coordinate Descent for Structured Nonsmooth
Functions 164
9.5 Proximal Point Method 167
10 Duality and Algorithms 170
10.1 Quadratic Penalty Function 170
10.2 Lagrangians and Duality 172
10.3 First-Order Optimality Conditions 174
10.4 Strong Duality 178
10.5 Dual Algorithms 179
10.5.1 Dual Subgradient 179
10.5.2 Augmented Lagrangian Method 180
viii Contents

10.5.3 Alternating Direction Method of Multipliers 181


10.6 Some Applications of Dual Algorithms 182
10.6.1 Consensus Optimization 182
10.6.2 Utility Maximization 184
10.6.3 Linear and Quadratic Programming 185
11 Differentiation and Adjoints 188
11.1 The Chain Rule for a Nested Composition of Vector Functions 188
11.2 The Method of Adjoints 190
11.3 Adjoints in Deep Learning 191
11.4 Automatic Differentiation 192
11.5 Derivations via the Lagrangian and Implicit Function Theorem 195
11.5.1 A Constrained Optimization Formulation of the
Progressive Function 195
11.5.2 A General Perspective on Unconstrained and
Constrained Formulations 197
11.5.3 Extension: Control 197
Appendix 200
A.1 Definitions and Basic Concepts 200
A.2 Convergence Rates and Iteration Complexity 203
A.3 Algorithm 3.1 Is an Effective Line-Search Technique 204
A.4 Linear Programming Duality, Theorems of the Alternative 205
A.5 Limiting Feasible Directions 208
A.6 Separation Results 209
A.7 Bounds for Degenerate Quadratic Functions 213

Bibliography 216
Index 223
Preface

Optimization formulations and algorithms have long played a central role in


data analysis and machine learning. Maximum likelihood concepts date to
Gauss and Laplace in the late 1700s; problems of this type drove developments
in unconstrained optimization in the latter half of the 20th century. Man-
gasarian’s papers in the 1960s on pattern separation using linear programming
made an explicit connection between machine learning and optimization in the
early days of the former subject. During the 1990s, optimization techniques
(especially quadratic programming and duality) were key to the development
of support vector machines and kernel learning. The period 1997–2010 saw
many synergies emerge between regularized / sparse optimization, variable
selection, and compressed sensing. In the current era of deep learning, two
optimization techniques—stochastic gradient and automatic differentiation
(a.k.a. back-propagation)—are essential.
This book is an introduction to the basics of continuous optimization, with
an emphasis on techniques that are relevant to data analysis and machine
learning. We discuss basic algorithms, with analysis of their convergence
and complexity properties, mostly (though not exclusively) for the case of
convex problems. An introductory chapter provides an overview of the use of
optimization in modern data analysis, and the final chapter on differentiation
provides several perspectives on gradient calculation for functions that arise in
deep learning and control. The chapters in between discuss gradient methods,
including accelerated gradient and stochastic gradient; coordinate descent
methods; gradient methods for problems with simple constraints; theory and
algorithms for problems with convex nonsmooth terms; and duality based
methods for constrained optimization problems. The material is suitable for a
one-quarter or one-semester class at advanced undergraduate or early graduate
level. We and our colleagues have made extensive use of drafts of this material
in the latter setting.

ix
x Preface

This book has been a work in progress since about 2010, when we began
to revamp our optimization courses, trying to balance the viewpoints of
practical optimization techniques against renewed interest in non-asymptotic
analyses of optimization algorithms. At that time, the flavor of analysis of
optimization algorithms was shifting to include a greater emphasis on worst-
case complexity. But algorithms were being judged more by their worst-case
bounds rather than by their performance on practical problems in applied
sciences. This book occupies a middle ground between analysis and practice.
Beginning with our courses CS726 and CS730 at University of Wisconsin,
we began writing notes, problems, and drafts. After Ben moved to UC Berkeley
in 2013, these notes became the core of the class EECS227C. Our material
drew heavily from the evolving theoretical understanding of optimization
algorithms. For instance, in several parts of the text, we have made use of the
excellent slides written and refined over many years by Lieven Vandenberghe
for the UCLA course ECE236C. Our presentation of accelerated methods
reflects a trend in viewing optimization algorithms as dynamical systems,
and was heavily influenced by collaborative work with Laurent Lessard and
Andrew Packard. In choosing what material to include, we tried to not be
distracted by methods that are not widely used in practice but also to highlight
how theory can guide algorithm selection and design by applied researchers.
We are indebted to many other colleagues whose input shaped the material
in this book. Moritz Hardt initially inspired us to try to write down our views
after we presented a review of optimization algorithms at the bootcamp for
the Simons Institute Program on Big Data in Fall 2013. He has subsequently
provided feedback on the presentation and organization of drafts of this
book. Ashia Wilson was Ben’s TA in EECS227C, and her input and notes
helped us to clarify our pedagogical messages in several ways. More recently,
Martin Wainwright taught EECS227C and provided helpful feedback, and
Jelena Diakonikolas provided corrections for the early chapters after she
taught CS726. André Wibisono provided perspectives on accelerated gradient
methods, and Ching pei Lee gave useful advice on coordinate descent. We are
also indebted to the many students who took CS726 and CS730 at Wisconsin
and EECS227C at Berkeley who found typos and beta tested homework
problems, and who continue to make this material a joy to teach. Finally,
we would like to thank the Simons Institute for supporting us on multiple
occasions, including Fall 2017 when we both participated in their program
on Optimization.

Madison, Wisconsin, USA


Berkeley, California, USA
1
Introduction

This book is about the fundamentals of algorithms for solving continuous


optimization problems, which involve minimizing functions of multiple real-
valued variables, possibly subject to some restrictions or constraints on the
values that those variables may take. We focus particularly (though not
exclusively) on convex problems, and our choice of topics is motivated by
relevance to data science. That is, the formulations and algorithms that we
discuss are useful in solving problems from machine learning, statistics, and
data analysis.
To set the stage for subsequent chapters, the rest of this chapter outlines
several paradigms from data science and shows how they can be formulated
as continuous optimization problems. We must pay attention to particular
properties of these formulations their smoothness properties and structure
when we choose algorithms to solve them.

1.1 Data Analysis and Optimization


The typical optimization problem in data analysis is to find a model that agrees
with some collected data set but also adheres to some structural constraints that
reflect our beliefs about what a good model should be. The data set in a typical
analysis problem consists of m objects:
D := {(aj ,yj ), j = 1,2, . . . ,m}, (1.1)
where aj is a vector (or matrix) of features and yj is an observation or label.
(We can assume that the data has been cleaned so that all pairs (aj ,yj ), j =
1,2, . . . ,m have the same size and shape.) The data analysis task then consists
of discovering a function φ such that φ(aj ) ≈ yj for most j = 1,2, . . . ,m. The
process of discovering the mapping φ is often called “learning” or “training.”

1
2 1 Introduction

The function φ is often defined in terms of a vector or matrix of parameters,


which we denote in what follows by x or X (and occasionally by other
notation). With these parametrizations, the problem of identifying φ becomes
a traditional data-fitting problem: Find the parameters x defining φ such that
φ(aj ) ≈ yj , j = 1,2, . . . ,m in some optimal sense. Once we come up with
a definition of the term “optimal” (and possibly also with restrictions on the
values that we allow to parameters to take), we have an optimization problem.
Frequently, these optimization formulations have objective functions of the
finite sum type

1 
m
LD (x) := (aj ,yj ;x). (1.2)
m
j =1

The function (a,y;x) here represents a “loss” incurred for not properly
aligning our prediction φ(a) with y. Thus, the objective LD (x) measures the
average loss accrued over the entire data set when the parameter vector is
equal to x.
Once an appropriate value of x (and thus φ) has been learned from the data,
we can use it to make predictions about other items of data not in the set D
(1.1). Given an unseen item of data â of the same type as aj , j = 1,2, . . . ,m,
we predict the label ŷ associated with â to be φ(â). The mapping φ may also
expose other structures and properties in the data set. For example, it may
reveal that only a small fraction of the features in aj are needed to reliably
predict the label yj . (This is known as feature selection.) When the parameter
x is a matrix, it could reveal a low-dimensional subspace that contains most of
the vectors aj , or it could reveal a matrix with particular structure (low-rank,
sparse) such that observations of X prompted by the feature vectors aj yield
results close to yj .
The form of the labels yj differs according to the nature of the data analysis
problem.

• If each yj is a real number, we typically have a regression problem.


• When each yj is a label, that is, an integer drawn from the set {1,2, . . . ,M}
indicating that aj belongs to one of M classes, this is a classification
problem. When M = 2, we have a binary classification problem, whereas
M > 2 is multiclass classification. (In data analysis problems arising in
speech and image recognition, M can be very large, of the order of
thousands or more.)
• The labels yj may not even exist; the data set may contain only the feature
vectors aj , j = 1,2, . . . ,m. There are still interesting data analysis
problems associated with these cases. For example, we may wish to group
1.1 Data Analysis and Optimization 3

the aj into clusters (where the vectors within each cluster are deemed to be
functionally similar) or identify a low-dimensional subspace (or a
collection of low-dimensional subspaces) that approximately contains the
aj . In such problems, we are essentially learning the labels yj alongside the
function φ. For example, in a clustering problem, yj could represent the
cluster to which aj is assigned.

Even after cleaning and preparation, the preceding setup may contain many
complications that need to be dealt with in formulating the problem in rigorous
mathematical terms. The quantities (aj ,yj ) may contain noise or may be
otherwise corrupted, and we would like the mapping φ to be robust to such
errors. There may be missing data: Parts of the vectors aj may be missing,
or we may not know all the labels yj . The data may be arriving in streaming
fashion rather than being available all at once. In this case, we would learn φ
in an online fashion.
One consideration that arises frequently is that we wish to avoid overfitting
the model to the data set D in (1.1). The particular data set D available to us
can often be thought of as a finite sample drawn from some underlying larger
(perhaps infinite) collection of possible data points, and we wish the function φ
to perform well on the unobserved data points as well as the observed subset D.
In other words, we want φ to be not too sensitive to the particular sample D that
is used to define empirical objective functions such as (1.2). One way to avoid
this issue is to modify the objective function by adding constraints or penalty
terms, in a way that limits the “complexity” of the function φ. This process is
typically called regularization. An optimization formulation that balances fit
to the training data D, model complexity, and model structure is
min LD (x) + λ pen(x), (1.3)
x∈

where  is a set of allowable values for x, pen(·) is a regularization function or


regularizer, and λ ≥ 0 is a regularization parameter. The regularizer usually
takes lower values for parameters x that yield functions φ with lower complex-
ity. (For example, φ may depend on fewer of the features in the data vectors
aj or may be less oscillatory.) The parameter λ can be “tuned” to provide an
appropriate balance between fitting the data and lowering the complexity of φ:
Smaller values of λ tend to produce solutions that fit the training data D more
accurately, while large values of λ lead to less complex models.1

1 Interestingly, the concept of overfitting has been reexamined in recent years, particularly in the
context of deep learning, where models that perfectly fit the training data are sometimes
observed to also do a good job of classifying previously unseen data. This phenomenon is a
topic of intense current research in the machine learning community.
4 1 Introduction

The constraint set  in (1.3) may be chosen to exclude values of x that are
not relevant or useful in the context of the data analysis problem. For example,
in some applications, we may not wish to consider values of x in which one
or more components are negative, so we could set  to be the set of vectors
whose components are all greater than or equal to zero.
We now examine some particular problems in data science that give rise to
formulations that are special cases of our master problem (1.3). We will see that
a large variety of problems can be formulated using this general framework, but
we will also see that within this framework, there is a wide range of structures
that must be taken into account in choosing algorithms to solve these problems
efficiently.

1.2 Least Squares


Probably the oldest and best known data analysis problem is linear least
squares. Here, the data points (aj ,yj ) lie in Rn × R, and we solve

1  T 2
m
1
min aj x yj = Ax y22, (1.4)
x 2m 2m
j =1

where A the matrix whose rows are ajT , j = 1,2, . . . ,m and y =


(y1,y2, . . . ,ym )T . In the preceding terminology, the function φ is defined
by φ(a) := a T x. (We can introduce a nonzero intercept by adding an extra
parameter β ∈ R and defining φ(a) := a T x + β.) This formulation can
be motivated statistically, as a maximum-likelihood estimate of x when the
observations yj are exact but for independent identically distributed (i.i.d.)
Gaussian noise. We can add a variety of penalty functions to this basic least
squares problem to impose desirable structure on x and, hence, on φ. For
example, ridge regression adds a squared 2 -norm penalty, resulting in
1
min Ax y22 + λx22, for some parameter λ > 0.
x 2m
The solution x of this regularized formulation has less sensitivity to perturba-
tions in the data (aj ,yj ). The LASSO formulation
1
min Ax y22 + λx1 (1.5)
x 2m
tends to yield solutions x that are sparse – that is, containing relatively
few nonzero components (Tibshirani, 1996). This formulation performs
feature selection: The locations of the nonzero components in x reveal those
1.3 Matrix Factorization Problems 5

components of aj that are instrumental in determining the observation yj .


Besides its statistical appeal – predictors that depend on few features are
potentially simpler and more comprehensible than those depending on many
features – feature selection has practical appeal in making predictions about
future data. Rather than gathering all components of a new data vector â, we
need to find only the “selected” features because only these are needed to make
a prediction.
The LASSO formulation (1.5) is an important prototype for many problems
in data analysis in that it involves a regularization term λx1 that is non-
smooth and convex but has relatively simple structure that can potentially be
exploited by algorithms.

1.3 Matrix Factorization Problems


There are a variety of data analysis problems that require estimating a low-rank
matrix from some sparse collection of data. Such problems can be formulated
as natural extension of least squares to problems in which the data aj are
naturally represented as matrices rather than vectors.
Changing notation slightly, we suppose that each Aj is an n × p matrix, and
we seek another n × p matrix X that solves

1 
m
min (Aj ,X yj )2, (1.6)
X 2m
j =1

where A,B := trace(AT B). Here we can think of the Aj as “probing” the
unknown matrix X. Commonly considered types of observations are random
linear combinations (where the elements of Aj are selected i.i.d. from some
distribution) or single element observations (in which each Aj has 1 in a
single location and zeros elsewhere). A regularized version of (1.6), leading
to solutions X that are low rank, is
1 
m
min (Aj ,X yj )2 + λX∗, (1.7)
X 2m
j =1

where X∗ is the nuclear norm, which is the sum of singular values of X
(Recht et al., 2010). The nuclear norm plays a role analogous to the 1 norm in
(1.5), where as the 1 norm favors sparse vectors, the nuclear norm favors low-
rank matrices. Although the nuclear norm is a somewhat complex nonsmooth
function, it is at least convex so that the formulation (1.7) is also convex. This
formulation can be shown to yield a statistically valid solution when the true
6 1 Introduction

X is low rank and the observation matrices Aj satisfy a “restricted isometry


property,” commonly satisfied by random matrices but not by matrices with
just one nonzero element. The formulation is also valid in a different context,
in which the true X is incoherent (roughly speaking, it does not have a few
elements that are much larger than the others), and the observations Aj are of
single elements (Candès and Recht, 2009).
In another form of regularization, the matrix X is represented explicitly as
a product of two “thin” matrices L and R, where L ∈ Rn×r and R ∈ Rp×r ,
with r min(n,p). We set X = LR T in (1.6) and solve

1 
m
min (Aj ,LR T  − yj )2 . (1.8)
L,R 2m
j =1

In this formulation, the rank r is “hard wired” into the definition of X, so


there is no need to include a regularizing term. This formulation is also
typically much more compact than (1.7); the total number of elements in
(L,R) is (n + p)r, which is much less than np. However, this function is
nonconvex when considered as a function of (L,R) jointly. An active line of
current research, pioneered by Burer and Monteiro (2003) and also drawing on
statistical sources, shows that the nonconvexity is benign in many situations
and that, under certain assumptions on the data (Aj ,yj ), j = 1,2, . . . ,m and
careful choice of algorithmic strategy, good solutions can be obtained from the
formulation (1.8). A clue to this good behavior is that although this formulation
is nonconvex, it is in some sense an approximation to a tractable problem: If we
have a complete observation of X, then a rank-r approximation can be found
by performing a singular value decomposition of X and defining L and R in
terms of the r leading left and right singular vectors.
Some applications in computer vision, chemometrics, and document clus-
tering require us to find factors L and R like those in (1.8) in which all elements
are nonnegative. If the full matrix Y ∈ Rn×p is observed, this problem has the
form

min LR T Y 2F , subject to L ≥ 0, R ≥ 0


L,R

and is called nonnegative matrix factorization.

1.4 Support Vector Machines


Classification via support vector machines (SVM) is a classical optimization
problem in machine learning, tracing its origins to the 1960s. Given the input
1.4 Support Vector Machines 7

data (aj ,yj ) with aj ∈ Rn and yj ∈ { 1,1}, SVM seeks a vector x ∈ Rn and
a scalar β ∈ R such that

ajT x β≥1 when yj = +1, (1.9a)


ajT x β≤ 1 when yj = 1. (1.9b)

Any pair (x,β) that satisfies these conditions defines a separating hyperplane
in Rn , that separates the “positive” cases {aj | yj = +1} from the “negative”
cases {aj | yj = −1}. Among all separating hyperplanes, the one that
minimizes x2 is the one that maximizes the margin between the two classes –
that is, the hyperplane whose distance to the nearest point aj of either class is
greatest.
We can formulate the problem of finding a separating hyperplane as an
optimization problem by defining an objective with the summation form (1.2):

1 
m
H (x,β) = max(1 − yj (ajT x − β),0). (1.10)
m
j =1

Note that the j th term in this summation is zero if the conditions (1.9) are
satisfied, and it is positive otherwise. Even if no pair (x,β) exists for which
H (x,β) = 0, a value (x,β) that minimizes (1.2) will be the one that comes
as close as possible to satisfying (1.9) in some sense. A term λx22 (for some
parameter λ > 0) is often added to (1.10), yielding the following regularized
version:

1 
m
1
H (x,β) = max(1 yj (ajT x β),0) + λx22 . (1.11)
m 2
j =1

Note that, in contrast to the examples presented so far, the SVM problem has
a nonsmooth loss function and a smooth regularizer.
If λ is sufficiently small, and if separating hyperplanes exist, the pair
(x,β) that minimizes (1.11) is the maximum-margin separating hyperplane.
The maximum-margin property is consistent with the goals of generalizability
and robustness. For example, if the observed data (aj ,yj ) is drawn from
an underlying “cloud” of positive and negative cases, the maximum-margin
solution usually does a reasonable job of separating other empirical data
samples drawn from the same clouds, whereas a hyperplane that passes close
to several of the observed data points may not do as well (see Figure 1.1).
Often, it is not possible to find a hyperplane that separates the positive
and negative cases well enough to be useful as a classifier. One solution is
to transform all of the raw data vectors aj by some nonlinear mapping ψ and
1.5 Logistic Regression 9

and Vapnik, 1995). This is the so-called kernel trick. (The kernel function K
can also be used to construct a classification function φ from the solution of
(1.14).) A particularly popular choice of kernel is the Gaussian kernel:
 
1
K(ak ,al ) := exp ak al 2 ,

where σ is a positive parameter.

1.5 Logistic Regression


Logistic regression can be viewed as a softened form of binary support vector
machine classification in which, rather than the classification function φ giving
a unqualified prediction of the class in which a new data vector a lies, it returns
an estimate of the odds of a belonging to one class or the other. We seek an
“odds function” p parametrized by a vector x ∈ Rn ,
p(a;x) := (1 + exp(a T x)) 1, (1.15)
and aim to choose the parameter x in so that
p(aj ;x) ≈ 1 when yj = +1; (1.16a)
p(aj ;x) ≈ 0 when yj = 1. (1.16b)
(Note the similarity to (1.9).) The optimal value of x can be found by
minimizing a negative-log likelihood function:
⎡ ⎤
1 ⎣  
L(x) := − log(1 − p(aj ;x)) + log p(aj ;x)⎦ . (1.17)
m
j :yj =−1 j :yj =1

Note that the definition (1.15) ensures that p(a;x) ∈ (0,1) for all a and x;
thus, log(1 p(aj ;x)) < 0 and log p(aj ;x) < 0 for all j and all x. When the
conditions (1.16) are satisfied, these log terms will be only slightly negative,
so values of x that satisfy (1.17) will be near optimal.
We can perform feature selection using the model (1.17) by introducing a
regularizer λx1 (as in the LASSO technique for least squares (1.5)),
⎡ ⎤
1 ⎣  
min log(1 p(aj ;x)) + log p(aj ;x)⎦ + λx1,
x m
j :yj =−1 j :yj =1
(1.18)
where λ > 0 is a regularization parameter. As we see later, this term has
the effect of producing a solution in which few components of x are nonzero,
10 1 Introduction

making it possible to evaluate p(a;x) by knowing only those components of a


that correspond to the nonzeros in x.
An important extension of this technique is to multiclass (or multinomial)
logistic regression, in which the data vectors aj belong to more than two
classes. Such applications are common in modern data analysis. For example,
in a speech recognition system, the M classes could each represent a phoneme
of speech, one of the potentially thousands of distinct elementary sounds
that can be uttered by humans in a few tens of milliseconds. A multinomial
logistic regression problem requires a distinct odds function pk for each class
k ∈ {1,2, . . . ,M}. These functions are parametrized by vectors x[k] ∈ Rn ,
k = 1,2, . . . ,M, defined as follows:

exp(a T x[k] )
pk (a;X) := M
, k = 1,2, . . . ,M, (1.19)
T
l=1 exp(a x[l] )

where we define X := {x[k] | k = 1,2, . . . ,M}. As in the binary case, we


have pk (a) ∈ (0,1) for all a and all k = 1,2, . . . ,M and, in addition, that
M
k=1 pk (a) = 1. The functions (1.19) perform a “softmax” on the quantities
{a x[l] | l = 1,2, . . . ,M}.
T

In the setting of multiclass logistic regression, the labels yj are vectors in


R M whose elements are defined as follows:

1 when aj belongs to class k,


yj k = (1.20)
0 otherwise.

Similarly to (1.16), we seek to define the vectors x[k] so that

pk (aj ;X) ≈ 1 when yj k = 1 (1.21a)


pk (aj ;X) ≈ 0 when yj k = 0. (1.21b)

The problem of finding values of x[k] that satisfy these conditions can again be
formulated as one of minimizing a negative-log likelihood:
 
1   
m M M
T T
L(X) := yj  (x[] aj ) log exp(x[] aj ) . (1.22)
m
j =1 =1 =1

“Group-sparse” regularization terms can be included in this formulation to


select a set of features in the vectors aj , common to each class, that distinguish
effectively between the classes.
1.6 Deep Learning 11

1.6 Deep Learning


Deep neural networks are often designed to perform the same function as
multiclass logistic regression – that is, to classify a data vector a into one of M
possible classes, often for large M. The major innovation is that the mapping
φ from data vector to prediction is now a nonlinear function, explicitly
parametrized by a set of structured transformations.
The neural network shown in Figure 1.2 illustrates the structure of a particu
lar neural net. In this figure, the data vector aj enters at the left of the network,
and each box (more often referred to as a “layer”) represents a transformation
that takes an input vector and applies a nonlinear transformation of the data
to produce an output vector. The output of each operator becomes the input
for one or more subsequent layers. Each layer has a set of its own parameters,
and the collection of all of the parameters over all the layers comprises our
optimization variable. The different shades of boxes here denote the fact that
the types of transformations might differ between layers, but we can compose
them in whatever fashion suits our application.
A typical transformation, which converts the vector ajl−1 representing
output from layer l 1 to the vector ajl representing output from layer l, is

ajl = σ (W l ajl−1 + g l ), (1.23)

where W l is a matrix of dimension |ajl |×|ajl−1 | and g l is a vector of length |ajl |.


The function σ is a componentwise nonlinear transformation, usually called an
activation function. The most common forms of the activation function σ act
independently on each component of their argument vector as follows:
−t
- Sigmoid: t → 1/(1 + e );
- Rectified Linear Unit (ReLU): t → max(t,0).
Alternative transformations are needed when the input to box l comes from
two or more preceding boxes (as in the case for some boxes in Figure 1.2).
The rightmost layer of the neural network (the output layer) typically has M
outputs, one for each of the possible classes to which the input (aj , say) could
belong. These are compared to the labels yj k , defined as in (1.20) to indicate
which of the M classes that aj belongs to. Often, a softmax is applied to the

Figure 1.2 A deep neural network, showing connections between adjacent layers,
where each layer is represented by a shaded rectangle.
12 1 Introduction

outputs in the rightmost layer, and a loss function similar to (1.22) is obtained,
as we describe now.
Consider the special (but not uncommon) case in which the neural net
structure is a linear graph of D levels, in which the output for layer l 1
becomes the input for layer l (for l = 1,2, . . . ,D) with aj = aj0 , j =
1,2, . . . ,m, and the transformation within each box has the form (1.23). A
softmax is applied to the output of the rightmost layer to obtain a set of odds.
The parameters in this neural network are the matrix vector pairs (W l ,g l ),
l = 1,2, . . . ,D that transform the input vector aj = aj0 into the output ajD of
the final layer. We aim to choose all these parameters so that the network does
a good job of classifying the training data correctly. Using the notation w for
the layer to layer transformations, that is,

w := (W 1,g 1,W 2,g 2, . . . ,W D ,g D ),

we can write the loss function for deep learning as


M 
1   
m M
L(w) = − yj  aj, (w) − log
D D
exp aj, (w) , (1.24)
m
j =1 =1 =1

D (w) ∈ R is the output of the th element in layer D corresponding to


where aj,
input vector aj0 . (Here we write aj,
D (w) to make explicit the dependence on the

transformations w as well as on the input vector aj .) We can view multiclass


logistic regression as a special case of deep learning with D = 1, so that
1 = W 1 a 0 , where W 1 denotes row  of the matrix W 1 .
aj, ,· j ,·
Neural networks in use for particular applications (for example, in image
recognition and speech recognition, where they have been quite successful)
include many variants on the basic design. These include restricted connectiv-
ity between the boxes (which corresponds to enforcing sparsity structure on the
matrices W l , l = 1,2, . . . ,D) and sharing parameters, which corresponds to
forcing subsets of the elements of W l to take the same value. Arrangements of
the boxes may be quite complex, with outputs coming from several layers, con
nections across nonadjacent layers, different componentwise transformations
σ at different layers, and so on. Deep neural networks for practical applications
are highly engineered objects.
The loss function (1.24) shares with many other applications the finite sum
form (1.2), but it has several features that set it apart from the other applications
discussed before. First, and possibly most important, it is nonconvex in the
parameters w. Second, the total number of parameters in w is usually very
large. Effective training of deep learning classifiers typically requires a great
deal of data and computation power. Huge clusters of powerful computers –
1.7 Emphasis 13

often using multicore processors, GPUs, and even specially architected pro-
cessing units – are devoted to this task.

1.7 Emphasis
Many problems can be formulated as in the framework (1.3), and their
properties may differ significantly. They might be convex or nonconvex, and
smooth or nonsmooth. But there are important features that they all share.

• They can be formulated as functions of real variables, which we typically


arrange in a vector of length n.
• The functions are continuous. When nonsmoothness appears in the
formulation, it does so in a structured way that can be exploited by the
algorithm. Smoothness properties allow an algorithm to make good
inferences about the behavior of the function on the basis of knowledge
gained at nearby points that have been visited previously.
• The objective is often made up in part of a summation of many terms,
where each term depends on a single item of data.
• The objective is often a sum of two terms: a “loss term” (sometimes arising
from a maximum likelihood expression for some statistical model) and a
“regularization term” whose purpose is to impose structure and
“generalizability” on the recovered model.

Our treatment emphasizes algorithms for solving these various kinds of


problems, with analysis of the convergence properties of these algorithms. We
pay attention to complexity guarantees, which are bounds on the amount of
computational effort required to obtain solutions of a given accuracy. These
bounds usually depend on fundamental properties of the objective function
and the data that defines it, including the dimensions of the data set and the
number of variables in the problem. This emphasis contrasts with much of
the optimization literature, in which global convergence results do not usually
involve complexity bounds. (A notable exception is the analysis of interior
point methods (see Nesterov and Nemirovskii, 1994; Wright, 1997)).
At the same time, we try as much as possible to emphasize the practical
concerns associated with solving these problems. There are a variety of trade-
offs presented by any problem, and the optimizer has to evaluate which tools
are most appropriate to use. On top of the problem formulation, it is imperative
to account for the time budget for the task at hand, the type of computer
on which the problem will be solved, and the guarantees needed for the
14 1 Introduction

solution to be useful in the application that gave rise to the problem. Worst-case
complexity guarantees are only a piece of the story here, and understanding the
various parameters and heuristics that form part of any practical algorithmic
strategy are critical for building reliable solvers.

Notes and References


The softmax operator is ubiquitous in problems involving multiple classes.
Given real numbers z1,z2, . . . ,zM , we define pj = ezj / M zi
i=1 e and note
M
that pj ∈ (0,1) for all j , and j =1 pj = 1. Moreover, if for some j we have
zj maxij zi , then pj ≈ 1 while pi ≈ 0 for all i  j .
The examples in this chapter are adapted from an article by one of the
authors (Wright, 2018).
2
Foundations of Smooth Optimization

We outline here the foundations of the algorithms and theory discussed in


later chapters. These foundations include a review of Taylor’s theorem and its
consequences that form the basis of much of smooth nonlinear optimization.
We also provide a concise review of elements of convex analysis that will be
used throughout the book.

2.1 A Taxonomy of Solutions to Optimization Problems


Before we can begin designing algorithms, we must determine what it means
to solve an optimization problem. Suppose that f is a function mapping some
domain D = dom (f ) ⊂ Rn to the real line R. We have the following
definitions.
∗ ∗
• x ∈ D is a local minimizer of f if there is a neighborhood N of x such

that f (x) ≥ f (x ) for all x ∈ N ∩ D.
∗ ∗
• x ∈ D is a global minimizer of f if f (x) ≥ f (x ) for all x ∈ D.

• x ∈ D is a strict local minimizer if it is a local minimizer for some
neighborhood N of x ∗ and, in addition, f (x) > f (x ∗ ) for all x ∈ N with
x  x∗.
∗ ∗
• x is an isolated local minimizer if there is a neighborhood N of x such

that f (x) ≥ f (x ) for all x ∈ N ∩ D and, in addition, N contains no local
minimizers other than x ∗ .

• x is the unique minimizer if it is the only global minimizer.
For the constrained optimization problem

min f (x), (2.1)


x∈

15
16 2 Foundations of Smooth Optimization

where  ⊂ D ⊂ Rn is a closed set, we modify the terminology slightly to use


the word “solution” rather than “minimizer.” That is, we have the following
definitions.
∗ ∗
• x ∈  is a local solution of (2.1) if there is a neighborhood N of x such
that f (x) ≥ f (x ∗ ) for all x ∈ N ∩ .
∗ ∗
• x ∈  is a global solution of (2.1) if f (x) ≥ f (x ) for all x ∈ .
One of the immediate challenges is to provide a simple means of deter-
mining whether a particular point is a local or global solution. To do so, we
introduce a powerful tool from calculus: Taylor’s theorem. Taylor’s theorem is
the most important theorem in all of continuous optimization, and we review
it next.

2.2 Taylor’s Theorem


Taylor’s theorem shows how smooth functions can be approximated locally by
polynomials that depend on low-order derivatives of f .
Theorem 2.1 Given a continuously differentiable function f : Rn → R, and
given x,p ∈ Rn , we have that
 1
f (x + p) = f (x) + ∇f (x + γp)T p dγ , (2.2)
0
f (x + p) = f (x) + ∇f (x + γp)T p, some γ ∈ (0,1). (2.3)
If f is twice continuously differentiable, we have
 1
∇f (x + p) = ∇f (x) + ∇ 2 f (x + γp)p dγ , (2.4)
0
1
f (x + p) = f (x) + ∇f (x)T p + pT ∇ 2 f (x + γp)p, some γ ∈ (0,1).
2
(2.5)
(We sometimes call the relation (2.2) the “integral form” and (2.3) the “mean-
value form” of Taylor’s theorem.)
A consequence of (2.3) is that for f continuously differentiable at x, we
have1
f (x + p) = f (x) + ∇f (x)T p + o(p). (2.6)

1 See the Appendix for a description of the order notation O(·) and o(·).
2.2 Taylor’s Theorem 17

We prove this claim by manipulating (2.3) as follows:


f (x + p) = f (x) + ∇f (x + γp)T p
= f (x) + ∇f (x)T p + (∇f (x + γp) ∇ f (x))T p
= f (x) + ∇f (x)T p + O(∇f (x + γp) ∇ f (x)p)
= f (x) + ∇f (x) p + o(p),T

where the last step follows from continuity: ∇f (x + γp) ∇ f (x) → 0 as


p → 0, for all γ ∈ (0,1).
As we will see throughout this text, a crucial quantity in optimization is the
Lipschitz constant L for the gradient of f , which is defined to satisfy
∇f (x) ∇ f (y) ≤ Lx y, for all x,y ∈ dom (f ). (2.7)
We say that a continuously differentiable function f with this property is L-
smooth or has L Lipschitz gradients. We say that f is L0 Lipschitz if
|f (x) − f (y)| ≤ L0 x − y, for all x,y ∈ dom (f ). (2.8)
From (2.2), we have
f (y) f (x) ∇ f (x)T (y x)
 1
= [∇f (x + γ (y x)) ∇ f (x)]T (y x) dγ .
0
By using (2.7), we have
[∇f (x + γ (y x)) ∇ f (x)]T (y x)
≤ ∇f (x + γ (y x)) ∇ f (x)y x ≤ Lγ y x2 .
By substituting this bound into the previous integral, we obtain the following
result.
Lemma 2.2 Given an L smooth function f , we have for any x,y ∈ dom (f )
that
L
f (y) ≤ f (x) + ∇f (x)T (y x) + y x2 . (2.9)
2
Lemma 2.2 asserts that f can be upper-bounded by a quadratic function
whose value at x is equal to f (x).
When f is twice continuously differentiable, we can characterize the
constant L in terms of the eigenvalues of the Hessian ∇ 2 f (x). Specifically,
we have
−LI  ∇ 2 f (x)  LI, for all x, (2.10)
as the following result proves.
18 2 Foundations of Smooth Optimization

Lemma 2.3 Suppose f is twice continuously differentiable on Rn . Then if f is


L-smooth, we have ∇ 2 f (x)  LI for all x. Conversely, if LI  ∇ 2 f (x) 
LI , then f is L-smooth.
Proof From (2.9), we have, by setting y = x + αp for some α > 0, that
L 2
f (x + αp) − f (x) − α∇f (x)T p ≤ α p2 .
2
From formula (2.5) from Taylor’s theorem, we have for some γ ∈ (0,1) that
1 2 T 2
f (x + αp) − f (x) − α∇f (x)T p = α p ∇ f (x + γ αp)p.
2
By comparing these two expressions, we obtain

pT ∇ 2 f (x + γ αp)p ≤ Lp2 .

By letting α ↓ 0, we have that all eigenvalues of ∇ 2 f (x) are bounded by L, so


that ∇ 2 f (x)  LI , as claimed.
Suppose now that LI  ∇ 2 f (x)  LI for all x, so that ∇ 2 f (x) ≤ L
for all x. We have, from (2.4), that
 
 1 
 
∇f (y) − ∇f (x) =  ∇ 2 f (x + t (y − x))(y − x) dt 
 t=0 
 1
≤ ∇ 2 f (x + t (y x))y x dt
t=0
1
≤ Ly − x dt = Ly − x,
t=0

as required. This completes the proof. 

2.3 Characterizing Minima of Smooth Functions


The results of Section 2.2 give us the tools needed to characterize solutions of
the unconstrained optimization problem

min f (x), (2.11)


x∈Rn

where f is a smooth function.


We start with necessary conditions, which give properties of the derivatives
of f that are satisfied when x ∗ is a local solution. We have the following
result.
2.3 Characterizing Minima of Smooth Functions 19

Theorem 2.4 (Necessary Conditions for Smooth Unconstrained Optimization)


(a) Suppose that f is continuously differentiable. If x ∗ is a local minimizer of
(2.11), then ∇f (x ∗ ) = 0.
(b) Suppose that f is twice continuously differentiable. If x ∗ is a local
minimizer of (2.11), then ∇f (x ∗ ) = 0 and ∇ 2 f (x ∗ ) is positive
semidefinite.
Proof We start by proving (a). Suppose for contradiction that ∇f (x ∗ )  0, and
consider a step α∇f (x ∗ ) away from x ∗ , where α is a small positive number.
By setting p = α∇f (x ∗ ) in formula (2.3) from Theorem 2.1, we have
 T
f (x ∗ α∇f (x ∗ )) = f (x ∗ ) α∇f x ∗ γ α∇f (x ∗ ) ∇f (x ∗ ), (2.12)

for some γ ∈ (0,1). Since ∇f is continuous, we have that


 T 1
∇f x ∗ γ α∇f (x ∗ ) ∇f (x ∗ ) ≥ ∇f (x ∗ )2,
2
for all α sufficiently small, and any γ ∈ (0,1). Thus, by substituting into (2.12),
we have that
1
f (x ∗ α∇f (x ∗ )) = f (x ∗ ) α∇f (x ∗ )2 < f (x ∗ ),
2
for all positive and sufficiently small α. No matter how we choose the
neighborhood N in the definition of local minimizer, it will contain points
of the form x ∗ − α∇f (x ∗ ) for sufficiently small α. Thus, it is impossible to
choose a neighborhood N of x ∗ such that f (x) ≥ f (x ∗ ) for all x ∈ N , so x ∗
is not a local minimizer.
We now prove (b). It follows immediately from (a) that ∇f (x ∗ ) = 0, so
we need to prove only positive semidefiniteness of ∇ 2 f (x ∗ ). Suppose for
contradiction that ∇ 2 f (x ∗ ) has a negative eigenvalue, so there exists a vector
v ∈ Rn and a positive scalar λ such that v T ∇ 2 f (x ∗ )v ≤ λ. We set x = x ∗
and p = αv in formula (2.5) from Theorem 2.1, where α is a small positive
constant, to obtain
1
f (x ∗ + αv) = f (x ∗ ) + α∇f (x ∗ )T v + α 2 v T ∇ 2 f (x ∗ + γ αv)v, (2.13)
2
for some γ ∈ (0,1). For all α sufficiently small, we have for λ, defined
previously, that v T ∇ 2 f (x ∗ +γ αv)v ≤ −λ/2, for all γ ∈ (0,1). By substituting
this bound, together with ∇f (x ∗ ) = 0, into (2.13), we obtain
1
f (x ∗ + αv) = f (x ∗ ) − α 2 λ < f (x ∗ ),
4
20 2 Foundations of Smooth Optimization

for all sufficiently small, positive values of α. Thus, there is no neighborhood


N of x ∗ such that f (x) ≥ f (x ∗ ) for all x ∈ N , so x ∗ is not a local minimizer.
Thus, we have proved by contradiction that ∇ 2 f (x ∗ ) is positive semidefinite. 
Condition (a) in Theorem 2.4 is called the first order necessary condition,
because it involves the first-order derivatives of f . Similarly, condition (b) is
called the second-order necessary condition.
We call any point x satisfying ∇f (x) = 0 a stationary point.
We additionally have the following second-order sufficient condition.
Theorem 2.5 (Sufficient Conditions for Smooth Unconstrained Optimization)
Suppose that f is twice continuously differentiable and that, for some x ∗ , we
have ∇f (x ∗ ) = 0, and ∇ 2 f (x ∗ ) is positive definite. Then x ∗ is a strict local
minimizer of (2.11).
Proof We use formula (2.5) from Taylor’s theorem. Define a radius ρ suf-
ficiently small and positive such that the eigenvalues of ∇ 2 f (x ∗ + γp) are
bounded below by some positive number , for all p ∈ Rn with p ≤ ρ,
and all γ ∈ (0,1). (Because ∇ 2 f is positive definite at x ∗ and continuous, and
because the eigenvalues of a matrix are continuous functions of the elements
of a matrix, it is possible to choose ρ > 0 and > 0 with these properties.) By
setting x = x ∗ in (2.5), we have for some γ ∈ (0,1)
1
f (x ∗ + p) = f (x ∗ ) + ∇f (x ∗ )T p + pT ∇ 2 f (x ∗ + γp)p
2
∗ 1
≥ f (x ) + p , for all p with p ≤ ρ.
2
2
Thus, by setting N = {x ∗ + p | p < ρ}, we have found a neighborhood of
x ∗ such that f (x) > f (x ∗ ) for all x ∈ N with x  x ∗ , hence satisfying the
conditions for a strict local minimizer. 
The sufficiency promised by Theorem 2.5 only guarantees a local solution.
We now turn to a special but ubiquitous class of functions and sets for which
we can provide necessary and sufficient guarantees for optimality, using only
information from low-order derivatives. The special property that enables these
guarantees is convexity.

2.4 Convex Sets and Functions


Convex functions take a central role in optimization precisely because these are
the instances for which it is easy to verify optimality and for which such optima
are guaranteed to be discoverable within a reasonable amount of computation.
2.4 Convex Sets and Functions 21

A convex set  ⊂ Rn has the property that


x,y ∈  ⇒ (1 − α)x + αy ∈  for all α ∈ [0,1]. (2.14)
For all pairs of points (x,y) contained in , the line segment between x and
y is also contained in . The convex sets that we consider in this book are
usually closed.
The defining property of a convex function is the following inequality:
f ((1 − α)x + αy) ≤ (1 − α)f (x) + αf (y), for all x,y ∈ Rn , all α ∈ [0,1].
(2.15)
The line segment connecting (x,f (x)) and (y,f (y)) lies entirely above the
graph of the function f . In other words, the epigraph of f , defined as
epi f := {(x,t) ∈ Rn × R | t ≥ f (x)}, (2.16)
is a convex set. We sometimes call a function satisfying (2.15) as weakly
convex function, to distinguish it from the special class called strongly convex
functions, defined in Section 2.5.
The concepts of “minimizer” and “solution” for the case of convex objective
function and constraint set become more elementary in the convex case than in
the general case of Section 2.1. In particular, the distinction between “local”
and “global” solutions goes away.
Theorem 2.6 Suppose that, in the general constrained optimization problem
(2.1), the function f is convex, and the set  is closed and convex. We have the
following.
(a) Any local solution of (2.1) is also a global solution.
(b) The set of global solutions of (2.1) is a convex set.
Proof For (a), suppose for contradiction that x ∗ ∈  is a local solution but not
a global solution, so there exists a point x̄ ∈  such that f (x̄) < f (x ∗ ). Then,
by convexity, we have for any α ∈ [0,1] that
f (x ∗ + α(x̄ − x ∗ )) ≤ (1 − α)f (x ∗ ) + αf (x̄) < f (x ∗ ).
But for any neighborhood N , we have for sufficiently small α > 0 that x ∗ +
α(x̄ − x ∗ )) ∈ N ∩  and f (x ∗ + α(x̄ − x ∗ )) < f (x ∗ ), contradicting the
definition of a local minimizer.
For (b), we simply apply the definition of convexity for both sets and
functions. Given all global solutions x ∗ and x̄, we have f (x̄) = f (x ∗ ), so
for any α ∈ [0,1], we have
f (x ∗ + α(x̄ − x ∗ )) ≤ (1 − α)f (x ∗ ) + αf (x̄) = f (x ∗ ).
22 2 Foundations of Smooth Optimization

We have also that f (x ∗ + α(x̄ x ∗ )) ≥ f (x ∗ ), since x ∗ + α(x̄ x ∗ ) ∈


 and x ∗ is a global minimizer. It follows from these two inequalities that
f (x ∗ +α(x̄ x ∗ )) = f (x ∗ ), so that x ∗ +α(x̄ x ∗ ) is also a global minimizer. 
By applying Taylor’s theorem (in particular, (2.6)) to the left hand side of
the definition of convexity (2.15), we obtain

f (x + α(y x)) = f (x)+α∇f (x)T (y x) + o(α) ≤ (1 α)f (x) + αf (y).

By canceling the f (x) term, rearranging, and dividing by α, we obtain

f (y) ≥ f (x) + ∇f (x)T (y x) + o(1),

and when α ↓ 0, the o(1) term vanishes, so we obtain

f (y) ≥ f (x) + ∇f (x)T (y x), for any x,y ∈ dom (f ), (2.17)

which is a fundamental characterization of convexity of a smooth function.


While Theorem 2.4 provides a necessary link between the vanishing of
∇f and the minimizing of f , the first order necessary condition is actually
a sufficient condition when f is convex.
Theorem 2.7 Suppose that f is continuously differentiable and convex. Then
if ∇f (x ∗ ) = 0, then x ∗ is a global minimizer of (2.11).
Proof The proof of the first part follows immediately from condition (2.17), if
we set x = x ∗ . Using this inequality together with ∇f (x ∗ ) = 0, we have, for
any y, that

f (y) ≥ f (x ∗ ) + ∇f (x ∗ )T (y x ∗ ) = f (x ∗ ),

so that x ∗ is a global minimizer. 

2.5 Strongly Convex Functions


For the remainder of this section, we assume that f is continuously differen
tiable and also convex. If there exists a value m > 0 such that
1
f ((1 α)x + αy) ≤ (1 α)f (x) + αf (y) mα(1 α)x y22
2
(2.18)

for all x and y in the domain of f , we say that f is strongly convex with
modulus of convexity m. When f is differentiable, we have the following
2.5 Strongly Convex Functions 23

equivalent definition, obtained by working on (2.18) with an argument similar


to the one leading to (2.17) that
m
f (y) ≥ f (x) + ∇f (x)T (y − x) + y − x2 . (2.19)
2
Note that this inequality complements the inequality satisfied by functions with
smooth gradients. When the gradients are smooth, a function can be upper
bounded by a quadratic that takes the value f (x) at x. When the function is
strongly convex, it can be lower-bounded by a quadratic that takes the value
f (x) at x.
We have the following extension of Theorem 2.7, whose proof follows
immediately by setting x = x ∗ in (2.19).
Theorem 2.8 Suppose that f is continuously differentiable and strongly
convex. Then if ∇f (x ∗ ) = 0, then x ∗ is the unique global minimizer of f .
This approximation of convex f by quadratic functions is a key theme in
continuous optimization.
When f is strongly convex and twice continuously differentiable, (2.5)
implies the following, when x ∗ is the minimizer:
1
f (x) − f (x ∗ ) = (x − x ∗ )T ∇ 2 f (x ∗ )(x − x ∗ ) + o(x − x ∗ 2 ). (2.20)
2
Thus, f behaves like a strongly convex quadratic function in a neighborhood
of x ∗ . It follows that we can learn a lot about local convergence properties
of algorithms just by studying convex quadratic functions. We use quadratic
functions as a guide for both intuition and algorithmic derivation throughout.
Just as we could characterize the Lipschitz constant of the gradient in
terms of the eigenvalues of the Hessian, the modulus of convexity provides
a lower bound on the eigenvalues of the Hessian when f is twice continuously
differentiable.
Lemma 2.9 Suppose that f is twice continuously differentiable on Rn . Then
f has modulus of convexity m if and only if ∇ 2 f (x)  mI for all x.
Proof For any x,u ∈ Rn and α > 0, we have from Taylor’s theorem that
1
f (x + αu) =f (x) + α∇f (x)T+ α 2 uT ∇ 2 f (x + γ αu)u,for some γ ∈ (0,1).
2
From the strong convexity property, we have
m 2
f (x + αu) ≥ f (x) + α∇f (x)T u + α u2 .
2
24 2 Foundations of Smooth Optimization

By comparing these two expressions, canceling terms, and dividing by α 2 , we


obtain

uT ∇ 2 f (x + γ αu)u ≥ mu2 .

By taking α ↓ 0, we obtain uT ∇ 2 f (x)u ≥ mu2 , thus proving that


∇ 2 f (x)  mI .
For the converse, suppose that ∇ 2 f (x)  mI for all x. Using the same form
of Taylor’s theorem as before, we obtain

f (z) = f (x) + ∇f (x)T (z − x)


1
+ (z x)T ∇ 2 f (x + γ (z x))(z x), for some γ ∈ (0,1).
2

We obtain the strong convexity expression when we bound the last term as
follows:

(z x)T ∇ 2 f (x + γ (z x))(z x) ≥ mz x2,

completing the proof. 


The following corollary is a immediate consequence of Lemma 2.3.
Corollary 2.10 Suppose that the conditions of Lemma 2.3 hold, and in
addition that f is convex. Then 0  ∇ 2 f (x)  LI if and only if f is L-
smooth.

Notation
We use  ·  to denote the Euclidean norm  · 2 of a vector in Rn . Other norms,
such as  · 1 and  · ∞ , will be denoted explicitly.

Notes and References


The classic reference on convex analysis remains the text of Rockafellar
(1970), which is still remarkably fresh, with many fundamental results. A
more recent classic by Boyd and Vandenberghe (2003) contains a great
deal of information about convex optimization, especially concerning convex
formulations and applications of convex optimization.
2.5 Strongly Convex Functions 25

Exercises
1. Prove that the effective domain of a convex function f (that is, the set of
points x ∈ Rn such that f (x) < ∞) is a convex set.
2. Prove that epi f is a convex subset of Rn × R for any convex function f .
3. Suppose that f : Rn → R is convex and concave. Show that f must be an
affine function.
4. Suppose that f : Rn → R is convex and upper bounded. Show that f must
be a constant function.
5. Suppose f : Rn → R is strongly convex and Lipschitz. Show that no such
f exists.
6. Show rigorously how (2.19) is derived from (2.18) when f is continuously
differentiable.
7. Suppose that f : Rn → R is a convex function with L Lipschitz gradient
and a minimizer x ∗ with function value f ∗ = f (x ∗ ).
(a) Show (by minimizing both sides of (2.9) with respect to y) that for any
x ∈ R n , we have
1
f (x) f∗ ≥ ∇f (x)2 .
2L
(b) Prove the following co-coercivity property: For any x,y ∈ Rn , we have
1
[∇f (x) ∇ f (y)]T (x y) ≥ ∇f (x) ∇ f (y)2 .
L
Hint: Apply part (a) to the following two functions:
hx (z) := f (z) − ∇f (x)T z, hy (z) := f (z) − ∇f (y)T z.
8. Suppose that f : Rn → R is an m strongly convex function with
L Lipschitz gradient and (unique) minimizer x ∗ with function value
f ∗ = f (x ∗ ).
(a) Show that the function q(x) := f (x) m2 x2 is convex with
L m-Lipschitz continuous gradients.
(b) By applying the co-coercivity property of the previous question to this
function q, show that the following property holds:
[∇f (x) − ∇f (y)]T (x − y)
mL 1
≥ x y2 + ∇f (x) ∇ f (y)2 . (2.21)
m+L m+L
3
Descent Methods

Methods that use information about gradients to obtain descent in the objective
function at each iteration form the basis of all of the schemes studied in this
book. We describe several fundamental methods of this type and analyze their
convergence and complexity properties. This chapter can be read as an intro-
duction both to elementary methods based on gradients of the objective and
to the fundamental tools of analysis that are used to understand optimization
algorithms.
Throughout the chapter, we consider the unconstrained minimization of a
smooth convex function:

min f (x). (3.1)


x∈Rn

The algorithms of this chapter are suited to the case in which f and its gradient
∇f can be evaluated – exactly, in principle – at arbitrary points x. Bearing in
mind that this setup may not hold for many data analysis problems, we focus on
those fundamental algorithms that can be extended to more general situations,
for example:

• Objectives consisting of a smooth convex term plus a nonconvex


regularization term
• Minimization of smooth functions over simple constraint sets, such as
bounds on the components of x
• Functions for which f or ∇f cannot be evaluated exactly without a
complete sweep through the data set, but unbiased estimates of ∇f can be
obtained easily
• Situations in which it is much less expensive to evaluate an individual
component or a subvector of ∇f than the full gradient vector
• Smooth but nonconvex f

26
3.1 Descent Directions 27

Extensions to the fundamental methods in this chapter to these more general


situations will be considered in subsequent chapters.

3.1 Descent Directions


Most of the algorithms we will consider in this book generate a sequence of
iterates {x k } for which the function values decrease at each iteration that is,
f (x k+1 ) < f (x k ) for each k = 0,1,2, . . .. Line-search methods proceed by
identifying a direction d from each x such that f decreases as we move in the
direction d. This notion can be formalized by the following definition:

Definition 3.1 d is a descent direction for f at x if f (x + td) < f (x) for all
t > 0 sufficiently small.

A simple, sufficient characterization of descent directions is given by the


following proposition.
Proposition 3.2 If f is continuously differentiable in a neighborhood of x,
then any d such that d T ∇f (x) < 0 is a descent direction.
Proof We use Taylor’s theorem Theorem 2.1. By continuity of ∇f , we can
identify t > 0 such that ∇f (x + td)T d < 0 for all t ∈ [0,t]. Thus, from (2.3),
we have for any t ∈ (0,t] that

f (x + td) = f (x) + t∇f (x + γ td)T d, some γ ∈ (0,1),

from which it follows that f (x + td) < f (x), as claimed. 


Note that, among all directions d with unit norm, the one that minimizes
d T ∇f (x) is d = ∇ f (x)/∇f (x). For this reason, we refer to ∇f (x) as
the steepest-descent direction. Perhaps the simplest method for optimization
of a smooth function makes use of this direction, defining its iterates by

x k+1 = x k − αk ∇f (x k ), k = 0,1,2, . . . , (3.2)

for some steplength αk > 0. At each iteration, we are guaranteed that there is
some nonnegative step α that decreases the function value, unless ∇f (x k ) = 0.
But note that when ∇f (x) = 0 (that is, x is stationary), we will have found a
point that satisfies a first-order necessary condition for local optimality. (If f is
also convex, this point will be a global minimizer of f .) The algorithm defined
by (3.2) is called the gradient descent method or the steepest-descent method.
(We use the latter term in this chapter.) In the next section, we will discuss the
28 3 Descent Methods

choice of steplengths αk and analyze how many iterations are required to find
points where the gradient nearly vanishes.

3.2 Steepest-Descent Method


We focus first on the question of choosing the steplength αk for the steepest
descent method (3.2). If αk is too large, we risk taking a step that increases the
function value. On the other hand, if αk is too small, we risk making too little
progress and thus requiring too many iterations to find a solution.
The simplest steplength protocol is the short step variant of steepest
descent, which can be implemented when f is L-smooth (see (2.7)) with a
known value of the parameter L. By setting αk to be a fixed, constant value α,
the formula (3.2) becomes
x k+1 = x k − α∇f (x k ), k = 0,1,2, . . . . (3.3)
To estimate the amount of decrease in f obtained at each iterate of this method,
we use Lemma 2.2, which is a consequence of Taylor’s theorem (Theorem 2.1).
We obtain
L
f (x + αd) ≤ f (x) + α∇f (x)T d + α 2 d2 . (3.4)
2
For d = ∇ f (x), the value of α that minimizes the expression on the right-
hand side is α = 1/L. By substituting this value into (3.4) and setting x = x k ,
we obtain
1
f (x k+1 ) = f (x k (1/L)∇f (x k )) ≤ f (x k ) ∇f (x k )2 . (3.5)
2L
This expression is one of the foundational inequalities in the analysis of
optimization methods. It quantifies the amount of decrease we can obtain from
the function f to two critical quantities: the norm of the gradient ∇f (x k ) at the
current iterate and the Lipschitz constant L of the gradient. Depending on the
other assumptions about f , we can derive a variety of different convergence
rates from this basic inequality, as we now show.

3.2.1 General Case


From (3.5) alone, we can already say something about the rate of convergence
of the steepest-descent method, provided we assume that f has a global lower
bound. That is, we assume that there is a value f that satisfies
f (x) ≥ f¯, for all x. (3.6)
3.2 Steepest-Descent Method 29

(In the case that f has a global minimizer x ∗ , f¯ could be any value such that
f ≤ f (x ∗ ).) By summing the inequalities (3.5) over k = 0,1, . . . ,T 1, and
canceling terms, we find that

T −1
1 
f (x ) ≤ f (x )
T 0
∇f (x k )2 .
2L
k=0

Since f¯ ≤ f (x T ), we have

−1
T
∇f (x k )2 ≤ 2L[f (x 0 ) f]
k=0

which implies that limT →∞ ∇f (x T ) = 0. Moreover, we have

1  f¯]
T 1
2L[f (x 0 )
min ∇f (x k )2 ≤ ∇f (x k )2 ≤ .
0≤k≤T −1 T T
k=0

Thus, we have shown that after T steps of steepest descent, we can find a point
x satisfying

2L[f (x 0 ) − f¯]
min ∇f (x k ) ≤ . (3.7)
0≤k≤T −1 T

Note that this convergence rate is slow and tells us only that we will find a
point x k that is nearly stationary. We need to assume stronger properties of f
to guarantee faster convergence and global optimality.

3.2.2 Convex Case


When f is also convex, we have the following stronger result for the steepest
descent method.
Theorem 3.3 Suppose that f is convex and L-smooth, and suppose that (3.1)
has a solution x ∗ . Define f ∗ := f (x ∗ ). Then the steepest-descent method with
steplength αk ≡ 1/L generates a sequence {x k }∞ k=0 that satisfies

L 0
f (x T ) − f ∗ ≤ x − x ∗ 2, T = 1,2, . . . . (3.8)
2T
30 3 Descent Methods

Proof By convexity of f , we have f (x ∗ ) ≥ f (x k ) + ∇f (x k )T (x ∗ x k ), so


by substituting into the key inequality (3.5), we obtain for k = 0,1,2, . . . that
1
f (x k+1 ) ≤ f (x ∗ ) + ∇f (x k )T (x k x ∗ ) ∇f (x k )2
 2L 
L 1
= f (x ∗ ) + x k − x ∗ 2 − x k − x ∗ − ∇f (x k )2
2 L
L  
= f (x ∗ ) + x k − x ∗ 2 − x k+1 − x ∗ 2 .
2
By summing over k = 0,1,2, . . . ,T 1, we have

L  k 
−1
T T −1
(f (x k+1 ) f ∗) ≤ x x ∗ 2  x k+1 x ∗ 2
2
k=0 k=0
L 0 
= x x ∗ 2  x T x ∗ 2
2
L 0
≤ x x ∗ 2 .
2
Since {f (x k )} is a nonincreasing sequence, we have
T −1
1  L 0
f (x T ) f∗ ≤ (f (x k+1 ) f ∗) ≤ x x ∗ 2,
T 2T
k=0

as desired. 

3.2.3 Strongly Convex Case


Recall from (2.19) that the smooth function f : Rn → R is strongly convex
with modulus m if there is a scalar m > 0 such that
m
f (z) ≥ f (x) + ∇f (x)T (z x) + z x2 . (3.9)
2
Strong convexity asserts that f can be lower bounded by quadratic functions.
These functions change from point to point, but only in the linear term. It also
tells us that the curvature of the function is bounded away from zero. Note that
if f is strongly convex and L-smooth, then f is bounded above and below by
simple quadratics (see (2.9) and (2.19)). This “sandwiching” effect enables us
to prove the linear convergence of the steepest-descent method.
The simplest strongly convex function is the squared Euclidean norm x2 .
Any convex function can be perturbed to form a strongly convex function by
3.2 Steepest-Descent Method 31

adding any small positive multiple of the squared Euclidean norm. In fact, if f
is any L-smooth function, then
fμ (x) = f (x) + μx2
is strongly convex for μ large enough. (Exercise: Prove this!)
As another canonical example, note that a quadratic function f (x) =
1 T
2 x Qx is strongly convex if and only if the smallest eigenvalue of Q is
strictly positive. We saw in Theorem 2.8 that a strongly convex f has a unique
minimizer, which we denote by x ∗ .
Strongly convex functions are, in essence, the “easiest” functions to opti-
mize by first-order methods. First, the norm of the gradient provides useful
information about how far away we are from optimality. Suppose we minimize
both sides of the inequality (3.9) with respect to z. The minimizer on the left-
hand side is clearly attained at z = x ∗ , while on the right-hand side, it is
attained at x − ∇f (x)/m. By plugging these optimal values into (3.9), we
obtain
   2
1 m1 
f (x ∗ ) ≥ f (x) ∇ f (x)T ∇f (x) +   ∇f (x) 

m 2 m
1
= f (x) ∇f (x)2 .
2m
By rearrangement, we obtain
∇f (x)2 ≥ 2m[f (x) f (x ∗ )]. (3.10)
If ∇f (x) < δ, we have
∇f (x)2 δ2
f (x) f (x ∗ ) ≤ ≤ .
2m 2m
Thus, for strongly convex functions, when the gradient is small, we are close
to having found a point with minimal function value.
We can derive an estimate of the distance of x to the optimal point x ∗
in terms of the gradient by using (3.9) and the Cauchy Schwarz inequality.
We have
m
f (x ∗ ) ≥ f (x) + ∇f (x)T (x ∗ − x) + x − x ∗ 2
2
∗ m
≥ f (x) ∇ f (x) x x + x x ∗ 2 .
2
By rearranging terms, we have
2
x − x ∗  ≤∇f (x). (3.11)
m
We summarize this discussion in the following lemma.
32 3 Descent Methods

Lemma 3.4 Let f be a continuously differentiable and strongly convex


function with modulus m. Then we have
∇f (x)2
f (x) f (x ∗ ) ≤ (3.12)
2m
2
x x ∗  ≤ ∇f (x). (3.13)
m
We can now analyze the convergence of the steepest-descent method on
strongly convex functions. By substituting (3.12) into (3.5), we obtain
 
1 1
f (x k+1 ) = f x k ∇f (x k ) ≤ f (x k ) ∇f (x k )2
L 2L
m
≤ f (x k ) (f (x k ) f ∗ ),
L
where f ∗ := f (x ∗ ), as before. Subtracting f ∗ from both sides of this
inequality gives the recursion
 m
f (x k+1 ) f ∗ ≤ 1 (f (x k ) f ∗ ). (3.14)
L
Thus, the sequence of function values converges linearly to the optimum. After
T steps, we have
 m T
f (x T ) f ∗ ≤ 1 (f (x 0 ) f ∗ ). (3.15)
L

3.2.4 Comparison between Rates


It is straightforward to convert these convergence expressions into complex-
ities using the techniques of Appendix A.2. We have, from (3.7), that an
iteration k will be found such that ∇f (x k ) ≤ for some k ≤ T , where
2L(f (x 0 ) f ∗)
T ≥ 2
.

For the general convex case, we have from (3.8) that f (x k ) f∗ ≤ when
Lx 0 x ∗ 2
k≥ . (3.16)
2
For the strongly convex case, we have from (3.15) that f (x k ) − f ∗ ≤ for all
k satisfying
L
k≥ log((f (x 0 ) f ∗ )/ ). (3.17)
m
3.3 Descent Methods: Convergence 33

Note that in all three cases, we can get bounds in terms of the initial distance
to optimality x 0 x ∗  rather than the initial optimality gap f (x 0 ) f ∗ by
using the inequality

L 0
f (x 0 ) f∗ ≤ x x ∗ 2 .
2
The linear rate (3.17) depends only logarithmically on , whereas the
sublinear rates depend on 1/ or 1/ 2 . When is small (for example, =
10−6 ), the linear rate would appear to be dramatically faster, and, indeed, this
is usually the case. The only exception would be when m is extremely small,
so that m/L is of the same order as . The problem is extremely ill conditioned
in this case, and there is little difference between the linear rate (3.17) and the
sublinear rate (3.16).
All of these bounds depend on knowledge of L. What happens when we do
not know L? Even when we do know it, is the steplength αk ≡ 1/L good in
practice? We have reason to suspect not, since the inequality (3.5) on which it
is based uses the conservative global upper bound L on curvature. (A sharper
bound could be obtained in terms of the curvature in the neighborhood of the
current iterate x k .) In the remainder of this chapter, we expand our view to
more general choices of search directions and steplengths.

3.3 Descent Methods: Convergence


In the previous section, we considered the short-step steepest-descent method
that moved along the negative gradient with a steplength 1/L determined
by the global Lipschitz constant of the gradient. In this section, we prove
convergence results for more general descent methods.
Suppose each step has the form

x k+1 = x k + αk d k , k = 0,1,2, . . . , (3.18)

where d k is a descent direction and αk is a positive steplength. What do we


need to guarantee convergence to a stationary point at a particular rate? What
do we need to guarantee convergence of the iterates themselves?
Recall that our analysis of steepest-descent algorithm with fixed steplength
in the previous section was based on the bound (3.5), which showed that the
amount of decrease in f at iteration k is at least a multiple of ∇f (x k )2 . In the
discussion that follows, we show that the same estimate of function decrease,
except for a different constant, can be obtained for many line-search methods
34 3 Descent Methods

of the form (3.18), provided that d k and αk satisfy certain intuitive properties.
Specifically, we show that the following inequality holds:

f (x k+1 ) ≤ f (x k ) C∇f (x k )2, for some C > 0. (3.19)

The remainder of the analyses in the previous section used properties about
the function f itself that were independent of the algorithm: smoothness,
convexity, and strong convexity. For a general descent method, we can provide
similar analyses based on the property (3.19).
What can we say about the sequence of iterates {x k } generated by a scheme
that guarantees (3.19)? The following elementary theorem shows one basic
property.
Theorem 3.5 Suppose that f is bounded below, with Lipschitz continuous
gradient. Then all accumulation points x̄ of the sequence {x k } generated by a
scheme that satisfies (3.19) are stationary; that is, ∇f (x) = 0. If, in addition,
f is convex, each such x is a solution of (3.1).
Proof Note first from (3.19) that

∇f (x k )2 ≤ [f (x k ) f (x k+1 )]/C, k = 0,1,2, . . . ,

and since {f (x k )} is a decreasing sequence that is bounded below, it follows


that limk→∞ f (x k ) f (x k+1 ) = 0. If x̄ is an accumulation point, there is
a subsequence S such that limk∈S,k→∞ x k = x̄. By continuity of ∇f , we
have ∇f (x̄) = limk∈S,k→∞ ∇f (x k ) = 0, as required. If f is convex, each x̄
satisfies the first-order sufficient conditions to be a solution of (3.1). 
It is possible for the the sequence {x k } to be unbounded and have no
accumulation points. For example, some descent methods applied to the scalar
function f (x) = e−x will generate iterates that diverge to ∞. (This function is
convex and bounded below but does not attain its minimum value.)
We can prove other results about rates of convergence of algorithms (3.18)
satisfying (3.19), using almost identical proofs to those of Section 3.2. For
example, for the case in which f is bounded below by some quantity f¯, we
can show using the techniques of Section 3.2.1 that

f (x 0 ) − f¯
min ∇f (x k ) ≤ .
0≤k≤T −1 CT

For the case in which f is strongly convex with modulus m (and unique
solution x ∗ ), we can combine (3.12) with (3.19) to deduce that
3.3 Descent Methods: Convergence 35

f (x k+1 ) f (x ∗ ) ≤ f (x k ) f (x ∗ ) C∇f (x k )2


≤ (1 − 2mC)[f (x k ) − f (x ∗ )],
which indicates linear convergence with rate (1 2mC).
The argument of Section 3.2.2 concerning rate of convergence for the
(non-strongly) convex case cannot be generalized to the setting of (3.19),
though similar results can be obtained by another technique under an additional
assumption, as we show next.
Theorem 3.6 Suppose that f is convex and smooth, where ∇f has Lipschitz
constant L, and that (3.1) has a solution x ∗ . Assume, moreover, that the level
set defined by x 0 is bounded in the sense that R0 < ∞, where
R0 := max{x x ∗  | f (x) ≤ f (x 0 )}.
Then a descent method satisfying (3.19) generates a sequence {x k }∞
k=0 that
satisfies
R02
f (x T ) f∗ ≤ T = 1,2, . . . . (3.20)
CT
Proof Defining k := f (x k ) f (x ∗ ), we have that
k = f (x k ) f (x ∗ ) ≤ ∇f (x k )T (x k x ∗ ) ≤ R0 ∇f (x k ).
By substituting this bound into (3.19), we obtain
C 2
f (x k+1 ) ≤ f (x k ) − k ,
R02
which, after subtracting f (x ∗ ) from both sides and using the definition of k ,
becomes
 
C 2 C
k+1 ≤ k k = k 1 k . (3.21)
R02 R02
By inverting both sides, we obtain
1 1 1
≥ C
.
k+1 k 1 
R02 k

Since k+1 ≥ 0, we have from (3.21) that C


 ∈ [0,1], so using the fact that
R02 k
1
1− ≥ 1 + for all ∈ [0,1], we obtain
 
1 1 C 1 C
≥ 1 + 2 k = + 2.
k+1 k R0 k R0
36 3 Descent Methods

By applying this formula recursively, we have for any T ≥ 1 that


1 1 TC TC
≥ + 2 ≥ 2,
T 0 R0 R0

and we obtain the result by taking the inverse of both sides in this bound and
using T = f (x T ) f (x ∗ ). 

3.4 Line-Search Methods: Choosing the Direction


In this section, we turn to analysis of generic line-search descent methods,
which take steps of the form (3.18), where αk > 0 and d k is a search direction
that satisfies the following properties, for some positive constants , γ1 , γ2 :

(d k )T ∇f (x k )
0< ≤ , (3.22a)
∇f (x k )d k 
d k 
0 < γ1 ≤ ≤ γ2 . (3.22b)
∇f (x k )

Condition (3.22a) says that the angle between ∇f (x k ) and d k is acute and
bounded away from π/2 for all k, and condition (3.22b) ensures that d k and
∇f (x k ) are not too much different in length. (If x k is a stationary point, we
have ∇f (x k ) = 0, so our algorithm will set d k = 0 and terminate.)
For the negative gradient (steepest-descent) search direction d k =
∇f (x k ), the conditions (3.22) hold trivially, with = γ1 = γ2 = 1.
We can use Taylor’s theorem to bound the change in f when we move along
d k from the current iteration x k . By setting x = x k and d = d k in (3.4), we
obtain

f (x k+1 ) = f (x k + αd k )
L
≤ f (x k ) + α∇f (x k )T d k + α 2 d k 2
2
L
≤ f (x k ) α ∇f (x k )d k  + α 2 d k 2
  2
L
≤ f (x k ) − α ¯ − α γ2 ∇f (x k )d k , (3.23)
2
where we used (3.22) for the last two inequalities. It is clear from this
expression that for all values of α sufficiently small – to be precise, for
α ∈ (0,2¯ /(Lγ2 )) – we have f (x k+1 ) < f (x k ) – unless, of course, x k is a
stationary point.
3.4 Line-Search Methods: Choosing the Direction 37

We mention a few possible choices of d k apart from the negative gradient


direction ∇f (x k ).

• The transformed negative gradient direction d = S ∇f (x ), where S is


k k k k

a symmetric positive definite matrix with eigenvalues in the range [γ1,γ2 ],


where γ1 and γ2 are positive quantities, as in (3.22). The condition (3.22b)
holds, by definition of S k , and condition (3.22a) holds with ¯ = γ1 /γ2 ,
since
−(d k )T ∇f (x k ) = ∇f (x k )T S k ∇f (x k ) ≥ γ1 ∇f (x k )2
≥ (γ1 /γ2 )∇f (x k )d k .
Newton’s method, which chooses S k = ∇ 2 f (x k )−1 , would satisfy this
condition, provided that the Hessian ∇ 2 f (x) has eigenvalues uniformly
bounded in the range [1/γ2,1/γ1 ] for all x.
• The Gauss–Southwell variant of coordinate descent chooses
d k = −[∇f (x k )]ik eik , where ik = arg maxi=1,2, ,n |[∇f (x k )]i | and eik is
the vector containing all zeros except for a 1 in position ik . (We leave it as an
exercise to show that the conditions (3.22) are satisfied for this choice of d k .)
There does not seem to be an obvious reason to use this search direction.
Since it is defined in terms of the full gradient ∇f (x k ), why not use
d k = ∇ f (x k ) instead? The answer (as we discuss further in Chapter 6)
is that for some important kinds of functions f , the gradient ∇f (x k ) can
be updated efficiently to obtain ∇f (x k+1 ), provided that x k and x k+1 differ
in only a single coordinate. These cost savings make coordinate descent
methods competitive with, and often faster than, full gradient methods.
k
• Some algorithms make randomized choices of d in which the conditions
(3.22) hold in the sense of expectation, rather than deterministically. In one
variant of randomized coordinate descent, we set d k = [∇f (x k )]ik , for ik
chosen uniformly at random from {1,2, . . . ,n} at each k. Taking
expectations over ik , we have
  1 n
1
Eik ( d k )T ∇f (x k ) = [∇f (x k )]2i = ∇f (x k )2
n n
i=1
1
≥ ∇f (x k )d k ,
n
where the last inequality follows from d k  ≤ ∇f (x k ), so the condition
(3.22a) holds in an expected sense. Since E(d k 2 ) = n1 ∇f (x k )22 , the
norms of d k  and ∇f (x k ) are also similar to within a scale factor, so
(3.22b) also holds in an expected sense. Rigorous analysis of these methods
is presented in Chapter 6.
38 3 Descent Methods

• Another important class of randomized schemes are the stochastic gradient


methods discussed in Chapter 5. In place of an exact gradient ∇f (x k ),
these method typically have access to a vector g(x k ,ξk ), where ξk is a
random variable, such that Eξk g(x k ,ξk ) = ∇f (x k ). That is, g(x k ,ξk ) is an
unbiased (but often very noisy) estimate of the true gradient ∇f (x k ).
Again, if we set d k = g(x k ,ξk ), the conditions (3.22) hold in an expected
sense, though the bound E(d k ) ≤ γ2 ∇f (x k ) requires additional
conditions on the distribution of g(x k ,ξk ) as a function of ξk .

3.5 Line-Search Methods: Choosing the Steplength


Assuming now that the search direction d k in (3.18) satisfies the properties
(3.22), we turn to the choice of steplength αk , for which a well-designed
procedure is often used. We describe some methods that make use of the
Lipschitz constant L from (2.7) and other methods that do not assume
knowledge of L, but still satisfy a sufficient decrease, like (3.19).

Fixed Steplength. As we have seen in Section 3.2, fixed steplengths can yield
useful convergence results. One drawback of the fixed steplength approach is
that some prior information is needed to properly choose the steplength.
The first approach to choosing a fixed steplength (one commonly used in
machine learning, where the steplength is often known as the “learning rate”)
is trial and error. Extensive experience in applying gradient (or stochastic
gradient) algorithms to a particular class of problems may reveal that a par-
ticular steplength is reliable and reasonably efficient. Typically, a reasonable
heuristic is to pick α as large as possible such that the algorithm does not
diverge. In some sense, this approach is estimating the Lipschitz constant of the
gradient of f by trial and error. Slightly enhanced variants are also possible;
for example, αk may be held constant for many successive iterations and then
decreased periodically. Since such schemes are highly application and problem
dependent, we cannot say much more about them here.
A second approach, a special case of which was investigated already in
Section 3.2, is to base the choice of αk on knowledge of the global properties
of the function f , particularly on the Lipschitz constant L for the gradient (see
(2.7)) or the modulus of convexity m (see (2.18)). Given the expression (3.23),
for example, and supposing we have estimates of all the quantities ¯ , γ2 , and L
that appear therein, we could choose α to maximize the coefficient of the last
term. Setting α = ¯ /(Lγ2 ), we obtain from (3.23) and (3.22) that
3.5 Line-Search Methods: Choosing the Steplength 39

2 2γ
1
f (x k+1 ) ≤ f (x k ) ∇f (x k )d k  ≥ f (x k ) ∇f (x k )2 .
2Lγ2 2Lγ2
(3.24)

Exact Line Search. A second option is to perform a one dimensional line


search along direction d k to find the minimizing value of α; that is,

min f (x k + αd k ). (3.25)
α>0

This technique requires evaluation of f (x k + αd k ) (and possibly also its


derivative with respect to α, namely (d k )T ∇f (x k + αd k )) economically,
for arbitrary positive values of α. There are many cases where these line
searches can be computed at low cost. For example, if f is a multivariate
polynomial, the line search amounts to minimizing a univariate polynomial.
Such a minimization can be performed by finding the roots of the gradient
along the search direction, and then testing each root to find the minimum. In
other settings, such as coordinate descent methods of Chapter 6, it is possible
to evaluate f (x k + αd k ) cheaply for certain functions f , provided that d k
is a coordinate direction. Convergence analysis for exact line-search methods
tracks that for the preceding short-step methods. Since the exact minimizer
of f (x k + αd k ) will achieve at least as much reduction in f as the choice
α = /(Lγ2 ) used to derive the estimate (3.24), this bound also holds for exact
line searches.

Approximate Line Search. In full generality, exact line searches are expen-
sive and unnecessary. Better empirical performance is achieved by approx-
imate line search. Many line-search methods were proposed in the 1970s
and 1980s for finding conditions that should be satisfied by approximate line
searches so as to guarantee good convergence properties and on identifying
line-search procedures that find such approximate solutions economically. (By
“economically,” we mean that an average of three or less evaluations of f
are required.) One popular pair of conditions that the approximate minimizer
α = αk is required to satisfy, called the weak Wolfe Conditions, is defined as
follows:

f (x k + αd k ) ≤ f (x k ) + c1 α∇f (x k )T d k , (3.26a)
∇f (x k + αd k )T d k ≥ c2 ∇f (x k )T d k. (3.26b)

Here, c1 and c2 are constants that satisfy 0 < c1 < c2 < 1. The condition
(3.26a) is often known as the “sufficient decrease condition,” because it ensures
that the actual amount of decrease in f is at least a multiple c1 of the amount
Another Random Document on
Scribd Without Any Related Topics
avait donné l'apothéose officielle des barricades de Juillet? De police,
il n'y en avait plus. Quant aux troupes, suivant l'expression de M.
Thiers, «ébranlées par le souvenir de la révolution, elles craignaient
de se commettre avec le peuple[191]». Restait seulement la garde
nationale, incertaine, troublée, tout à fait mauvaise dans certaines
de ses parties, par exemple l'artillerie[192], et, dans ses meilleurs
éléments, habituée non à obéir au gouvernement, mais à agir de
son chef, suivant les inspirations du moment: on était réduit, en cas
de trouble, à lui laisser une sorte de dictature[193]. Du reste, le
commandant de cette milice, La Fayette, tout en souhaitant de
sauver les ministres, ne consentait à employer que des moyens
moraux et des démonstrations sentimentales.

Enfin le jour du procès arrive. Le 15 décembre s'ouvrent, devant la


Chambre haute, ces débats qui doivent durer une semaine. Semaine
redoutable entre toutes! Au dehors, l'émeute vient battre chaque
jour les murs du Luxembourg, comme pour reprendre, contre la
prison de ce palais, le sauvage assaut qui, un mois auparavant, avait
été vainement tenté contre le donjon de Vincennes. Mais où apparaît
plus encore le désordre, c'est dans l'attitude des autorités chargées
de le réprimer. Pendant que la force armée demeure inactive, La
Fayette et M. Odilon Barrot engagent publiquement des pourparlers
avec les agitateurs, leur demandent poliment «s'ils se sentent assez
forts, assez stoïques, pour promener l'échafaud dans toute la
France[194]», affectent de partager leurs désirs, de reconnaître la
légitimité de leurs griefs, et ne les détournent des insurrections
qu'en leur montrant un procédé plus sûr pour atteindre leur but; ils
leur promettent, s'ils daignent être sages, qu'on les récompensera en
suivant une politique plus révolutionnaire, et réservent la sévérité de
leurs proclamations officielles ou de leurs ordres du jour pour le
gouvernement dont ils sont les agents; moins occupés de flétrir ou
de dominer l'émeute que de s'en servir pour entraîner la monarchie
plus à gauche, en lui arrachant des concessions, ou en la
compromettant par leurs déclarations et leurs engagements[195].
Lorsqu'ils sont absolument contraints de blâmer le désordre, ils
affectent de croire qu'il est l'œuvre perfide des légitimistes. Enfin,
quand le péril accru contraint de faire appel à la garde nationale,
recommandation lui est faite de ne pas riposter en cas d'attaque, et,
afin d'être plus sûr de son inaction, on lui refuse des cartouches; M.
Odilon Barrot s'est vanté plus tard d'avoir pris cette précaution. Il
avait imaginé à la vérité, pour le moment suprême, un moyen dont
le succès lui paraissait immanquable: tous les blessés de Juillet,
réunis à l'Hôtel de ville, devaient, à la suite du préfet, se jeter sans
armes entre les combattants[196]. L'émeute ainsi ménagée, on
pourrait dire encouragée, devenait plus arrogante, et dédaignait
même d'écouter patiemment ceux qui la traitaient avec tant de
déférence. «Nous sommes de la même opinion», disait M. Arago à
une bande d'exaltés qu'il espérait ainsi calmer.—«Ceux-là, répondait
une voix, ne sont pas de la même opinion, dont l'habit n'est pas de
la même étoffe.» Et, la foule s'échauffant, M. Arago recevait un coup
violent dans la poitrine. Sur un autre point, l'émeute ayant déjà à
moitié forcé les grilles du Luxembourg, La Fayette se présente pour
adresser à «ses amis» quelque harangue caressante; mais l'effet en
est usé; des gamins saisissent le général par les jambes, le hissent
en l'air et se le passent de main en main, en criant avec des
modulations indescriptibles: «Voilà le général La Fayette! qui en
veut?» Il faut qu'un détachement de ligne fasse une trouée pour le
dégager. «Je ne reconnais pas ici, dit le général, les combattants des
barricades.—Qu'y a-t-il d'étonnant? lui rétorque-t-on, vous n'étiez
pas avec eux[197]!»

Dans l'intérieur du Luxembourg, grâce à Dieu, le spectacle est tout


autre: les juges sur leurs siéges, calmes, le plus souvent
inaccessibles aux menaces de l'émeute dont la rumeur parvient
jusqu'à eux à travers les portes closes[198]; les débats se
poursuivant avec une gravité digne et une impassible régularité,
sous la présidence impartiale et sagace de M. Pasquier; l'éloquence
généreuse des défenseurs faisant contraste avec l'âpre boursouflure
des députés chargés de soutenir l'accusation; les adieux de M. de
Martignac, déjà penché sur sa tombe, et dépensant, avant de
mourir, ses dernières forces pour sauver la tête du ministre qui l'avait
naguère supplanté; le brillant début de M. Sauzet, inconnu la veille,
célèbre le lendemain dans l'Europe entière, succès
d'applaudissements et de larmes; la belle tenue des accusés, la
bonne grâce sereine et chevaleresque de M. de Polignac, la hauteur
de dédain, la fierté indomptée et l'émouvante parole de M. de
Peyronnet, qui arrache un cri d'admiration à ses plus farouches
adversaires; scène grandiose et pathétique, dont le premier résultat,
comme il arrive toujours dans les représailles tentées contre les
vaincus, est de ramener l'intérêt sur ces accusés, tout à l'heure
encore si impopulaires et si justement accablés sous le poids de leur
téméraire incapacité!

Dans la soirée du 20 décembre,—c'est le sixième jour du procès,—


le péril devient si pressant, le président reçoit du dehors des
nouvelles si alarmantes, qu'il interrompt la réplique du commissaire
de la Chambre des députés. «Je suis informé par le chef de la force
armée, dit-il d'une voix grave et émue, qu'il n'y a plus de sûreté pour
nos délibérations; la séance est levée.» Les pairs se retirent, non
sans que plusieurs ne soient outragés et menacés. Soirée et nuit
pleines d'angoisses. Chacun sait que la sentence doit être rendue le
lendemain. La circulation des voitures est interrompue. La garde
nationale bivouaque dans les rues, autour de grands feux. La ville
est illuminée, par crainte que quelque coup ne soit tenté à la faveur
des ténèbres. Les bruits les plus sinistres se répandent; il semble à
tous que l'imminence d'une effroyable catastrophe pèse sur la cité;
une sorte de panique s'est emparée de beaucoup d'esprits, et, à lire
les témoignages contemporains, il est visible que plusieurs
désespèrent alors de sortir heureusement de cette lutte engagée
contre l'anarchie sanguinaire. Le trouble est grand au sein du
gouvernement, qui reçoit de ses agents des rapports d'heure en
heure plus assombris. On commence du moins à comprendre, de ce
côté, que, pour se sauver, il faut d'autres procédés que ceux de La
Fayette, et qu'il est temps pour les ministres de ne plus s'effacer
derrière ce personnage. Inquiet des dispositions de la garde
nationale, le jeune ministre de l'intérieur, M. de Montalivet, insiste
pour que le lendemain le jardin du Luxembourg soit uniquement
occupé par la troupe de ligne. La Fayette cède, non sans objection, à
une exigence qui lui paraît une injure à la générosité de la nation.
«Vous employez trop d'armée et pas assez de peuple», dit cet
incurable que le «peuple» venait cependant de maltraiter si
irrévérencieusement quelques heures auparavant[199].

Le 21 au matin, dernière et décisive journée, l'émeute gronde plus


menaçante que jamais. Cependant le gouvernement et M. Pasquier
se fiaient aux mesures arrêtées la veille au soir, quand ils apprennent
que La Fayette, infidèle aux engagements pris, incapable de résister
à ceux qu'il est chargé de commander, a laissé entrer dans le jardin
des bataillons de gardes nationaux dont l'attitude et les cris ne sont
rien moins que rassurants. «Les gardes nationaux, répond-il aux
plaintes de M. de Montalivet, ont demandé à être chargés de veiller
à la sécurité des accusés; j'ai cru devoir faire droit à leur patriotique
réclamation; on ne pouvait leur refuser une place d'honneur.» La
perplexité du jeune ministre est grande; toutefois il ne perd pas la
tête. Les débats sont à peine terminés, et l'arrêt n'est pas encore
rendu, qu'il s'empare des accusés, les enferme dans une voiture bien
attelée, entoure celle-ci d'un escadron de chasseurs, monte lui-
même sur le cheval d'un sous-officier, et enlève le tout au galop,
avant que personne se doute de ce coup de main accompli avec une
si heureuse hardiesse. Au bout de peu de temps, le canon de
Vincennes annonce au Roi anxieux que son ministre est arrivé sans
encombre dans les murs de la vieille forteresse. L'enlèvement connu
de la foule, on entend comme le rugissement du fauve auquel on a
arraché sa proie. Est-ce la bataille qui éclate? À ce moment, la
nouvelle se répand, on ne sait comment, que les ministres ont été
condamnés à mort. La foule, ainsi trompée, s'arrête. En réalité,
l'arrêt n'est pas encore rendu, et les pairs continuent à délibérer,
calmes au milieu de ce trouble; chaque juge exprime à haute voix
son opinion sur toutes les questions posées; il y a grande majorité à
la fois pour admettre le crime de trahison et pour repousser la peine
capitale. Après ces formalités qui prennent de longues heures, la
Cour rentre en séance; il est dix heures du soir; les accusés sont
absents; leurs défenseurs seuls sont présents. D'une voix grave, M.
Pasquier lit l'arrêt qui condamne les anciens ministres à la prison
perpétuelle, avec l'aggravation de la mort civile pour M. de Polignac.
La nouvelle parvient aussitôt dans la rue. Quand ceux qui y sont
encore apprennent qu'ils s'étaient abusés en croyant à une
condamnation à mort, il est trop tard pour rien tenter: beaucoup
d'ouvriers sont rentrés chez eux, et tout est renvoyé au jour suivant.

Le lendemain, l'émeute se trouve de nouveau sur pied, plus irritée


que jamais. Des meneurs lisent l'arrêt dans les carrefours, en
provoquant ouvertement à la révolte; le drapeau noir est arboré au
Panthéon; le buste de La Fayette est lapidé; mais, au moment où il
semble que le sang va couler, un incident se produit qui n'est pas
l'un des signes les moins curieux ni les moins instructifs de cette
époque d'anarchie. Depuis que les «écoles» avaient été exaltées
pour avoir combattu sur les barricades de Juillet, depuis qu'elles
avaient été courtisées par les hommes d'État et qualifiées de
«glorieuse jeunesse» par Louis-Philippe, elles se considéraient
comme une sorte de pouvoir public, ayant mission pour intervenir
dans les affaires de l'État et pour imposer sa volonté au
gouvernement. Plus d'une fois, au cours des récentes émeutes, La
Fayette et M. O. Barrot avaient traité avec ce pouvoir, en lui
promettant une modification de la politique ministérielle. Cette fois
encore, en face d'un conflit imminent, ils croient habile d'obtenir,
avec des promesses analogues, que les écoliers veuillent bien
prendre la cause de l'ordre sous leur haute protection. Ceux-ci ne s'y
refusent pas, mais, pour bien marquer à quelle condition, ils
affichent sur tous les murs, avec l'approbation du préfet de la Seine,
une proclamation où l'on lit: «Le Roi, notre élu, La Fayette, Dupont
de l'Eure, Odilon Barrot, nos amis et les vôtres, se sont engagés sur
l'honneur à l'organisation complète de la liberté qu'on nous
marchande et qu'en juillet nous avons payée comptant.» Ils
menacent de rappeler le peuple aux armes, si ces engagements ne
sont pas tenus, si l'on «ne donne pas une base plus républicaine aux
institutions». Puis, après s'être ainsi posés en arbitres entre le
gouvernement et l'émeute, les étudiants et les élèves de l'École
polytechnique se promènent dans les rues, portant sur leurs
chapeaux les mots: Ordre public. Grâce à la mobilité des foules, ils
entraînent à leur suite ceux qui, quelques heures auparavant,
voulaient se battre. Avant de rentrer chez eux, ils imposent leur
visite au Roi, qui se croit obligé de les féliciter de leur «bon esprit».

III

On avait esquivé tant bien que mal le désordre matériel, la bataille


dans la rue: au prix de quelles équivoques, de quels abaissements,
de quel désordre moral, c'est ce dont les ministres n'étaient pas
hommes à avoir grand souci. Néanmoins une question s'imposait
tout de suite à eux. La Fayette et M. O. Barrot s'étaient portés fort
pour le gouvernement et avaient pris des engagements envers
l'émeute; maintenant, eux et leurs amis réclamaient publiquement la
ratification et l'accomplissement de ces engagements, du ton de
gens qui n'admettaient même pas qu'on pût leur résister; c'était au
nom de la garde nationale, alors seule dépositaire de la force
publique, qu'ils prétendaient poser des conditions à la monarchie
nouvelle[200]; et à entendre les prédictions effarées des uns comme
les impérieuses menaces des autres, il semblait que l'insurrection dût
être la conséquence immédiate du moindre refus. Par lui-même, M.
Laffitte n'eût pas été disposé à faire longue résistance; seulement il
lui fallait tenir compte du Roi; celui-ci comprenait qu'autant vaudrait
déposer immédiatement sa couronne que de céder à de telles
exigences. Pour satisfaire Louis-Philippe, le ministre déclarait dans le
Moniteur que «le gouvernement n'avait pris aucun engagement», et
en même temps il se flattait de consoler les révolutionnaires en
obtenant, de la faiblesse complaisante des députés, des
remercîments pour «la jeunesse des écoles». Mais celle-ci ne voulut
pas se laisser payer en phrases; par trois protestations distinctes qui
rivalisaient d'insolence factieuse, les élèves de l'École polytechnique,
les étudiants en droit et les étudiants en médecine repoussèrent ces
remercîments, et, devant cette rebuffade, l'infortuné ministre fut
réduit à balbutier de piteuses explications, où sa dignité et sa
sincérité avaient également à souffrir.
Plus le désaccord s'accentuait entre le gouvernement et les
révolutionnaires, plus La Fayette sentait sa situation devenir
embarrassante et fausse. Il saisit la première occasion d'en sortir par
un éclat. La Chambre discutait alors la loi organique de la garde
nationale. Conduite à se demander si, dans un régime normal, il y
avait place pour un commandant général de toutes les gardes
nationales du royaume, elle supprima en principe cette fonction,
couvrant, du reste, de fleurs La Fayette, et le laissant provisoirement
en possession[201]. Celui-ci se sentit atteint, et offrit sa démission.
Grisé d'encens, infatué de soi, mal éclairé sur le changement des
esprits, ne comprenant pas qu'il commençait à fatiguer et à
inquiéter, il s'attendait à voir capituler aussitôt la Chambre et le
gouvernement, épouvantés à la seule idée de sa retraite. L'émotion
fut, en effet, très-vive dans le cabinet, et le premier mouvement fut
de tout employer pour faire renoncer le général à son dessein. M.
Laffitte croyait, comme toujours, qu'il était aisé de «tout arranger»,
et il se faisait fort de dissiper, par quelques minutes d'entretien, ce
regrettable malentendu. À l'épreuve, il rencontra plus de difficultés
qu'il n'en prévoyait. D'une part, La Fayette, qui, dans son
outrecuidance, s'imaginait tenir le gouvernement à sa merci,
formulait des exigences inacceptables même pour M. Laffitte:
changement de ministère, suppression immédiate de la Chambre des
pairs, convocation d'une assemblée nouvelle chargée seulement de
faire une loi électorale et d'établir un suffrage presque universel.
D'autre part, si le Roi partageait ou du moins jugeait utile de paraître
partager la tristesse et le trouble de ses ministres, il devait
cependant au fond se consoler d'être débarrassé d'un tel protecteur;
peut-être n'avait-il pas été sous main étranger à l'incident
parlementaire qui avait amené la démission, et il n'était pas disposé
à payer de sa propre abdication le retrait de cette démission; aussi,
tout en affectant avec M. Laffitte de ne chercher qu'un
raccommodement, tout en multipliant à cet effet les démonstrations
et les démarches, veillait-il, avec une sagesse habile et clairvoyante
qui commençait à être plus libre de se montrer et d'agir, à ce que le
ministre ne consentît pas une capitulation humiliante et désastreuse.
Dès lors, la rupture était inévitable, et le cabinet, acculé malgré lui à
faire acte de force, se décida à accepter la démission de La Fayette
et à le remplacer par le général comte de Lobau[202]. Tout tremblant
de son involontaire hardiesse, il attendait avec angoisse quel effet
elle produirait dans l'opinion. Mais vainement La Fayette chercha-t-il
à émouvoir ses «frères d'armes», se posant en victime; vainement
les journaux de gauche éclatèrent-ils en emportements
indignés[203]; vainement les «patriotes» colportèrent-ils des
protestations contre la «scandaleuse ingratitude» de la monarchie;
vainement M. Dupont de l'Eure donna-t-il, lui aussi, cette démission
dont il avait si souvent menacé[204]: personne ne bougea; la masse
demeura calme, presque indifférente; le Roi, passant en revue, avec
le nouveau commandant, les diverses légions de la garde nationale,
fut partout chaleureusement accueilli; M. Mérilhou remplaça sans
scrupule son ami M. Dupont de l'Eure au ministère de la justice[205];
M. Odilon Barrot lui-même resta à son poste, après avoir provoqué
de M. Laffitte une explication où celui-ci lui déclara—ce qui ne lui
coûtait jamais—qu'il était parfaitement d'accord avec lui[206]. Rude
châtiment pour la vanité de La Fayette; leçon aussi pour la timidité
du gouvernement qui avait trop douté de sa force; il apparaissait dès
lors que sa faiblesse tenait non-seulement à la situation, mais aussi
à son défaut de confiance et de courage.

M. Laffitte n'était capable d'écouter ni de comprendre aucune


leçon. Plus que jamais il était satisfait de tout et principalement de
lui-même. L'ambassadeur étranger auquel il avait déjà témoigné sa
sérénité confiante, au début de son ministère, ayant eu l'occasion de
causer de nouveau avec lui, dans les premiers jours de janvier,
racontait, non sans une surprise légèrement railleuse, qu'il l'avait
retrouvé «plus content et plus assuré encore qu'au mois de
novembre, en plein optimisme, et regardant toutes les circonstances
comme favorables[207]». Le président du Conseil était sincèrement
et naïvement convaincu que, de ces événements dont il n'avait
cependant dirigé aucun, il sortait grandi, avec plus de crédit auprès
des conservateurs, et plus d'autorité sur les révolutionnaires. Le
contraire était la vérité. À gauche, les ardents ne lui pardonnaient
pas la retraite de La Fayette et de Dupont de l'Eure. Bientôt le
licenciement de l'artillerie de la garde nationale leur fournit un
nouveau grief[208]. Sans doute, de ce côté, on ménageait encore
personnellement M. Laffitte; on regrettait son défaut d'énergie ou de
puissance, sans contester ses bonnes intentions; mais on ne se
déclarait plus ministériel, et le National poussait vivement ses amis à
se constituer en opposition, avec La Fayette pour chef. À droite, on
n'ignorait pas que M. Laffitte n'était pas changé: on le voyait
continuer, comme par le passé, à chercher, dans le monde
révolutionnaire, les familiers auxquels il se livrait et livrait le
gouvernement avec tant d'indiscrétion et de complaisance. Pourquoi
lui eût-on tenu compte de l'éloignement de La Fayette, qui était
l'œuvre de la Chambre—et peut-être du Roi,—mais non la sienne?
Quant au procès des ministres, si l'on se félicitait de son issue, la
conduite qu'y avait suivie le cabinet ne paraissait de nature à lui
mériter ni grande admiration pour le passé ni grande confiance pour
l'avenir. D'ailleurs, ce procès une fois terminé, disparaissait l'une des
principales raisons qui avaient déterminé les conservateurs à
accepter M. Laffitte; si l'on ne croyait pas encore le moment venu de
prendre l'offensive contre le cabinet et de précipiter sa chute, on
était moins empressé que jamais à le soutenir: à peine consentait-on
à le tolérer. M. Guizot, chaque jour plus ferme, mieux dégagé des
compromissions du premier moment, se faisait applaudir de la
majorité, en parlant le langage qu'elle eût attendu du ministère,
opposait les principes de gouvernement aux sophismes
révolutionnaires, protestait contre le «pouvoir extérieur» que
l'émeute prétendait s'attribuer, et soulageait la conscience publique
en flétrissant les violences ou les lâchetés du parti qui se disait
«propriétaire exclusif de la révolution de 1830», de «ce parti
inquiétant et faible, à la fois cause des troubles et impuissant à les
réprimer»; il n'attaquait pas directement le cabinet, mais indiquait
qu'il comptait moins sur lui que sur la «société française» elle-même,
pour faire l'œuvre de défense et de salut[209].

Ne trouvant d'appui ni à droite ni à gauche, le ministère était hors


d'état de gouverner: il semblait d'ailleurs n'en avoir ni le désir ni
même l'idée. Il n'exerçait aucune direction sur la Chambre, qui
agissait comme si elle ignorait à peu près son existence. Les partis
se battaient par-dessus sa tête. La majorité proposait et votait, en
dehors de lui, les lois les plus importantes, ou remaniait les projets
qu'il avait présentés, sans s'inquiéter autrement des échecs qu'elle
pouvait ainsi lui infliger. C'est ce qui se produisit notamment pour les
lois sur la garde nationale, sur l'organisation municipale, sur le jury,
sur l'amortissement, sur l'impôt direct.

Cette absence de gouvernement n'était pas moins sentie dans le


pays que dans le parlement, et nul ne se gênait pour témoigner aux
ministres un mépris, pour leur faire des affronts, dont on chercherait
vainement l'analogue à d'autres époques. En veut-on un exemple?
Pour remédier au désordre croissant des écoles, le ministre avait cru
devoir invoquer une ordonnance de 1820, interdisant aux élèves
«d'agir ou d'écrire en nom collectif comme s'ils formaient une
corporation». Des étudiants ayant protesté et ayant été cités de ce
chef devant le conseil académique, la «jeunesse des écoles» envahit
et saccagea la salle où se tenait le conseil, hua le ministre et le
procureur général, leur jeta des pierres, des œufs et de la boue, et
les obligea à s'enfuir, le tout sans que l'autorité prît aucune mesure
de répression[210].

Situation pitoyable, dont les journaux de gauche eux-mêmes


renonçaient à dissimuler la misère. Le National montrait de toutes
parts des «embarras de gouvernement»; il dénonçait la «suspension
forcée de toute activité sociale au milieu des incertitudes de la
politique,... tout le monde mécontent de n'être pas gouverné ou de
l'être ridiculement»; il rappelait les désastres du «commerce, qui
s'était promis merveille de la révolution, et que la révolution semblait
achever»; puis il ajoutait: «La voix de la nation entière n'est qu'une
plainte, comme disait un poëte romantique. Il n'est personne qui ne
soit mécontent de tout le monde[211].»
CHAPITRE V
LA QUESTION EXTÉRIEURE SOUS M. LAFFITTE.
(2 novembre 1830—13 mars 1831)

I. Déclarations pacifiques et armements. Le péril extérieur s'aggrave. Heureuse


action du Roi. Les affaires belges. Les whigs au pouvoir. Lord Palmerston. Il
s'oppose à tout agrandissement de la France. Les premières décisions de la
Conférence de Londres. Accueil qui leur est fait en Hollande et en Belgique.
Les Belges à la recherche d'un roi. Le gouvernement français et la candidature
du duc de Nemours. Dispositions du gouvernement anglais. Le duc de
Leuchtenberg. Élection du duc de Nemours. Louis-Philippe refuse la couronne
pour son fils. La Belgique proteste contre les décisions des puissances. Le
ministère français refuse d'adhérer aux protocoles de la Conférence.
Refroidissement entre la France et l'Angleterre. M. de Talleyrand n'exécute pas
les instructions de son ministre.—II. La Pologne. Sa popularité en France.
Impuissance de l'action diplomatique tentée en sa faveur.—III. Le contre-coup
de la révolution de Juillet en Italie. L'Autriche annonce qu'elle ne tiendra pas
compte du principe de non-intervention. Louis-Philippe tend à limiter
l'application de ce principe. Déclarations absolues faites à la tribune par M.
Laffitte et ses collègues. Les insurrections éclatent dans l'Italie centrale. Le
gouvernement de Vienne annonce l'intention d'intervenir. Embarras du
gouvernement français. Le Roi et ses ministres. Tout en renonçant à empêcher
l'intervention par les armes, ils tâchent de la limiter. Proposition d'une
Conférence à Rome. M. de Sainte-Aulaire est nommé ambassadeur près le
Saint-Siége.—IV. Exaltation croissante en France du parti patriote et
révolutionnaire. Ses illusions, ses attaques contre la politique pacifique du
gouvernement. Armand Carrel. Le général Lamarque et M. Mauguin. La
propagande insurrectionnelle. Inconséquence de La Fayette. Son entourage
cosmopolite. Ménagements du ministère pour le parti belliqueux. Défiance des
cabinets étrangers. Pour éviter la guerre, il faut un ministère qui ose rompre
avec les révolutionnaires.
I

Le cabinet formé le 2 novembre 1830 s'était annoncé comme


voulant la paix. Dès le 13 novembre, le ministre des affaires
étrangères, qui fut pendant quelques jours le maréchal Maison,
faisait cette déclaration: «Tout nous confirme dans la confiance que
l'Europe pourra conserver le plus grand des bienfaits, la paix;... la
paix que la voix d'un soldat ne craint pas d'appeler quelque chose de
préférable même à la victoire. La France peut se glorifier d'un aussi
rare exemple de modération et de désintéressement... Elle a pensé
que le principe moral de la non-intervention valait mieux que la
tentation des souvenirs.» Et peu après, le général Sébastiani, qui
avait remplacé le maréchal Maison, disait de même: «Nos vœux, nos
efforts sont pour le maintien de la paix. Nous n'aurons recours aux
armes que pour la défense de notre territoire, et pour venger
l'honneur national outragé.» Toutefois cette paix était une paix
armée. Le gouvernement estimait, non sans raison, que l'état de la
France et de l'Europe, les armements des autres puissances, de
l'Autriche, de la Russie, de la Prusse et même de la Confédération
germanique, exigeaient une augmentation immédiate de nos forces
militaires. Ce fut la tâche du maréchal Soult, appelé au ministère de
la guerre. L'armée, qui ne comptait à la fin de la Restauration que
231,000 hommes, et qui avait été diminuée encore de 33,000
hommes par le licenciement de la maison militaire du Roi, de la
garde et des Suisses, fut portée à 434,000 hommes, par des appels
faits sur la classe de 1830 et sur les classes antérieures. Telle était
l'excellence de l'organisation due au maréchal Gouvion-Saint-Cyr que
cette énorme augmentation put se faire sans création de nouveaux
cadres. Des travaux considérables furent entrepris pour mettre en
état nos fortifications et pour remplir nos arsenaux. Enfin, par une
mesure moins efficace, mais qui répondait aux illusions du temps,
les gardes nationales furent partout organisées, et 860,000 fusils
leur furent distribués, au risque de faire un vide dangereux dans nos
magasins. Le ministère ne cachait pas ces armements; il entrait
même dans sa politique d'en faire quelque étalage à la tribune, pour
satisfaire l'opinion du dedans et avertir celle du dehors. «Nous
continuerons à négocier, disait M. Laffitte le 1er décembre, et tout
nous fait espérer que ces négociations seront heureuses; mais, en
négociant, nous armerons;... nous négocierons appuyés de 500,000
soldats et d'un million de gardes nationaux.» Le 28 décembre, il
rappelait encore comment, en présence des mesures militaires prises
par les autres puissances, la France armait «pour être prête à tout».
«Elle n'interrompra ses armements, ajoutait-il, que lorsqu'elle aura
reçu l'assurance et la preuve qu'ils ont cessé partout.»

En tout temps, c'est chose délicate et qui exige beaucoup de


mesure, de prudence et de fermeté, que de conserver la paix en
armant avec fracas. Ces armements prennent plus ou moins le
caractère d'une provocation à l'égard des autres puissances; ils sont
surtout une excitation pour la nation qui les fait. Le danger était
rendu plus grand encore par l'état de fièvre et d'inquiétude où les
suites de la révolution de Juillet avaient mis la France et l'Europe.
Ajoutez qu'à ce même moment, une sorte de fatalité semblait
précipiter au dehors les événements les plus propres à exciter les
alarmes défiantes des gouvernements étrangers et les téméraires
ardeurs des patriotes français. Partout se soulevaient à la fois des
questions, dont une seule eût suffi, même à une époque moins
troublée, pour mettre en jeu la paix du monde. Ce n'était plus
seulement la Belgique qui prenait feu aux étincelles parties de Paris,
et imposait à notre diplomatie un problème redoutable, périlleux,
dont on était loin d'avoir trouvé la solution. À l'autre extrémité de
l'Europe, dans la nuit du 29 novembre 1830, Varsovie brisait ses
fers; tout le royaume de Pologne suivait son exemple; les régiments
polonais passaient à l'insurrection, et, entre l'opprimé et l'oppresseur,
s'engageait cette lutte tragique où à tant d'héroïsme devait se mêler
si peu de prudence politique, au plus pur patriotisme bien des
passions révolutionnaires. Deux mois après, des insurrections
éclataient dans l'Italie centrale. De la France paraissait toujours être
parti le signal; vers la France se tournaient tous les peuples en
armes. C'était son nom, son exemple, ses idées, son appui qu'ils
invoquaient.

Que serait-il arrivé, si, pour se guider au milieu de telles difficultés


et échapper à de tels périls, on n'avait eu que l'indolence
complaisante et présomptueuse de M. Laffitte et sa tactique de
«laisser-aller»? Mais le Roi était là, vigilant, résolu à faire prévaloir
les idées pacifiques qui avaient dès son avénement inspiré sa
conduite. Il profitait même de l'insouciance et de la légèreté du
premier ministre pour mettre de plus en plus la main sur la direction
de la politique extérieure. Ainsi avait-il pu, au bout de peu de jours,
faire passer sans bruit au ministère des affaires étrangères le général
Sébastiani, esprit sagace, modéré en dépit de quelques vivacités
méridionales et de quelques réminiscences napoléoniennes, et
surtout très-dévoué au souverain, dont il subissait l'influence. En
pareille matière, Louis-Philippe n'avait aucune confiance dans les
autres ministres, et les tenait le plus possible à l'écart. Parfois, de
graves décisions, prises par lui avec le seul concours du général
Sébastiani ou de M. de Talleyrand, furent volontairement celées au
président du conseil, dont on redoutait tout au moins la faiblesse et
l'indiscrétion. Les chancelleries étrangères étaient au courant de
cette situation; en certains cas, elles envoyaient à leurs
ambassadeurs à Paris double dépêche, l'une ostensible, l'autre
uniquement destinée au Roi et au général Sébastiani[212]. Que ces
procédés fussent d'une parfaite correction constitutionnelle, nul ne
saurait le prétendre. Mais n'étaient-ils pas justifiés par le péril?
Suffisaient-ils même à l'écarter complétement?

Les affaires belges furent les premières dont le Roi eut à


s'occuper[213]. Il s'efforça de maintenir la politique dont les grandes
lignes avaient été arrêtées dès le début: empêcher la reconstitution
du royaume des Pays-Bas; défendre, dans l'indépendance de la
Belgique, les droits d'un peuple ami et un intérêt français de premier
ordre; mais, afin d'éviter l'isolement de la France et la coalition de
l'Europe, obtenir le concours de l'Angleterre, en lui donnant, de notre
désintéressement, les garanties qui seraient jugées nécessaires;
rassurer enfin les monarchies qu'eût effarouchées une procédure
révolutionnaire, en remettant la solution de la question à l'aréopage
diplomatique de la conférence de Londres. M. de Talleyrand, premier
inspirateur de cette politique, avait, comme ambassadeur de France
en Angleterre, une part prépondérante dans son exécution. Les
ministres tories, avec lesquels il avait commencé la négociation,
durent, le 15 novembre 1830, peu de jours après l'avénement de M.
Laffitte, céder la place aux whigs; lord Grey remplaça lord
Wellington. Il semblait qu'un tel changement ne pût que nous être
favorable. Naguère, à l'ouverture de la session, lorsque le ministère
tory avait mis dans la bouche du Roi un langage sévère sur la
révolution de Bruxelles, lord Grey et ses amis avaient blâmé ce
discours, comme inopportun, injuste, contraire au principe de non-
intervention qu'ils déclaraient commandé par les plus chers intérêts
de l'Angleterre. Et puis l'alliance française n'était-elle pas depuis
longtemps une tradition des whigs? Ceux-ci pouvaient-ils songer à la
répudier, au moment où le mouvement libéral qui venait de les
porter au pouvoir était dû en grande partie à l'influence de la
révolution de Juillet? Tout cependant n'était pas avantage dans ce
changement. Le nouveau chef du Foreign Office se trouvait être un
homme d'un esprit sagace, actif, vigoureux, mais âpre, passionné,
poussant à ce point l'arrogance, la jalousie, l'égoïsme du patriotisme
anglais, qu'il en devenait l'ennemi de la France et surtout de la
monarchie de 1830: on a nommé lord Palmerston. À cette époque,
son animosité était moins vive et surtout plus voilée qu'elle ne le
sera plus tard; ostensiblement il paraissait rechercher avec le cabinet
de Paris l'accord qui était désiré par ses collègues; c'est même dans
sa correspondance de cette époque que se trouve pour la première
fois l'expression d'«entente cordiale», plus tard si fameuse[214]. Le
principe de «non-intervention» avait été l'un des principaux articles
de son programme. Cependant il était visible que, tout en se
résignant à la dislocation du royaume des Pays-Bas, sa principale
préoccupation était que la France n'en tirât pas d'avantages. Il
déclarait bien haut qu'elle ne devait rien y gagner, fût-ce «un champ
de choux». Les hommes de 1830 s'imaginaient alors, avec une
naïveté toute française, que les nations libérales les aideraient, pour
le seul amour et la plus grande gloire du libéralisme, et que
l'Angleterre, surtout l'Angleterre des whigs, devait s'intéresser au
succès du nouveau Guillaume III. Il faut voir de quel ton lord
Palmerston rabroue ces illusions: «Les Français, écrivait-il à l'un de
ses amis, viennent continuellement à nous avec cet argument: Voyez
donc toutes nos difficultés et comme on nous presse de tous côtés!
—Eh! pourquoi est-ce que nous désirerions vous maintenir[215]?» Au
moindre de nos mouvements dans cette affaire belge, il croyait
toujours voir reparaître les «usurpations françaises», le «vieil et
détestable esprit d'agression», ce qu'il appelait le «pied fourchu sous
un nouveau déguisement[216]»; et d'après les précautions
soupçonneuses, souvent injurieuses, qu'il prenait dans ses
négociations, on eût dit qu'il traitait avec les pires des ambitieux et
des fourbes.

Plus que jamais donc, il nous fallait, pour maintenir l'entente avec
l'Angleterre, renoncer à tout avantage direct. M. de Talleyrand en
avait été convaincu dès le premier jour. Il semble cependant qu'à
plusieurs reprises, il ait alors sondé le terrain pour voir s'il serait
possible d'être moins absolument désintéressé. Un jour, s'il faut en
croire le témoignage, suspect, il est vrai, de lord Palmerston, il
lançait cette idée hardie de mettre le roi de Saxe à Bruxelles, de
donner la Saxe à la Prusse et les provinces rhénanes à la France;
d'autres fois, il se contentait de demander pour son pays soit
Luxembourg, soit une partie des provinces wallonnes, ou de
revendiquer les «petites frontières», celles de 1790 et de 1814, qui
nous eussent fait rentrer en possession de Marienbourg et de
Philippeville[217]. Mais qu'il réclamât peu ou beaucoup, il ne pouvait
tromper la vigilance hargneuse de lord Palmerston, et se heurtait,
chez ce dernier, à un refus net et roide. «Vous devez faire entendre
à toute occasion, écrivait le ministre anglais à son ambassadeur à
Paris, que, si désireux que nous soyons d'être dans la meilleure
entente avec la France et dans les termes de l'amitié la plus intime,
ce n'est cependant que sous la condition qu'elle se contente de
posséder le plus beau territoire de l'Europe et ne songe plus à ouvrir
un nouveau chapitre d'empiétements et de conquêtes[218].» Il est à
supposer que M. de Talleyrand était le dernier à s'étonner de
l'insuccès de ses ouvertures; mais on le pressait de Paris; les
ministres eussent voulu donner satisfaction au désir, alors plus vif et
plus répandu que jamais en France, d'un certain accroissement de
territoire, d'un pas fait vers la reprise de ce qu'on appelait les
«frontières naturelles[219]». Peut-être aussi le vieux diplomate, fort
expert dans tous les tours de son métier, ne feignait-il de demander
ce qu'il savait bien devoir lui être refusé, que pour détourner, pour
user en quelque sorte sur ce sujet la résistance des autres
puissances, et être plus sûr d'obtenir ensuite les avantages vraiment
essentiels[220].

Quoi qu'il en soit, notre ambassadeur se gardait d'insister sur les


demandes qui risquaient d'éloigner l'Angleterre de la France; au
besoin même, il ne tenait pas compte des instructions contraires du
cabinet français[221]. Il avait aussi peu de rapports que possible avec
des ministres dont les idées et l'entourage lui étaient suspects,
correspondait avec le Roi par l'entremise de Madame Adélaïde,
agissait même parfois de son chef et sous sa propre responsabilité.
«Je n'en parle pas à Paris, écrivait-il un jour à madame de Dino,
parce qu'on me donnerait des instructions, et que je veux agir sans
en avoir.» Tout l'effort de sa diplomatie s'employait à maintenir, à
affermir l'accord des deux puissances occidentales, accord avec
lequel on pouvait alors tout imposer à l'Europe, et sans lequel on
n'eût rien obtenu. Les diplomates étrangers voyaient son travail et
ne pouvaient s'empêcher d'admirer son succès. «L'ambassadeur de
France, écrivait l'envoyé sarde le 27 novembre, seconde à merveille
la disposition du nouveau cabinet anglais à se rapprocher du
gouvernement français et à s'entendre avec lui; il étonne par son
activité, par la présence et la clarté de son esprit à un âge si
avancé.» Quelques semaines plus tard, le 30 décembre, le même
témoin constatait qu'entre les deux cabinets de Londres et de Paris,
il y avait «une union et une cordialité telles qu'on n'en avait pas vu
depuis le temps de Robert Walpole et du cardinal Fleury[222]». Cette
entente en imposa aux autres puissances, et la Conférence de
Londres se laissa tout de suite engager dans la voie qui devait la
conduire à cette Belgique indépendante et neutre désirée par la
politique française.

En effet, le premier acte de cette Conférence (protocole du 4


novembre 1830) fut d'inviter les deux parties belligérantes à une
suspension des hostilités, en assignant pour ligne de démarcation les
frontières des Provinces-Unies, telles qu'elles existaient avant le
traité du 30 mai 1814. Si soigneux que l'on fût de déclarer dans ce
protocole que l'armistice ne préjugeait en rien les questions «dont
les cinq cours auraient à faciliter la solution», ce n'en était pas moins
un pas considérable fait par l'Europe vers la séparation de la
Belgique et de la Hollande. Les Belges profitèrent du temps qui leur
était ainsi assuré pour mettre les puissances en présence de faits
accomplis. Le congrès national, réuni à Bruxelles, le 10 novembre,
proclama, le 18, l'indépendance de la Belgique, adopta, le 22,
comme forme de gouvernement, la monarchie constitutionnelle, et
enfin, le 24, malgré les avis comminatoires des puissances et les
conseils amis de la France, prononça la déchéance de la maison
d'Orange-Nassau, et son exclusion perpétuelle de tout pouvoir en
Belgique[223]. Ce dernier défi était peut-être de nature à donner aux
armées prussiennes et russes le prétexte qu'elles semblaient
attendre pour agir. Qui sait ce qui serait arrivé si, à ce moment
précis, l'attention et les forces du Czar ne s'étaient trouvées
subitement détournées et absorbées par la formidable insurrection
de Pologne? Grâce à cette diversion, la Conférence put continuer
tranquillement son œuvre, et la diplomatie française en profita pour
obtenir d'elle un acte décisif: un protocole, en date du 20 décembre
1830, déclara que «l'amalgame parfait et complet que les puissances
avaient voulu opérer entre la Belgique et la Hollande, n'ayant pas été
obtenu et étant désormais impossible, il était devenu indispensable
de recourir à d'autres arrangements pour accomplir les intentions à
l'exécution desquelles cette union devait servir de moyen»; le
gouvernement provisoire de Bruxelles était invité à envoyer des
commissaires à Londres qui seraient «consultés et entendus»; le
protocole stipulait toutefois que «ces arrangements ne pourraient
affecter en rien les droits que le roi des Pays-Bas et la Confédération
germanique exerçaient sur le grand-duché de Luxembourg». La
Conférence prononçait donc en principe la dissolution du royaume
des Pays-Bas. Aussi, le 28 décembre, M. Laffitte annonça-t-il
triomphant, à la Chambre des députés, que «les cinq puissances
venaient de reconnaître et avaient signé en commun l'indépendance
de la Belgique», et il ajouta: «Cette grande question, de laquelle on
pouvait craindre une occasion de guerre, la voilà donc résolue dans
son point essentiel!»

À peine le roi de Hollande connut-il le protocole du 20 décembre


qu'il poussa un cri de douleur et de colère: il le dénonça comme une
œuvre d'iniquité, comme un acte qui sanctionnait les résultats d'une
révolte injuste et compromettait la stabilité de tous les trônes; il
n'admettait pas que la Conférence, «convoquée pour coopérer au
rétablissement de l'ordre dans les Pays-Bas», aboutît «au
démembrement du royaume». Ne semblait-il pas, par contre, qu'on
dût être satisfait à Bruxelles? Il n'en fut rien. Les Belges, tout exaltés
par leur révolution, n'admettaient pas qu'on prétendît leur imposer
des obligations au nom de l'équilibre européen; ils s'indignaient
qu'on refusât de leur attribuer le Luxembourg et le Limbourg, qui
avaient fait cause commune avec eux dans l'insurrection et certains
autres territoires, tels que la rive gauche de l'Escaut, qu'ils
prétendaient, par certaines raisons historiques ou géographiques,
devoir leur appartenir; aussi protestèrent-ils contre le protocole, et
en même temps le gouvernement provisoire déclara, dans une
proclamation solennelle aux habitants du Luxembourg, que «leurs
frères des autres provinces ne les abandonneraient jamais et ne
reculeraient devant aucun sacrifice pour les conserver dans la famille
belge».

La Conférence, sans se fâcher, refusa d'accepter les protestations


des deux parties, et, statuant comme arbitre, détermina dans son
protocole du 10 janvier 1831 les «bases de séparation» de la
Belgique et de la Hollande. La Hollande, d'après ce protocole, devait
comprendre tous les territoires qui appartenaient, en 1790, à la ci-
devant république des provinces unies des Pays-Bas. La Belgique
serait formée de tout le reste des territoires qui avaient reçu la
dénomination de royaume des Pays-Bas dans le traité de 1815,
«sauf le grand-duché de Luxembourg, qui, possédé à un titre
différent par les princes de la maison de Nassau, continuerait à faire
partie de la Confédération germanique». Suivait une déclaration par
laquelle les cinq puissances garantissaient à la Belgique sa neutralité
perpétuelle et l'inviolabilité de son territoire, la Belgique s'engageant
de son côté à observer cette même neutralité. La diplomatie
française eût désiré sans doute faire comprendre le Luxembourg
dans le nouvel État. M. de Talleyrand avait «lutté comme un
dragon[224]» pour l'obtenir, prolongeant les discussions pendant sept
heures de suite; mais il avait cédé à la fin, «secrètement enchanté,
écrivait le lendemain lord Palmerston, d'avoir fait établir la neutralité
de la Belgique[225]». Cette neutralité vivement combattue par la
Prusse[226] était en effet un avantage capital pour la France, dont
elle mettait à couvert l'une des frontières les plus exposées. Un autre
protocole du 27 janvier compléta le précédent, en réglant le partage
des dettes du royaume du Pays-Pas, entre la Hollande et la Belgique.
Cette fois encore la Conférence, au lieu des remercîments des
Belges, reçut leurs protestations indignées et presque injurieuses.

Pendant que la Conférence prenait ces diverses décisions; le


congrès de Bruxelles, de son côté, poursuivait une œuvre qui
intéressait toutes les puissances: il s'occupait de choisir le roi qui
devait être placé à la tête du nouvel État. Spectacle singulier, en
vérité, que celui de cette assemblée souveraine de deux cents
membres, occupée, pendant tout un mois, à chercher en Europe un
souverain, discutant publiquement les titres des candidats, recevant
à la tribune les communications des cabinets étrangers, le tout en
présence d'une population encore échauffée de sa dernière
révolution! En Belgique, les hommes politiques comme la nation
eussent désiré le jeune duc de Nemours, second fils de Louis-
Philippe[227]; mais le gouvernement français s'était rendu compte
que, pour avoir le concours de l'Angleterre, il fallait se refuser à cette
candidature, autant qu'à l'annexion pure et simple. Si tentant que
pût être cette sorte d'essaimage de notre famille royale, il ne valait
certes pas le risque d'une guerre contre l'Europe coalisée. Ainsi que
l'écrivait, l'année suivante, M. Thiers, «nous ne pouvions pas donner
le duc de Nemours, car ce n'était pas la réunion pour nous, et c'était
autant que la réunion pour les puissances; c'était, par conséquent, la
guerre pour un simple intérêt de famille». Le Roi avait pris tout de
suite son parti, et il ne s'en était caché ni à l'Europe, ni aux Belges.
Dès le mois d'octobre 1830, aux premières ouvertures qu'on lui avait
fait faire à ce sujet de Bruxelles, il avait répondu d'une façon peu
encourageante[228]. Plus les Belges insistaient, plus son refus
devenait net. «Il serait doux pour mon cœur et flatteur pour un
père, dit, le 2 janvier, Louis-Philippe à l'envoyé de Bruxelles, de voir
un de mes fils appelé au trône de la Belgique... Mais une guerre
générale en serait la suite inévitable. Aucune considération ne
pourrait me décider à me faire accuser d'avoir allumé une
conflagration générale par mon ambition, pour placer mon fils sur un
trône. D'ailleurs, la liberté sort rarement victorieuse de la guerre;
vous avez, comme nous, intérêt à conserver la paix. Mais si votre
indépendance était attaquée, je n'hésiterais pas, je ne consulterais
que les devoirs que m'imposeraient l'humanité et les vives
sympathies que j'éprouve, ainsi que toute la France, pour votre
cause. Je suis persuadé que je serais secondé par la nation tout
entière.» Pendant les jours qui suivirent, les envoyés belges
renouvelèrent plusieurs fois leurs instances; le langage du
gouvernement français fut invariable. «Si la Belgique venait s'offrir à
nous, ou bien nous demander un de nos princes pour roi, disait, le 6
janvier, le général Sébastiani, quelque douloureux qu'il fût pour nous
de prononcer un refus, il le serait pourtant. Rien ne peut faire
départir le gouvernement de cette résolution.» Et ces réponses
n'étaient pas faites à huis clos; elles étaient aussitôt portées à la
tribune du congrès de Bruxelles. Le gouvernement français conseilla
aux Belges déporter leur choix sur le prince Othon, deuxième fils du
roi de Bavière, ou sur le prince Charles de Capoue, frère de
Ferdinand II, roi des Deux-Siciles; ce second prince, Bourbon et
neveu de la reine des Français, était même le candidat préféré du
Palais-Royal. Mais aucun des deux ne plaisait aux Belges, qui
voulaient un roi leur apportant en dot la protection d'une grande
puissance; ils objectaient d'ailleurs que tous deux étaient mineurs; le
Bavarois avait quinze ans, le Napolitain dix-neuf. Lord Palmerston,
sans opposer ouvertement son veto, insistait avec complaisance sur
cette objection tirée de l'âge. «Un pays qui sort du chaos d'une
révolution et où il faut rétablir l'ordre, disait-il, a besoin pour roi d'un
homme dans la plénitude de l'âge, et un garçon de dix-neuf ans
n'est pas ce qu'il lui faut[229].»

Quel était le candidat du gouvernement anglais? Au fond, ses


préférences eussent été pour le prince d'Orange, alors installé à
Londres. Lord Palmerston ne s'en cachait pas, sans vouloir
cependant sur ce point violenter les Belges. Subsidiairement, il avait
mis en avant le nom de Léopold de Saxe-Cobourg[230], en indiquant
qu'il pourrait être marié à une fille de Louis-Philippe. Léopold avait
alors quarante ans: veuf de la princesse Charlotte, fille unique de
Georges IV, il avait gardé son rang dans la famille royale de Grande-
Bretagne; une de ses sœurs avait épousé, en 1818, le duc de Kent,
et était mère de la princesse Victoria qui devait un jour s'asseoir sur
le trône britannique. Il était donc devenu presque un prince anglais.
Est-ce pour cette raison que le gouvernement français se montra
d'abord disposé à l'exclure, comme le cabinet de Londres excluait le
duc de Nemours? Le général Sébastiani, dans une conversation qu'il
eut, le 8 janvier 1831, avec un envoyé belge, s'exprima même, sur
ce sujet, avec une vivacité probablement peu réfléchie. «En fin de
compte, disait l'envoyé belge, qu'est-ce donc que vous nous
conseillez? Le prince Othon de Bavière, le prince de Naples, c'est-à-
dire deux enfants... Il n'y a que deux candidatures sérieuses, celle
du duc de Nemours et celle du prince de Saxe-Cobourg-Gotha. Vous
les repoussez toutes les deux, quand il s'agit pour nous de vie ou de
mort. Que faire? Dans le péril où vous nous jetez, il ne nous reste
plus qu'une ressource: aller à Londres proposer le prince Léopold
avec alliance française. Si le roi Louis-Philippe persiste à nous refuser
sa fille, nous passerons outre; nous prendrons le prince Léopold sans
princesse française.» À ces mots, le général Sébastiani ne put
contenir sa colère: «Si Saxe-Cobourg, dit-il en se levant, met un pied
en Belgique, nous lui tirerons des coups de canon.—Des coups de
canon! répondit aussitôt l'envoyé belge, nous prierons l'Angleterre
d'y répondre.—Ce sera donc la guerre générale.—Soit, mieux vaut
pour nous une guerre générale qu'une restauration hollandaise, une
humiliation permanente et sans issue.» Le roi Louis-Philippe avait eu
bien garde de s'exprimer avec un tel emportement; interrogé par
l'envoyé belge sur l'accueil qu'il ferait à la candidature du prince de
Cobourg et à un projet de mariage de ce prince avec une de ses
filles; «Je connais depuis longtemps le prince, répondit-il; c'est un
beau cavalier, un parfait gentilhomme, très-instruit, très-bien élevé;
la Reine le connaît aussi et apprécie les avantages de sa personne.
Mais... il y a un mais qui n'a rien de désobligeant pour la personne
et les qualités du prince, il y a des répugnances de famille, des
préjugés peut-être, qui s'opposent à l'union projetée.» Le refus du
gouvernement français empêcha qu'on ne donnât suite à cette
candidature sur laquelle, d'ailleurs, le cabinet anglais n'insista pas.
Chose singulière, on n'avait pas alors, même en Angleterre[231],
grande idée de la capacité du prince de Cobourg, que M. de
Talleyrand traitait de «pauvre sire». Et puis, lord Palmerston donnait
pour instruction, au moins apparente, à ses agents, de ne prendre
parti pour aucun candidat; ou plutôt il ne leur avait donné qu'une
instruction: empêcher la prépondérance française en Belgique; sur
les moyens d'y arriver, il n'avait pas d'idée arrêtée.

Pendant que les deux grandes puissances ne faisaient guère que


se neutraliser mutuellement, une candidature avait surgi qui, tout de
suite, rencontra quelque faveur en Belgique; c'était celle du duc de
Leuchtenberg, fils aîné d'Eugène de Beauharnais et de la princesse
Amélie de Bavière: âgé de vingt ans, il servait dans l'armée
bavaroise[232]. Son nom avait été mis en avant par M. de Bassano,
l'ancien ministre de Napoléon. Le gouvernement français,
consulté[233], ne dissimula pas son opposition à une candidature
dont le succès aurait fait de la Belgique un foyer de manœuvres
bonapartistes[234]. «Ce serait se tromper, disait à ce propos le
général Sébastiani, de croire que le parti bonapartiste n'a plus de
racines en France; au contraire, il est aujourd'hui très-redoutable.»
Louis-Philippe, tout en protestant ne pas vouloir gêner la liberté des
Belges, déclara que «s'ils voulaient conserver la France pour amie»,
ils devaient écarter le fils de Beauharnais, que jamais la France ne le
reconnaîtrait, que jamais la main d'une princesse française ne lui
serait accordée. «De toutes les combinaisons possibles, ajouta-t-il,
c'est la plus désagréable à la France, la moins favorable au repos et
à l'indépendance des Belges.» Cependant, en dépit de cette
opposition, la candidature du duc de Leuchtenberg gagnait du
terrain, tandis que celles du prince Othon de Bavière et du prince
Charles de Naples ne rencontraient aucune faveur. Les journaux de
Bruxelles, les orateurs du congrès reprochaient à la France de leur
refuser la liberté dont elle avait usé en 1830; ils «dénonçaient à la
nation française» la conduite de son gouvernement; quelques-uns
nous accusaient même de prolonger volontairement le provisoire,
dans le dessein machiavélique de provoquer l'anarchie, d'allumer la
guerre civile et de fondre ensuite sur la Belgique épuisée comme sur
une proie facile.

Ces difficultés et l'espèce d'obstruction qui en résultait rendaient


quelque espoir aux orangistes: ceux-ci s'agitaient; de Londres, le
prince d'Orange lançait des manifestes et entretenait des
intelligences en Belgique. Pour mettre fin à une incertitude qui
devenait périlleuse, le congrès décida, le 19 janvier, que la
discussion définitive concernant le choix du souverain commencerait
le 28. Grandes étaient l'anxiété et l'animation des esprits. Le
gouvernement français, désireux d'écarter loyalement toute
équivoque, renouvela ses précédentes déclarations. Une lettre du
général Sébastiani à M. Bresson, représentant de la France à
Bruxelles, lettre qui fut lue, le 13 janvier, à la tribune du congrès,
s'exprimait ainsi: «La situation de la Belgique a fixé de nouveau
l'attention du Roi et de son conseil. Après un mûr examen de toutes
les questions qui s'y rattachent, j'ai été chargé de vous faire
connaître, d'une manière nette et précise, les intentions du
gouvernement du Roi. Il ne consentira pas à la réunion de la
Belgique à la France, il n'acceptera point la couronne pour le duc de
Nemours, alors même qu'elle lui serait offerte par le congrès. Le
gouvernement verrait dans le choix du duc de Leuchtenberg une
combinaison de nature à troubler la tranquillité de la France. Nous
n'avons pas le projet de porter la plus légère atteinte à la liberté des
Belges dans l'élection de leur souverain, mais nous usons aussi de
notre droit en déclarant de la manière la plus formelle que nous ne
reconnaîtrons point l'élection de M. le duc de Leuchtenberg.» Dans
une autre lettre écrite quelques jours après, le ministre donnait
l'ordre au représentant de la France, dans le cas où cette élection
serait faite, de quitter aussitôt Bruxelles.

Mais plus on approchait de l'heure décisive, plus il était visible que


les seules candidatures entre lesquelles se partageraient les voix du
congrès étaient les deux que nous repoussions, par des motifs, il est
vrai, fort différents. Celle de Leuchtenberg devenait de plus en plus
populaire; si notre opposition décidée avait détaché d'elle certains
esprits, beaucoup d'autres s'en montraient blessés. Les amis de la
France ne trouvèrent d'autre moyen de faire échec à cette
candidature, que de proposer ouvertement celle du duc de Nemours.
Malgré tout, Leuchtenberg gagnait toujours. Un des orateurs
influents du congrès, M. Lebeau, soutenait sa cause avec une ardeur
passionnée. Le buste du prince était promené dans les rues,
couronné au théâtre, son portrait suspendu aux arbres de la liberté.
Le peuple chantait des couplets en son honneur. L'Angleterre était
représentée à Bruxelles par lord Ponsonby, au moins aussi animé
que son chef, lord Palmerston, contre l'influence française[235]. Lord
Ponsonby, très-porté pour le prince d'Orange et se faisant illusion sur
ses chances, avait d'abord travaillé pour lui, et avait paru combattre
le duc de Leuchtenberg. «Les puissances ne le reconnaîtront pas»,
disait-il. Mais il dut bientôt s'avouer que son candidat ne rencontrait
aucun appui. «Il n'y a rien à faire pour le prince d'Orange, lui dit un
député partisan du Beauharnais; la lutte sera entre le duc de
Leuchtenberg et le duc de Nemours.» Poussé à bout, lord Ponsonby
s'écria alors: «Nommez plutôt le diable que le duc de
Nemours[236].»

Tous ces faits n'échappaient pas à la vigilance du jeune diplomate


qui représentait la France à Bruxelles: M. Bresson, homme
d'initiative et d'énergie, n'était pas d'humeur à laisser jouer ou
mortifier la France sous ses yeux, sans tenter de l'empêcher. Ce qu'il
apprenait des dispositions des membres du congrès et surtout de
l'action de l'envoyé anglais le persuadèrent que la nomination du duc
de Leuchtenberg était certaine, si on ne lui opposait formellement un
fils de Louis-Philippe. Telle était aussi la conviction du colonel de
Lawœstine qu'on venait d'adjoindre à M. Bresson, à cause de ses
relations avec la société belge. Mais comment faire, après les
déclarations si nettes, si réitérées, du gouvernement français? M.
Bresson partit en toute hâte pour Paris, brûla les étapes, et le 29
janvier, au point du jour[237], il avait audience du Roi en présence du
ministre des affaires étrangères. Il exposa le péril imminent et la
nécessité de poser la candidature du duc de Nemours, si l'on voulait
écarter un choix qui, dans les circonstances présentes, serait un
échec grave pour la France. Ses instances ne purent cependant
arracher au Roi ou au ministre le moindre mot qui retirât les
déclarations antérieures et donnât instruction de faire élire le prince
français. Au fond, en effet, Louis-Philippe était toujours résolu à
refuser la couronne. Mais, par ce qu'il ne dit pas, plus encore que
par ce qu'il dit, il parut attendre ou tout au moins permettre que son
envoyé fît, sans autorisation, de son propre chef, et au risque d'être
désavoué, ce qu'on ne voulait pas lui ordonner de faire. M. Bresson
était trop fin pour ne pas comprendre, trop hardi pour reculer devant
la responsabilité. Revenu bride abattue à Bruxelles, il y prit une
attitude, tint un langage, qui, sans donner à nos amis belges aucune
assurance officielle, leur firent ou tout au moins les laissèrent croire
qu'ils pourraient forcer la main au gouvernement français, et que
celui-ci, une fois le vote émis, ne refuserait pas la couronne; le
colonel Lawœstine s'associa à ce jeu; des lettres officieuses venues
de Paris tendirent à répandre la même conviction[238]. Cette
manœuvre hardie releva les intérêts français tout à l'heure si
compromis et contre-balança les avantages qu'apportait à la
candidature du duc de Leuchtenberg l'appui souterrain de lord
Ponsonby.
Pendant ce temps, le débat décisif s'était ouvert, le 28 janvier,
dans le congrès belge; il se prolongea jusqu'au 3 février, dramatique,
passionné, remuant toutes les questions qui mettaient en jeu
l'existence de la Belgique, et aussi la paix de l'Europe. Les partisans
du duc de Nemours firent valoir les avantages de l'intimité avec la
France. Mais la couronne serait-elle acceptée? «Toutes nos lettres
venant de Paris, disait M. Gendebien, nos relations avec de hauts
personnages en France, la voix patriotique et persuasive de La
Fayette, le vœu de la France entière, nous sont un sûr garant que
les sentiments paternels de Louis-Philippe, d'accord avec les intérêts
et la politique de la France, ne lui permettront pas d'hésiter un seul
instant.» M. Van de Weyer ajoutait: «Je n'ai pas dit que j'étais
certain de l'acceptation; car, pour tenir un pareil langage, il aurait
fallu que j'en eusse la preuve officielle, et, dans ce cas, j'aurais cru
pouvoir et devoir trancher la question. En mettant sous vos yeux la
pièce probante, je vous aurais dit: Messieurs, je viens de recevoir la
preuve de l'acceptation du duc de Nemours; je puis donc annoncer
au congrès que son choix ne sera pas fait en vain. Il m'est
impossible de parler ainsi, mais je n'en ai pas moins la conviction
que la couronne sera acceptée par le duc de Nemours. Les éléments
de cette conviction, je les puise ailleurs que dans les
communications officielles.» M. Lehon était plus affirmatif encore:
«Je suis de ceux qui sont convaincus que si le duc de Nemours est
nommé, il acceptera la couronne.» Les partisans du duc de
Leuchtenberg opposèrent les déclarations réitérées et non
désavouées du gouvernement français; ils s'efforcèrent aussi
d'éveiller les susceptibilités du patriotisme belge. «Si nous voulons
conserver l'estime et la sympathie de la France, dit M. Devaux, ne
nous humilions pas devant elle. Ne nous obstinons pas à nous livrer
à ses princes, quand eux-mêmes nous refusent... Ah! messieurs, ne
soyons une source d'embarras pour personne; ne nous ravalons pas
à être une misérable petite Navarre[239]; restons la belle, la noble
Belgique! Depuis longtemps, le mot de patrie ne résonnait
qu'imparfaitement dans nos cœurs. Depuis des siècles, nous n'avons
fait que passer d'un joug à l'autre, tour à tour Espagnols,
Autrichiens, Français, Hollandais; depuis quatre mois seulement,
nous sommes Belges, et nous avons retrouvé une patrie... Cette
patrie, que nous avons ressaisie au prix du sang belge, faut-il déjà
l'humilier aux pieds d'une puissance étrangère?»

Vient enfin le moment du vote: l'anxiété est grande. Sur 191


membres présents, 89 se prononcent pour le duc de Nemours, 67
pour le duc de Leuchtenberg, 35 pour l'archiduc Charles d'Autriche.
Il faut procéder à un second tour: le duc de Nemours obtient alors
97 voix—c'est la majorité absolue,—le duc de Leuchtenberg 74,
l'archiduc Charles 21. Le duc de Nemours est proclamé. Le cri de:
Vive le Roi! poussé par l'assemblée, gagne la foule qui assiége le
palais; l'enthousiasme est général, et les partisans du duc de
Leuchtenberg sont les premiers à se rapprocher des vainqueurs; il
n'y a plus qu'un sentiment: inaugurer sans retard le nouveau règne
pour sortir du provisoire. Une députation est chargée de porter au
roi des Français la nomination de son fils. Personne alors ne doute
ou ne veut douter de l'acceptation.

Mieux informés, les Belges auraient su pourtant que Louis-Philippe


persistait toujours dans sa volonté de refus. S'il avait laissé agir M.
Bresson, c'était uniquement pour écarter une candidature
dangereuse et contrecarrer une manœuvre de la diplomatie
anglaise; mais il ne voyait là qu'un expédient destiné à gagner du
temps et n'avait pas eu un moment d'hésitation sur sa décision
finale. Quelques-uns de ses ministres,—ceux qui désiraient le plus
plaire à la gauche,—avaient sans doute une sagesse moins résolue,
et, devant la tournure que prenaient les choses à Bruxelles, ils se
demandaient s'il ne serait pas possible d'imposer à l'Europe le fait
accompli. C'est sans doute pour répondre à cette velléité, ou plutôt
pour dissiper cette illusion, qu'après le voyage de M. Bresson, mais
avant le vote final du congrès, le 1er février, M. de Talleyrand sonda
lord Palmerston sur la question de savoir s'il agréerait la nomination
du duc de Nemours. La réponse du ministre anglais fut sans
ménagement. «Ce sera pour nous, dit-il, absolument la même chose
qu'une union avec la France, et c'est à la France à mesurer toutes
les conséquences auxquelles l'exposerait une telle méconnaissance
de ses promesses. Je ne crois pas, ajouta-t-il, que la masse de la
nation française désire la Belgique au prix d'une guerre générale.» Il
ne s'en tint pas là: une dépêche officielle fut envoyée à Paris pour
réclamer du gouvernement français le plein accomplissement de
l'engagement qu'il avait pris de refuser la couronne. Le chef du
Foreign-Office pensait sans doute qu'il n'y aurait pas lieu de recourir
à la guerre, mais, s'il fallait la faire, «l'occasion» lui paraissait
«légitime». «Nous ne pouvons accepter l'élévation du duc de
Nemours, écrivait-il, le 2 février, à son ambassadeur à Paris, sans
mettre en danger la sûreté de la nation et sans porter atteinte à son
honneur[240].» Le gouvernement anglais n'avait pas de peine
d'ailleurs à associer les autres puissances à son opposition. Dès le
1er février, il proposa à la Conférence de décider que, dans le cas où
la souveraineté de la Belgique serait offerte à un prince appartenant
aux familles régnantes des cinq puissances, une telle offre serait
absolument repoussée: les plénipotentiaires d'Autriche, de Prusse et
de Russie adhérèrent aussitôt à cette proposition, M. de Talleyrand la
prit ad referendum, disant qu'il attendait avant peu les instructions
de son gouvernement.

Quand, quelques jours après, on sut, à Londres, l'élection de


Bruxelles, l'émotion fut vive; lord Palmerston était furieux. Toutefois,
on ne resta pas longtemps dans le doute sur les intentions du
gouvernement français. Le vote avait eu lieu le 3 février; dès le 4,
aussitôt la nouvelle parvenue à Paris, le général Sébastiani vint
annoncer à l'ambassadeur anglais que le Roi était décidé à refuser la
couronne offerte et qu'il désirait marcher d'accord avec les autres
puissances, surtout avec l'Angleterre[241]. En même temps, M. de
Talleyrand fut chargé de faire une déclaration analogue à la
Conférence: cette déclaration fut consignée dans le protocole du 7
février, mais en même temps, par déférence pour la France, la
Conférence décida que si le duc de Leuchtenberg était élu, il ne
serait reconnu par aucune des cinq cours. Sur ce point, la diplomatie
française était donc arrivée à son but; elle avait obtenu l'exclusion
du candidat bonapartiste à la fois à Bruxelles et à Londres, dans le
congrès belge et dans la conférence européenne.
Welcome to our website – the perfect destination for book lovers and
knowledge seekers. We believe that every book holds a new world,
offering opportunities for learning, discovery, and personal growth.
That’s why we are dedicated to bringing you a diverse collection of
books, ranging from classic literature and specialized publications to
self-development guides and children's books.

More than just a book-buying platform, we strive to be a bridge


connecting you with timeless cultural and intellectual values. With an
elegant, user-friendly interface and a smart search system, you can
quickly find the books that best suit your interests. Additionally,
our special promotions and home delivery services help you save time
and fully enjoy the joy of reading.

Join us on a journey of knowledge exploration, passion nurturing, and


personal growth every day!

ebookbell.com

You might also like