0% нашли этот документ полезным (0 голосов)
16 просмотров

Bayesian Optimization: Theory and Practice Using Python 1st Edition Peng Liu instant download

Документ представляет собой информацию о книге 'Bayesian Optimization: Theory and Practice Using Python' автора Пэн Лиу, которая охватывает теорию и практическое применение байесовской оптимизации с использованием Python. В нем содержится ссылка на скачивание книги и упоминаются другие связанные книги по машинному обучению и аналитике данных. Также предоставлены данные об авторе и техническом рецензенте, а также информация о публикации и авторских правах.

Загружено:

calidosaura
Авторское право
© © All Rights Reserved
Мы серьезно относимся к защите прав на контент. Если вы подозреваете, что это ваш контент, заявите об этом здесь.
Доступные форматы
Скачать в формате PDF, TXT или читать онлайн в Scribd
0% нашли этот документ полезным (0 голосов)
16 просмотров

Bayesian Optimization: Theory and Practice Using Python 1st Edition Peng Liu instant download

Документ представляет собой информацию о книге 'Bayesian Optimization: Theory and Practice Using Python' автора Пэн Лиу, которая охватывает теорию и практическое применение байесовской оптимизации с использованием Python. В нем содержится ссылка на скачивание книги и упоминаются другие связанные книги по машинному обучению и аналитике данных. Также предоставлены данные об авторе и техническом рецензенте, а также информация о публикации и авторских правах.

Загружено:

calidosaura
Авторское право
© © All Rights Reserved
Мы серьезно относимся к защите прав на контент. Если вы подозреваете, что это ваш контент, заявите об этом здесь.
Доступные форматы
Скачать в формате PDF, TXT или читать онлайн в Scribd
Вы находитесь на странице: 1/ 86

Visit https://ebookmass.

com to download the full version and


browse more ebooks or textbooks

Bayesian Optimization: Theory and Practice Using


Python 1st Edition Peng Liu

_____ Press the link below to begin your download _____

https://ebookmass.com/product/bayesian-optimization-theory-
and-practice-using-python-1st-edition-peng-liu/

Access ebookmass.com now to download high-quality


ebooks or textbooks
We have selected some products that you may be interested in
Click the link to download now or visit ebookmass.com
for more options!.

Bayesian Optimization : Theory and Practice Using Python


Peng Liu

https://ebookmass.com/product/bayesian-optimization-theory-and-
practice-using-python-peng-liu/

Machine learning: A Bayesian and optimization perspective


2nd Edition Theodoridis S

https://ebookmass.com/product/machine-learning-a-bayesian-and-
optimization-perspective-2nd-edition-theodoridis-s/

Advanced Data Analytics Using Python : With Architectural


Patterns, Text and Image Classification, and Optimization
Techniques 2nd Edition Sayan Mukhopadhyay
https://ebookmass.com/product/advanced-data-analytics-using-python-
with-architectural-patterns-text-and-image-classification-and-
optimization-techniques-2nd-edition-sayan-mukhopadhyay/

eTextbook 978-0134379760 The Practice of Computing Using


Python (3rd Edition)

https://ebookmass.com/product/etextbook-978-0134379760-the-practice-
of-computing-using-python-3rd-edition/
Implementing Cryptography Using Python Shannon Bray

https://ebookmass.com/product/implementing-cryptography-using-python-
shannon-bray/

Introduction To Computing And Problem Solving Using Python


1st Edition E. Balaguruswamy

https://ebookmass.com/product/introduction-to-computing-and-problem-
solving-using-python-1st-edition-e-balaguruswamy/

Python Programming: Using Problem Solving Approach 1st


Edition Reema Thareja

https://ebookmass.com/product/python-programming-using-problem-
solving-approach-1st-edition-reema-thareja/

Critical thinking in clinical research : applied theory


and practice using case studies Fregni

https://ebookmass.com/product/critical-thinking-in-clinical-research-
applied-theory-and-practice-using-case-studies-fregni/

Machine Learning on Geographical Data Using Python 1st


Edition Joos Korstanje

https://ebookmass.com/product/machine-learning-on-geographical-data-
using-python-1st-edition-joos-korstanje/
Bayesian Optimization
Theory and Practice Using Python

Peng Liu
Bayesian Optimization: Theory and Practice Using Python
Peng Liu
Singapore, Singapore

ISBN-13 (pbk): 978-1-4842-9062-0 ISBN-13 (electronic): 978-1-4842-9063-7


https://doi.org/10.1007/978-1-4842-9063-7

Copyright © 2023 by Peng Liu


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the
material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now
known or hereafter developed.
Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with
every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an
editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the
trademark.
The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not
identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to
proprietary rights.
While the advice and information in this book are believed to be true and accurate at the date of publication,
neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or
omissions that may be made. The publisher makes no warranty, express or implied, with respect to the
material contained herein.
Managing Director, Apress Media LLC: Welmoed Spahr
Acquisitions Editor: Celestin Suresh John
Development Editor: Laura Berendson
Coordinating Editor: Mark Powers
Cover designed by eStudioCalamar
Cover image by Luemen Rutkowski on Unsplash (www.unsplash.com)
Distributed to the book trade worldwide by Apress Media, LLC, 1 New York Plaza, New York, NY 10004,
U.S.A. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail [email protected], or visit
www.springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer
Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation.
For information on translations, please e-mail [email protected]; for reprint,
paperback, or audio rights, please e-mail [email protected].
Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and
licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales
web page at http://www.apress.com/bulk-sales.
Any source code or other supplementary material referenced by the author in this book is available to
readers on GitHub (https://github.com/Apress). For more detailed information, please visit http://www.
apress.com/source-code.
Printed on acid-free paper
For my wife Zheng and children Jiaxin, Jiaran, and Jiayu.
Table of Contents
About the Author����������������������������������������������������������������������������������������������������� ix

About the Technical Reviewer��������������������������������������������������������������������������������� xi


Acknowledgments������������������������������������������������������������������������������������������������� xiii

Introduction�������������������������������������������������������������������������������������������������������������xv

Chapter 1: Bayesian Optimization Overview������������������������������������������������������������ 1


Global Optimization����������������������������������������������������������������������������������������������������������������������� 2
The Objective Function������������������������������������������������������������������������������������������������������������ 4
The Observation Model������������������������������������������������������������������������������������������������������������ 8
Bayesian Statistics���������������������������������������������������������������������������������������������������������������������� 11
Bayesian Inference���������������������������������������������������������������������������������������������������������������� 11
Frequentist vs. Bayesian Approach��������������������������������������������������������������������������������������� 14
Joint, Conditional, and Marginal Probabilities����������������������������������������������������������������������� 15
Independence������������������������������������������������������������������������������������������������������������������������ 18
Prior and Posterior Predictive Distributions�������������������������������������������������������������������������� 19
Bayesian Inference: An Example������������������������������������������������������������������������������������������� 23
Bayesian Optimization Workflow������������������������������������������������������������������������������������������������ 26
Gaussian Process������������������������������������������������������������������������������������������������������������������ 26
Acquisition Function�������������������������������������������������������������������������������������������������������������� 29
The Full Bayesian Optimization Loop������������������������������������������������������������������������������������� 30
Summary������������������������������������������������������������������������������������������������������������������������������������ 31

Chapter 2: Gaussian Processes������������������������������������������������������������������������������ 33


Reviewing the Gaussian Basics�������������������������������������������������������������������������������������������������� 36
Understanding the Covariance Matrix����������������������������������������������������������������������������������� 37
Marginal and Conditional Distribution of Multivariate Gaussian�������������������������������������������� 39
Sampling from a Gaussian Distribution��������������������������������������������������������������������������������� 40
v
Table of Contents

Gaussian Process Regression����������������������������������������������������������������������������������������������������� 43


The Kernel Function�������������������������������������������������������������������������������������������������������������� 43
Extending to Other Variables������������������������������������������������������������������������������������������������� 46
Learning from Noisy Observations���������������������������������������������������������������������������������������� 49
Gaussian Process in Practice������������������������������������������������������������������������������������������������������ 50
Drawing from GP Prior����������������������������������������������������������������������������������������������������������� 50
Obtaining GP Posterior with Noise-Free Observations���������������������������������������������������������� 55
Working with Noisy Observations������������������������������������������������������������������������������������������ 57
Experimenting with Different Kernel Parameters������������������������������������������������������������������ 59
Hyperparameter Tuning��������������������������������������������������������������������������������������������������������� 61
Summary������������������������������������������������������������������������������������������������������������������������������������ 66

Chapter 3: Bayesian Decision Theory and Expected Improvement������������������������ 69


Optimization via the Sequential Decision-Making���������������������������������������������������������������������� 70
Seeking the Optimal Policy���������������������������������������������������������������������������������������������������� 72
Utility-Driven Optimization����������������������������������������������������������������������������������������������������� 74
Multi-step Lookahead Policy������������������������������������������������������������������������������������������������� 76
Bellman’s Principle of Optimality������������������������������������������������������������������������������������������� 79
Expected Improvement��������������������������������������������������������������������������������������������������������������� 82
Deriving the Closed-Form Expression����������������������������������������������������������������������������������� 83
Implementing the Expected Improvement����������������������������������������������������������������������������� 86
Using Bayesian Optimization Libraries���������������������������������������������������������������������������������� 96
Summary������������������������������������������������������������������������������������������������������������������������������������ 98

Chapter 4: Gaussian Process Regression with GPyTorch������������������������������������� 101


Introducing GPyTorch���������������������������������������������������������������������������������������������������������������� 101
The Basics of PyTorch��������������������������������������������������������������������������������������������������������� 102
Revisiting GP Regression����������������������������������������������������������������������������������������������������� 104
Building a GP Regression Model������������������������������������������������������������������������������������������ 105
Fine-Tuning the Length Scale of the Kernel Function��������������������������������������������������������� 111
Fine-Tuning the Noise Variance������������������������������������������������������������������������������������������� 117

vi
Table of Contents

Delving into Kernel Functions��������������������������������������������������������������������������������������������������� 119


Combining Kernel Functions����������������������������������������������������������������������������������������������� 122
Predicting Airline Passenger Counts����������������������������������������������������������������������������������� 124
Summary���������������������������������������������������������������������������������������������������������������������������������� 129

Chapter 5: Monte Carlo Acquisition Function with Sobol Sequences


and Random Restart��������������������������������������������������������������������������������������������� 131
Analytic Expected Improvement Using BoTorch������������������������������������������������������������������������ 131
Introducing Hartmann Function������������������������������������������������������������������������������������������� 132
GP Surrogate with Optimized Hyperparameters������������������������������������������������������������������ 134
Introducing the Analytic EI��������������������������������������������������������������������������������������������������� 135
Optimization Using Analytic EI��������������������������������������������������������������������������������������������� 138
Grokking the Inner Optimization Routine����������������������������������������������������������������������������� 140
Using MC Acquisition Function������������������������������������������������������������������������������������������������� 148
Using Monte Carlo Expected Improvement������������������������������������������������������������������������� 150
Summary���������������������������������������������������������������������������������������������������������������������������������� 153

Chapter 6: Knowledge Gradient: Nested Optimization vs. One-Shot Learning����� 155


Introducing Knowledge Gradient����������������������������������������������������������������������������������������������� 156
Monte Carlo Estimation������������������������������������������������������������������������������������������������������� 158
Optimizing Using Knowledge Gradient�������������������������������������������������������������������������������� 161
One-Shot Knowledge Gradient�������������������������������������������������������������������������������������������������� 167
Sample Average Approximation������������������������������������������������������������������������������������������� 167
One-Shot Formulation of KG Using SAA������������������������������������������������������������������������������ 169
One-Shot KG in Practice������������������������������������������������������������������������������������������������������ 171
Optimizing the OKG Acquisition Function���������������������������������������������������������������������������� 178
Summary���������������������������������������������������������������������������������������������������������������������������������� 184

Chapter 7: Case Study: Tuning CNN Learning Rate with BoTorch������������������������� 185
Seeking Global Optimum of Hartmann�������������������������������������������������������������������������������������� 186
Generating Initial Conditions����������������������������������������������������������������������������������������������� 187
Updating GP Posterior��������������������������������������������������������������������������������������������������������� 188

vii
Table of Contents

Creating a Monte Carlo Acquisition Function���������������������������������������������������������������������� 190


The Full BO Loop����������������������������������������������������������������������������������������������������������������� 193
Hyperparameter Optimization for Convolutional Neural Network��������������������������������������������� 198
Using MNIST������������������������������������������������������������������������������������������������������������������������ 199
Defining CNN Architecture��������������������������������������������������������������������������������������������������� 203
Training CNN������������������������������������������������������������������������������������������������������������������������ 209
Optimizing the Learning Rate���������������������������������������������������������������������������������������������� 212
Entering the Full BO Loop���������������������������������������������������������������������������������������������������� 215
Summary���������������������������������������������������������������������������������������������������������������������������������� 222

Index��������������������������������������������������������������������������������������������������������������������� 225

viii
About the Author
Peng Liu is an assistant professor of quantitative finance
(practice) at Singapore Management University and an
adjunct researcher at the National University of Singapore.
He holds a Ph.D. in Statistics from the National University
of Singapore and has ten years of working experience as a
data scientist across the banking, technology, and hospitality
industries.

ix
About the Technical Reviewer
Jason Whitehorn is an experienced entrepreneur and
software developer and has helped many companies
automate and enhance their business solutions through data
synchronization, SaaS architecture, and machine learning.
Jason obtained his Bachelor of Science in Computer Science
from Arkansas State University, but he traces his passion
for development back many years before then, having first
taught himself to program BASIC on his family’s computer
while in middle school. When he’s not mentoring and
helping his team at work, writing, or pursuing one of his
many side-projects, Jason enjoys spending time with his wife and four children and
living in the Tulsa, Oklahoma, region. More information about Jason can be found on his
website: ­https://jason.whitehorn.us.

xi
Acknowledgments
This book summarizes my learning journey in Bayesian optimization during my
(part-­time) Ph.D. study. It started as a personal interest in exploring this area and
gradually grew into a book combining theory and practice. For that, I thank my
supervisors, Teo Chung Piaw and Chen Ying, for their continued support in my
academic career.

xiii
Introduction
Bayesian optimization provides a unified framework that solves the problem of
sequential decision-making under uncertainty. It includes two key components: a
surrogate model approximating the unknown black-box function with uncertainty
estimates and an acquisition function that guides the sequential search. This book
reviews both components, covering both theoretical introduction and practical
implementation in Python, building on top of popular libraries such as GPyTorch and
BoTorch. Besides, the book also provides case studies on using Bayesian optimization
to seek a simulated function's global optimum or locate the best hyperparameters (e.g.,
learning rate) when training deep neural networks. The book assumes readers with a
minimal understanding of model development and machine learning and targets the
following audiences:

• Students in the field of data science, machine learning, or


optimization-related fields

• Practitioners such as data scientists, both early and middle in their


careers, who build machine learning models with good-performing
hyperparameters

• Hobbyists who are interested in Bayesian optimization as a global


optimization technique to seek the optimal solution as fast as
possible

All source code used in this book can be downloaded from ­github.com/apress/
Bayesian-optimization.

xv
CHAPTER 1

Bayesian Optimization
Overview
As the name suggests, Bayesian optimization is an area that studies optimization
problems using the Bayesian approach. Optimization aims at locating the optimal
objective value (i.e., a global maximum or minimum) of all possible values or the
corresponding location of the optimum in the environment (the search domain). The
search process starts at a specific initial location and follows a particular policy to
iteratively guide the following sampling locations, collect new observations, and refresh
the guiding policy.
As shown in Figure 1-1, the overall optimization process consists of repeated
interactions between the policy and the environment. The policy is a mapping function
that takes in a new input observation (plus historical ones) and outputs the following
sampling location in a principled way. Here, we are constantly learning and improving
the policy, since a good policy guides our search toward the global optimum more
efficiently and effectively. In contrast, a good policy would save the limited sampling
budget on promising candidate locations. On the other hand, the environment contains
the unknown objective function to be learned by the policy within a specific boundary.
When probing the functional value as requested by the policy, the actual observation
revealed by the environment to the policy is often corrupted by noise, making learning
even more challenging. Thus, Bayesian optimization, a specific approach for global
optimization, would like to learn a policy that can help us efficiently and effectively
navigate to the global optimum of an unknown, noise-corrupted environment as quickly
as possible.

1
© Peng Liu 2023
P. Liu, Bayesian Optimization, https://doi.org/10.1007/978-1-4842-9063-7_1
Chapter 1 Bayesian Optimization Overview

Figure 1-1. The overall Bayesian optimization process. The policy digests the
historical observations and proposes the new sampling location. The environment
governs how the (possibly noise-corrupted) observation at the newly proposed
location is revealed to the policy. Our goal is to learn an efficient and effective
policy that could navigate toward the global optimum as quickly as possible

Global Optimization
Optimization aims to locate the optimal set of parameters of interest across the whole
domain through carefully allocating limited resources. For example, when searching
for the car key at home before leaving for work in two minutes, we would naturally start
with the most promising place where we would usually put the key. If it is not there,
think for a little while about the possible locations and go to the next most promising
place. This process iterates until the key is found. In this example, the policy is digesting
the available information on previous searches and proposing the following promising
location. The environment is the house itself, revealing if the key is placed at the
proposed location upon each sampling.
This is considered an easy example since we are familiar with the environment
in terms of its structural design. However, imagine locating an item in a totally new

2
Chapter 1 Bayesian Optimization Overview

environment. The policy would need to account for the uncertainty due to unfamiliarity
with the environment while sequentially determining the next sampling location. When
the sampling budget is limited, as is often the case in real-life searches in terms of
time and resources, the policy needs to argue carefully on the utility of each candidate
sampling location.
Let us formalize the sequential global optimization using mathematical terms. We
are dealing with an unknown scalar-valued objective function f based on a specific
domain Α. In other words, the unknown subject of interest f is a function that maps a
certain sample in Α to a real number in ℝ, that is, f : Α → ℝ. We typically place no specific
assumption about the nature of the domain Α other than that it should be a bounded,
compact, and convex set.
Unless otherwise specified, we focus on the maximization setting instead of
minimization since maximizing the objective function is equivalent to minimizing the
negated objective, and vice versa. The optimization procedure thus aims at locating
the global maximum f ∗ or its corresponding location x∗ in a principled and systematic
manner. Mathematically, we wish to locate f ∗ where

f   max f  x   f  x  
x

Or equivalently, we are interested in its location x∗ where

x   argmax xA f  x 

Figure 1-2 provides an example one-dimensional objective function with its global
maximum f ∗ and its location x∗ highlighted. The goal of global optimization is thus to
systematically reason about a series of sampling decisions within the total search space
Α, so as to locate the global maximum as fast as possible, that is, sampling as few times
as possible.

3
Chapter 1 Bayesian Optimization Overview

Figure 1-2. An example objective function with the global maximum and its
location marked with star. The goal of global optimization is to systematically
reason about a series of sampling decisions so as to locate the global maximum as
fast as possible

Note that this is a nonconvex function, as is often the case in real-life functions we
are optimizing. A nonconvex function means we could not resort to first-order gradient-­
based methods to reliably search for the global optimum since it will likely converge to
a local optimum. This is also one of the advantages of Bayesian optimization compared
with other gradient-based optimization procedures.

The Objective Function


There are different types of objective functions. For example, some functions are wiggly
shaped, while others are smooth; some are convex, while others are nonconvex. An
objective function is an unknown object to us; the problem would be considered solved
if we could access its underlying mathematical form. Many complex functions are almost
impossible to be expressed using an explicit expression. For Bayesian optimization, the
specific type of objective function typically bears the following attributes:

• We do not have access to the explicit expression of the objective


function, making it a “black-box” function. This means that we can
only interact with the environment, that is, the objective function, to
perform a functional evaluation by sampling at a specific location.

4
Chapter 1 Bayesian Optimization Overview

• The returned value by probing at a specific location is often


corrupted by noise and does not represent the exact true value of the
objective function at that location. Due to the indirect evaluation of
its actual value, we need to account for such noise embedded in the
actual observations from the environment.

• Each functional evaluation is costly, thus ruling out the option for
an exhaustive probing. We need to have a sample-efficient method to
minimize the number of evaluations of the environment while trying
to locate its global optimum. In other words, the optimizer needs to
fully utilize the existing observations and systematically reason about
the next sampling decision so that the limited resource is well spent
on promising locations.

• We do not have access to its gradient. When the functional evaluation


is relatively cheap and the functional form is smooth, it would be very
convenient to compute the gradient and optimize using the first-­
order procedure such as gradient descent. Access to the gradient is
necessary for us to understand the adjacent curvature of a particular
evaluation point. With gradient evaluations, the follow-up direction
of travel is easier to determine.

The “black-box” function is challenging to optimize for the preceding reasons. To


further elaborate on the possible functional form of the objective, we list three examples
in Figure 1-3. On the left is a convex function with only one global minimum; this is
considered easy for global optimization. In the middle is a nonconvex function with
multiple local optima; it is difficult to ascertain if the current local optimum is also
globally optimal. It is also difficult to identify whether this is a flat region vs. a local
optimum for a function with a flat region full of saddle points. All three scenarios are in a
minimization setting.

5
Chapter 1 Bayesian Optimization Overview

Figure 1-3. Three possible functional forms. On the left is a convex function whose
optimization is easy. In the middle is a nonconvex function with multiple local
minima, and on the right is also a nonconvex function with a wide flat region full
of saddle points. Optimization for the latter two cases takes a lot more work than
for the first case

Let us look at one example of hyperparameter tuning when training machine


learning models. A machine learning model is a function that involves a set of
parameters to be optimized given the input data. These parameters are automatically
tuned via a specific optimization procedure, typically governed by a set of corresponding
meta parameters called hyperparameters, which are fixed before the model training
starts. For example, when training deep neural networks using the gradient descent
algorithm, a learning rate that determines the step size of each parameter update needs
to be manually selected in advance. If the learning rate is too large, the model may
diverge and eventually fails to learn. If the learning rate is too small, the model may
converge very slowly as the weights are updated by only a small margin in this iteration.
See Figure 1-4 for a visual illustration.

6
Chapter 1 Bayesian Optimization Overview

Figure 1-4. Slow convergence due to a small learning rate on the left and
divergence due to a large learning rate on the right

Choosing a reasonable learning rate as a preset hyperparameter thus plays a critical


role in training a good machine learning model. Locating the best learning rate and
other hyperparameters is an optimization problem that fits Bayesian optimization. In
the case of hyperparameter tuning, evaluating each learning rate is a time-consuming
exercise. The objective function would generally be the model’s final test set loss (in
a minimization setting) upon model convergence. A model needs to be fully trained
to obtain a single evaluation, which typically involves hundreds of epochs to reach
stable convergence. Here, one epoch is a complete pass of the entire training dataset.
The book’s last chapter covers a case study on tuning the learning rate using Bayesian
optimization.
The functional form of the test set loss or accuracy may also be highly nonconvex
and multimodal for the hyperparameters. Upon convergence, it is not easy to know
whether we are in a local optimum, a saddle point, or a global optimum. Besides, some
hyperparameters may be discrete, such as the number of nodes and layers when training
a deep neural network. We could not calculate its gradient in such a case since it requires
continuous support in the domain.
The Bayesian optimization approach is designed to tackle all these challenges. It
has been shown to deliver good performance in locating the best hyperparameters
under a limited budget (i.e., the number of evaluations allowed). It is also widely and
successfully used in other fields, such as chemical engineering.

7
Chapter 1 Bayesian Optimization Overview

Next, we will delve into the various components of a typical Bayesian optimization
setup, including the observation model, the optimization policy, and the Bayesian
inference.

The Observation Model


Earlier, we mentioned that a functional evaluation would give an observation about
the true objective function, and the observation may likely be different from the true
objective value due to noise. The observations gathered for the policy learning would
thus be inexact and corrupted by an additional noise term, which is often assumed to be
additive. The observation model is an approach to formalize the relationship between
the true objective function, the actual observation, and the noise. It governs how the
observations would be revealed from the environment to the policy.
Figure 1-5 illustrates a list of observations of the underlying objective function. These
observations are dislocated from the objective function due to additive random noises.
These additive noises manifest as the vertical shifts between the actual observations and
the underlying objective function. Due to these noise-induced deviations inflicted on the
observations, we need to account for such uncertainty in the observation model. When
learning a policy based on the actual observations, the policy also needs to be robust
enough to focus on the objective function’s underlying pattern and not be distracted by
the noises. The model we use to approximate the objective function, while accounting
for uncertainty due to the additive noise, is typically a Gaussian process. We will cover it
briefly in this chapter and in more detail in the next chapter.

8
Chapter 1 Bayesian Optimization Overview

Figure 1-5. Illustrating the actual observations (in dots) and the underlying
objective function (in dashed line). When sampling at a specific location, the
observation would be disrupted by an additive noise. The observation model thus
determines how the observation would be revealed to the policy, which needs to
account for the uncertainty due to noise perturbation

To make our discussion more precise, let us use f (x) to denote the (unknown)
objective function value at location x. We sometimes write f (x) as f for simplicity. We
use y to denote the actual observation at location x, which will slightly differ from f due
to noise perturbation. We can thus express the observation model, which governs how
the policy sees the observation from the environment, as a probability distribution of y
based on a specific location x and true function value f:

p  y |x , f 

Let us assume an additive noise term ε inflicted on f; the actual observation y can
thus be expressed as

y  f 

Here, the noise term ε arises from measurement error or inaccurate statistical
approximation, although it may disappear in certain computer simulations. A common

9
Chapter 1 Bayesian Optimization Overview

practice is to treat the error as a random variable that follows a Gaussian distribution
with a zero mean and fixed standard deviation σ, that is, ε~N(0, σ2). Note that it is
unnecessary to fix σ across the whole domain A; the Bayesian optimization allows for
both homoscedastic noise (i.e., fixed σ across A) and heteroskedastic noise (i.e., different
σ that depends on the specific location in A).
Therefore, we can formulate a Gaussian observation model as follows:

p  y|x , f ,   N  y ; f , 2 

This means that for a specific location x, the actual observation y is treated as a
random variable that follows a Gaussian/normal distribution with mean f and variance
σ2. Figure 1-6 illustrates an example probability distribution of y centered around f. Note
that the variance of the noise is often estimated by sampling a few initial observations
and is expected to be small, so that the overall observation model still strongly depends
on and stays close to f.

Figure 1-6. Assuming a normal probability distribution for the actual observation
as a random variable. The Gaussian distribution is centered around the objective
function f value evaluated at a given location x and spread by the variance of the
noise term

The following section introduces Bayesian statistics to lay the theoretical foundation
as we work with probability distributions along the way.

10
Chapter 1 Bayesian Optimization Overview

B
 ayesian Statistics
Bayesian optimization is not a particular algorithm for global optimization; it is a suite of
algorithms based on the principles of Bayesian inference. As the optimization proceeds
in each iteration, the policy needs to determine the next sampling decision or if the
current search needs to be terminated. Due to uncertainty in the objective function and
the observation model, the policy needs to cater to such uncertainty upon deciding
the following sampling location, which bears both an immediate impact on follow-up
decisions and a long-term effect on all future decisions. The samples selected thus need
to reasonably contribute to the ultimate goal of global optimization and justify the cost
incurred due to sampling.
Using Bayesian statistics in optimization paves the way for us to systematically
and quantitatively reason about these uncertainties using probabilities. For example,
we would place a prior belief about the characteristics of the objective function and
quantify its uncertainties by assigning high probability to specific ranges of values and
low probability to others. As more observations are collected, the prior belief is gradually
updated and calibrated toward the true underlying distribution of the objective function
in the form of a posterior distribution.
We now cover the fundamental concepts and tools of Bayesian statistics.
Understanding these sections is essential to appreciate the inner workings of Bayesian
optimization.

B
 ayesian Inference
Bayesian inference essentially relies on the Bayesian formula (also called Bayes’ rule)
to reason about the interactions among three components: the prior distribution p(θ)
where θ represents the parameter of interest, the likelihood p(data| θ) given a specific
parameter θ, and the posterior distribution p(θ| data). There is one more component, the
evidence of the data p(data), which is often not computable. The Bayesian formula is as
follows:

p  data|  p  
p  |data  
p  data 

Let us look closely at this widely used, arguably the most important formula in
Bayesian statistics. Remember that any Bayesian inference procedure aims to derive the

11
Chapter 1 Bayesian Optimization Overview

posterior distribution p(θ| data) (or calculate its marginal expectation) for the parameter
of interest θ, in the form of a probability density function. For example, we might end up
with a continuous posterior distribution as in Figure 1-7, where θ varies from 0 to 1, and
all the probabilities (i.e., area under the curve) would sum to 1.

Figure 1-7. Illustrating a sample (continuous) posterior distribution for the


parameter of interest. The specific shape of the curve will change as new data are
being collected

We would need access to three components to obtain the posterior distribution of θ.


First, we need to derive the probability of seeing the actual data given our choice of θ,
that is, p(data| θ). This is also called the likelihood term since we are assessing how
likely it is to generate the data after specifying a certain observation model for the data.
The likelihood can be calculated based on the assumed observation model for data
generation.
The second term p(θ) represents our prior belief about the distribution of θ without
observing any actual data; we encode our pre-experimental knowledge of the parameter
θ in this term. For example, p(θ) could take the form of a uniform distribution that
assigns an equal probability to any value between 0 and 1. In other words, all values in
this range are equally likely, and this is a common prior belief we would place on θ given
that we do not have any information that suggests a preference over specific values.
However, as we collect more observations and gather more data, the prior distribution
will play a decreasing role, and the subjective belief will gradually reduce in support
of the factual evidence in the data. As shown in Figure 1-8, the distribution of θ will

12
Chapter 1 Bayesian Optimization Overview

progressively approach a normal distribution given that more data is being collected,
thus forming a posterior distribution that better approximates the true distribution of θ.

Figure 1-8. Updating the prior uniform distribution toward a posterior normal
distribution as more data is collected. The role of the prior distribution decreases
as more data is collected to support the approximation to the true underlying
distribution

The last term is the denominator p(data), also referred to as the evidence, which
represents the probability of obtaining the data over all different choices of θ and serves
as a normalizing constant independent of θ in Bayes’ theorem. This is the most difficult
part to compute among all the components since we need to integrate over all possible
values of θ by taking an integration. For each given θ, the likelihood is calculated based
on the assumed observation model for data generation, which is the same as how the
likelihood term is calculated. The difference is that the evidence considers every possible
value of θ and weights the resulting likelihood based on the probability of observing a
particular θ. Since the evidence is not connected to θ, it is often ignored when analyzing
the proportionate change in the posterior. As a result, it focuses only on the likelihood
and the prior alone.
A relatively simple case is when the prior p(θ) and the likelihood p(data| θ) are
conjugate, making the resulting posterior p(θ| data) analytic and thus easy to work with
due to its closed-form expression. Bayesian inference becomes much easier and less
restrictive if we can write down the explicit form and generate the exact shape of the
posterior p(θ| data) without resorting to sampling methods. The posterior will follow the
same distribution as the prior when the prior is conjugate with the likelihood function.
One example is when both the prior and the likelihood functions follow a normal

13
Chapter 1 Bayesian Optimization Overview

distribution, the resulting posterior will also be normally distributed. However, when the
prior and the likelihood are not conjugate, we can still get more insight on the posterior
distribution via efficient sampling techniques such as Gibbs sampling.

Frequentist vs. Bayesian Approach


The Bayesian approach is a systematic way of assigning probabilities to possible values
of θ and updating these probabilities based on the observed data. However, sometimes
we are only interested in the most probable (expected) value of θ that gives rise to the
data we observe. This can be achieved using the frequentist approach, treating the
parameter of interest (i.e., θ) as a fixed quantity instead of a random variable. This
approach is often adopted in the machine learning community, placing a strong focus
on optimizing a specific objective function to locate the optimal set of parameters.
More generally, we use the frequentist approach to find the correct answer about
θ. For example, we can locate the value of θ by maximizing the joint probability of the
actual data via maximum likelihood estimation (MLE), where the resulting solution
is ˆ = argmax  p  data|  . There is no distribution involved with θ since we treat it as
a fixed quantity, which makes the calculation easier as we only need to work with the
probability distribution for the data. The final solution using the frequentist approach
is a specific value of θ. And since we are working with samples that come from the
underlying data-generating distribution, different samples would vary from each other,
and the goal is to find the optimal parameter θ that best describes the current sample we
are observing.
On the other hand, the Bayesian approach takes on the extra complexity by treating
θ as a random variable with its own probability distribution, which gets updated as
more data is collected. This approach offers a holistic view on all possible values of θ
and the corresponding probabilities instead of the most probable value of θ alone. This
is a different approach because the data is now treated as fixed and the parameter θ
as a random variable. The optimal probability distribution for θ is then derived, given
the observed fixed sample. There is no right or wrong in the Bayesian approach, only
probabilities. The final solution is thus a probability distribution of θ instead of one
specific value. Figure 1-9 summarizes these two different schools of thought.

14
Chapter 1 Bayesian Optimization Overview

Figure 1-9. Comparing the frequentist approach and the Bayesian approach
regarding the parameter of interest. The frequentist approach treats θ as a fixed
quantity that can be estimated via MLE, while the Bayesian approach employs a
probability distribution which gets refreshed as more data is collected

Joint, Conditional, and Marginal Probabilities


We have been characterizing the random variable θ using a (continuous) probability
distribution p(θ). A probability distribution is a function that maps a specific value of θ to
a probability, and the probabilities of all values of θ sum to one, that is, ∫ p(θ)dθ = 1.
Things become more interesting when we work with multiple (more than one)
variables. Suppose we have two random variables x and y, and we are interested in two
events x = X and y = Y, where both X and Y are specific values that x and y may assume,
respectively. Also, we assume the two random variables are dependent in some way.
This would lead us to three types of probabilities commonly used in modern machine
learning and Bayesian optimization literature: joint probability, marginal probability,
and conditional probability, which we will look at now in more detail.
The joint probability of the two events refers to the probability of them occurring
simultaneously. It is also referred to as the joint probability distribution since the
probability now represents all possible combinations of the two simultaneous events.
We can write the joint probability of the two events as p(X and Y) = p(x = X ∩ y = Y) =
p(X ∩ Y). Using the chain rule of probability, we can further write p(X and Y) =
p(X given Y) ∗ p(Y) = p(X| Y)p(Y), where p(X| Y) denotes the probability of event x = X

15
Chapter 1 Bayesian Optimization Overview

occurs given that the event y = Y has occurred. It is thus referred to as conditional
probability, as the probability of the first event is now conditioned on the second event.
All conditional probabilities for a (continuous) random variable x given a specific value
of another random variable (i.e., y = Y) form the conditional probability distribution
p(x| y = Y). More generally, we can write the joint probability distribution of random
variables x and y as p(x, y) and conditional probability distribution as p(x ∣ y).
The joint probability is also symmetrical, that is, p(X and Y) = p(Y and X), which is
a result of the exchangeability property of probability. Plugging in the definition of joint
probability using the chain rule gives the following:

p  X  Y   p  X|Y  p  Y   p  Y|X  p  X 

If you look at this equation more closely, it is not difficult to see that it can lead to the
Bayesian formula we introduced earlier, namely:

p  Y|X  p  X 
p  X|Y  
pY 

Understanding this connection gives us one more reason not to memorize the
Bayesian formula but to appreciate it. We can also replace a single event x = X with the
random variable x to get the corresponding conditional probability distribution p(x| y = Y).
Lastly, we may only be interested in the probability of an event for one random
variable alone, disregarding the possible realizations of the other random variable.
That is, we would like to consider the probability of the event x = X under all possible
values of y. This is called the marginal probability for the event x = X. The marginal
probability distribution for a (continuous) random variable x in the presence of another
(continuous) random variable y can be calculated as follows:

p  x    p  x ,y  dy   p  x|y  p  y  dy

The preceding definition essentially sums up possible values p(x| y) weighted by the
likelihood of occurrence p(y). The weighted sum operation resolves the uncertainty in
the random variable y and thus in a way integrates it out of the original joint probability
distribution, keeping only one random variable. For example, the prior probability
p(θ) in Bayes’ rule is a marginal probability distribution of θ, which integrates out
other random variables, if any. The same goes for the evidence term p(data) which is
calculated by integrating over all possible values of θ.
16
Chapter 1 Bayesian Optimization Overview

Similarly, we have the marginal probability distribution for random variable y


defined as follows:

p  y    p  x ,y  dx   p  y|x  p  x  dx

Figure 1-10 summarizes the three common probability distributions. Note that
the joint probability distribution focuses on two or more random variables, while
both the conditional and marginal probability distributions generally refer to a single
random variable. In the case of the conditional probability distribution, the other
random variable assumes a specific value and thus, in a way, “disappears” from the
joint distribution. In the case of the marginal probability distribution, the other random
variable is instead integrated out of the joint distribution.

Figure 1-10. Three common probability distributions. The joint probability


distribution represents the probability distribution for two or more random
variables, while the conditional and marginal probability distributions generally
refer to the probability distribution for one random variable. The conditional
distribution represents the probabilities of a random variable by assuming/
conditioning a specific value for other variables, while the marginal distribution
converts a joint probability to a single random variable by integrating out other
variables

17
Chapter 1 Bayesian Optimization Overview

Let us revisit Bayes’ rule in the context of conditional and marginal probabilities.
Specifically, the likelihood term p(data| θ) can be treated as the conditional probability of
the data given the parameter θ, and the evidence term p(data) is a marginal probability
that needs to be evaluated across all possible choices of θ. Based on the definition
of marginal probability, we can write the calculation of p(data) as a weighted sum
(assuming a continuous θ):

p  data    p  data|  p   d

where we have a different likelihood conditioned by a specific parameter θ, and these


likelihood terms are weighted by the prior probabilities. Thus, the evidence considers all
the different ways we could use to get to the particular data.

I ndependence
A special case that would impact the calculation of the three probabilities mentioned
earlier is independence, where the random variables are now independent of each
other. Let us look at the joint, conditional, and marginal probabilities with independent
random variables.
When two random variables are independent of each other, the event x = X would
have nothing to do with the event y = Y, that is, the conditional probability for x = X
given y = Y becomes p(X| Y) = p(X). The conditional probability distribution for two
independent random variables thus becomes p(x| y) = p(x). Their joint probability
becomes the multiplication of individual probabilities: p(X ∩ Y) = P(X| Y)P(Y) = p(X)p(Y),
and the joint probability distribution becomes a product of individual probability
distributions: p(x, y) = p(x)p(y). The marginal probability of x is just its own probability
distribution:

p  x    p  x|y  p  y  dy   p  x  p  y  dy  p  x  p  y  dy  p  x 

where we have used the fact that p(x) can be moved out of the integration operation due
to its independence with y, and the total area under a probability distribution is one, that
is, ∫ p(y)dy = 1.
We can also extend to conditional independence, where the random variable x
could be independent from y given another random variable z. In other words, we have
p(x, y| z) = p(x| z)p(y| z).
18
Chapter 1 Bayesian Optimization Overview

Prior and Posterior Predictive Distributions


Let us shift gear to focus on the actual predictions by quantifying the uncertainties using
Bayes’ rule. To facilitate the discussion, we will use y to denote the data in Bayes’ formula
or the actual observations as in the Bayesian optimization setting. We are interested in
its predictive distribution p(y), that is, the possible values of y and the corresponding
probabilities. Our decision-making would be much more informed if we had a good
understanding of the predictive distribution of the future unknown data, particularly
in the Bayesian optimization framework where one needs to decide the next sampling
location carefully.
Before we collect any data, we would work with a prior predictive distribution that
considers all possible values of the underlying parameter θ. That is, the prior predictive
distribution for y is a marginal probability distribution that could be calculated by
integrating out all dependencies on the parameter θ:

p  y    p  y ,  d   p  y|  p   d

which is the exact definition of the evidence term in Bayes’ formula. In a discrete world,
we would take the prior probability for a specific value of the parameter θ, multiply
the likelihood of the resulting data given the current θ, and sum across all weighted
likelihoods.
Now let us look at the posterior predictive distribution for a new data point y′ after
observing a collection of data points collectively denoted as . We would like to assess
how the future data would be distributed and what value of y′ we would likely to observe
if we were to run the experiment and acquire another data point again, given that we
have observed some actual data. That is, we want to calculate the posterior predictive
distribution p  y |  .
We can calculate the posterior predictive distribution by treating it as a marginal
distribution (conditioned on the collected dataset  ) and applying the same technique
as before, namely:

p  y |    p  y , |  d   p  y | ,   p  |  d

where the second term p  |  is the posterior distribution of the parameter θ that
can be calculated by applying Bayes’ rule. However, the first term p  y | ,  is more
involved. When assessing a new data point after observing some existing data points, a

19
Chapter 1 Bayesian Optimization Overview

common assumption is that they are conditionally independent given a particular value
of θ. Such conditional independence implies that p  y | ,   p  y |  , which happens
to be the likelihood term. Thus, we can simplify the posterior predictive distribution as
follows:

p  y |    p  y |  p  |  d

which follows the same pattern of calculation compared to the prior predictive
distribution. This would then give us the distribution of observations we would expect
for a new experiment (such as probing the environment in the Bayesian optimization
setting) given a set of previously collected observations. The prior and posterior
predictive distributions are summarized in Figure 1-11.

Figure 1-11. Definition of the prior and posterior predictive distributions. Both
are calculated based on the same pattern of a weighted sum between the prior and
the likelihood

Let us look at an example of the prior predictive distribution under a normal prior
and likelihood function. Before the experiment starts, we assume the observation model
for the likelihood of the data y to follow a normal distribution, that is, y~N(θ, σ2), or p(y| θ,
σ2) = N(θ, σ2), where θ is the underlying parameter and σ2 is a fixed variance. For example,
in the case of the observation model in the Bayesian optimization setting introduced
earlier, the parameter θ could represent the true objective function, and the variance σ2
originates from an additive Gaussian noise. The distribution of y is dependent on θ,

20
Chapter 1 Bayesian Optimization Overview

which itself is an uncertain quantity. We further assume the parameter θ to follow a


normal distribution as its prior, that is,  ~ N  0 , 2  , or p    N  0 , 2  , where θ0
and  2 are the mean and variance of our prior normal distribution assumed before
collecting any data points. Since we have no knowledge of the environment of interest,
we would like to understand how the data point (treated as a random variable) y could
be distributed in this unknown environment under different values of θ.
Understanding the distribution of y upon the start of any experiment amounts to
calculating its prior predictive distribution p(y). Since we are working with a continuous
θ, the marginalization needs to consider all possible values of θ from negative to positive
infinity in order to integrate out the uncertainty due to θ:
 
p  y    p  y ,  d   p  y|  p   d
 

The prior predictive distribution can thus be calculated by plugging in the definition
of normal likelihood term p(y| θ) and the normal prior term p(θ). However, there is a
simple trick we can use to avoid the math, which would otherwise be pretty heavy if we
were to plug in the formula of the normal distribution directly.
Let us try directly working with the random variables. We will start by noting that
y = (y − θ) + θ. The first term y − θ takes θ away from y, which decentralizes y by changing
its mean to zero and removes the dependence of y on θ. In other words, (y − θ)~N(0, σ2),
which also represents the distribution of the random noise in the observation model
of Bayesian optimization. Since the second term θ is also normally distributed, we can
derive the distribution of y as follows:

y ~ N  0 , 2   N  0 , 2   N  0 , 2   2 

where we have used the fact that the addition of two independent normally distributed
random variables will also be normally distributed, with the mean and variance
calculated based on the sum of individual means and variances.
Therefore, the marginal probability distribution of y becomes p  y   N  0 , 2   2  .
Intuitively, this form also makes sense. Before we start to collect any observation about
y, our best guess for its mean would be θ0, the expected value of the underlying random
variable θ. Its variance is the sum of individual variances since we are considering
uncertainties due to both the prior and the likelihood; the marginal distribution needs

21
Chapter 1 Bayesian Optimization Overview

to absorb both variances, thus compounding the resulting uncertainty. Figure 1-12
summarizes the derivation of the prior predictive distributions under the normality
assumption for the likelihood and the prior for a continuous θ.

Figure 1-12. Derivation process of the prior predictive distribution for a new data
point before collecting any observations, assuming a normal distribution for both
the likelihood and the prior

We can follow the same line of reasoning for the case of posterior predictive
distribution for a new observation y′ after collecting some data points  under the
normality assumption for the likelihood p(y′| θ) and the posterior p  |  , where
p(y′| θ) = N(θ, σ2) and p  |   N  , 2  . We can see that the posterior distribution for
θ has an updated set of parameters θ′ and  2 using Bayes’ rule as more data is collected.
Now recall the definition of the posterior predictive distribution with a continuous
underlying parameter θ:

p  y |    p  y |  p  |  d


Again, plugging in the expression of two normally distributed density functions


and working with an integration operation would be too tedious. We can instead write
y′ = (y′ − θ) + θ, where (y′ − θ)~N(0, σ2) and  ~ N  , 2  . Adding the two independent
normal distributions gives the following:

y  ~ N  0 , 2   N  , 2   N  , 2   2 

22
Chapter 1 Bayesian Optimization Overview

Figure 1-13 summarizes the derivation of the posterior predictive distributions under
normality assumption for the likelihood and the prior for a continuous θ.

Figure 1-13. Derivation process of the posterior predictive distribution for a new
data point after collecting some observations, assuming a normal distribution for
both the likelihood and the prior

Bayesian Inference: An Example


After going through a quick and essential primer on Bayesian inference, let us put
the mathematics in perspective by going through a concrete example. To start with,
we will choose a probability density function for the prior p    N  0 , 2  and the
likelihood p(y| θ) = N(θ, σ2), both of which are normally distributed. Note that the prior
and the likelihood are with respect to the random variables θ and y, respectively, where
θ represents the true underlying objective value that is unknown, and y is the noise-­
corrupted actual observation that follows an observation model y = θ + ε with an additive
and normally distributed random noise ε~N(0, σ2). We would like to infer the distribution
of θ based on actual observed realization of y.
The choice for the prior is based on our subjective experience with the parameter
of interest θ. Using the Bayes’ theorem, it helps jump-start the learning toward its real
probability distribution. The range of possible values of θ spans across the full support
of the prior normal distribution. Upon observing an actual realization Y of y, two things
will happen: the probability of observing θ = Y will be calculated and plugged in Bayes’
rule as the prior, and the likelihood function will be instantiated as a conditional normal
distribution p(y| θ = Y) = N(Y, σ2).

23
Chapter 1 Bayesian Optimization Overview

Figure 1-14 illustrates an example of the marginal prior distribution and the
conditional likelihood function (which is also a probability distribution) along with the
observation Y. We can see that both distributions follow a normal curve, and the mean
of the latter is aligned to the actual observation Y due to the conditioning effect from
Y = θ. Also, the probability of observing Y is not very high based on the prior distribution
p(θ), which suggests a change needed for the prior in the posterior update of the next
iteration. We will need to change the prior in order to improve such probability and
conform the subjective expectation to reality.

Figure 1-14. Illustrating the prior distribution and the likelihood function, both
following a normal distribution. The mean of the likelihood function is equal to the
actual observation due to the effect of conditioning

The prior distribution will then gradually get updated to approximate the
actual observations by invoking Bayes’ rule. This will give the posterior distribution
p  |Y   N  , 2  in solid line, whose mean is slightly nudged from θ0 toward Y and
updated to θ′, as shown in Figure 1-15. The prior distribution and likelihood function
are displayed in dashed lines for reference. The posterior distribution of θ is now more
aligned with what is actually observed in reality.

24
Chapter 1 Bayesian Optimization Overview

Figure 1-15. Deriving the posterior distribution for θ using Bayes’ rule. The
updated mean θ′ is now between the prior mean θ0 and actual observation Y,
suggesting an alignment between subjective preference and reality

Finally, we would be interested in the predictive distribution of the actual data


point if we acquired a new observation. Treating it as a random variable y′ enables us
to express our uncertainty in the form of an informed probability distribution, which
benefits follow-up tasks such as deciding where to sample next (more on this later).
Based on our previous discussion, the resulting probability distribution for y′ will
assume a normal distribution with the same mean as the posterior distribution of θ and
an inflated variance that absorbs uncertainties from both θ and the observation model
for y, as shown in Figure 1-16. The prior and posterior distributions and the likelihood
function are now in the dashed line for reference.

Figure 1-16. Illustrating the posterior predictive distribution if we acquire another


observation from the system/environment under study. The posterior predictive
distribution shares the same mean as the posterior distribution of θ but now has a
larger spread due to uncertainty from both θ and the observation model

25
Chapter 1 Bayesian Optimization Overview

Bayesian Optimization Workflow


Having gone through the essentials in Bayesian statistics, you may wonder how it
connects to the Bayesian optimization setting. Recall that the predictive posterior
distribution quantifies the probabilities of different observations if we were to probe the
environment and receive a new realization. This is a powerful tool when reasoning about
the utility of varying sampling choices x ∈ A in search of the global maximum f ∗.
To put this in perspective, let us add the location x as an explicit conditioning on
the prior/posterior predictive distribution and use f (the true objective value) to denote
θ (the underlying parameter of interest). For example, the prior predictive distribution
p(y| x) represents the conditional probability distribution of the actual observation y at
location x. Since we have many different locations across the domain A, there will also
be many prior predictive distributions, each following the same class of probability
distributions when assuming specific properties about the underlying true objective
function before probing the environment.
Take a one-dimensional objective function f (x) ∈ ℝ, for example. For any location
x0 ∈ A, we will use a prior predictive distribution p(y| x0) to characterize the possible
values of the unknown true value f0 = f (x0). These prior predictive distributions will
jointly form our prior probabilistic belief about the shape of the underlying objective
function f. Since there are infinitely many locations x0 and thus infinitely many random
variables y, these probability distributions of the infinite collection of random variables
are jointly used as a stochastic process to characterize the true objective function. Here,
the stochastic process simplifies to our running example earlier when limited to a single
location.

Gaussian Process
A prevalent choice of stochastic process in Bayesian optimization is the Gaussian
process, which requires that these finite-dimensional probability distributions are
multivariate Gaussian distributions in a continuous domain with infinite number of
variables. It is a flexible framework to model a broad family of functions and quantify
their uncertainties, thus being a powerful surrogate model used to approximate the true
underlying function. We will delve into the details of the Gaussian process in the next
chapter, but for now, let us look at a few visual examples to see what it offers.
Figure 1-17 illustrates an example of a “flipped” prior probability distribution for a
single random variable selected from the prior belief of the Gaussian process. Each point
26
Chapter 1 Bayesian Optimization Overview

follows a normal distribution. Plotting the mean (solid line) and 95% credible interval
(dashed lines) of all these prior distributions gives us the prior process for the objective
function regarding each location in the domain. The Gaussian process thus employs an
infinite number of normally distributed random variables within a bounded range to
model the underlying objective function and quantify the associated uncertainty via a
probabilistic approach.

Figure 1-17. A sample prior belief of the Gaussian process represented by the
mean and 95% credible interval for each location in the domain. Every objective
value is modeled by a random variable that follows a normal prior predictive
distribution. Collecting the distributions of all random variables could help us
quantify the potential shape of the true underlying function and its probability

The prior process can thus serve as the surrogate data-generating process to
generate samples in the form of functions, an extension of sampling single points from
a probability distribution. For example, if we were to repeatedly sample from the prior
process earlier, we would expect the majority (around 95%) of the samples to fall within
the credible interval and a minority outside this range. Figure 1-18 illustrates three
functions sampled from the prior process.

27
Chapter 1 Bayesian Optimization Overview

Figure 1-18. Three example functions sampled from the prior process, where
majority of the functions fall within the 95% credible interval

In the Gaussian process, the uncertainty on the objective value of each location is
quantified using the credible interval. As we start to collect observations and assume a
noise-free and exact observation model, the uncertainties at the collection locations will
be resolved, leading to zero variance and direct interpolation at these locations. Besides,
the variance increases as we move further away from the observations, resulting from
integrating the prior process with the information provided by the actual observations.
Figure 1-19 illustrates the updated posterior process after collecting two observations.
The posterior process with updated knowledge based on the observations will thus make
a more accurate surrogate model and better estimate the objective function.

28
Chapter 1 Bayesian Optimization Overview

Figure 1-19. Updated posterior process after incorporating two exact observations
in the Gaussian process. The posterior mean interpolates through the observations,
and the associated variance reduces as we move nearer the observations

Acquisition Function
The tools from Bayesian inference and the extension to the Gaussian process provide
principled reasoning on the distribution of the objective function. However, we would
still need to incorporate such probabilistic information in our decision-making to search
for the global maximum. We need to build a policy that absorbs the most updated
information on the objective function and recommends the following most promising
sampling location in the face of uncertainties across the domain. The optimization
policy thus plays an essential role in connecting the Gaussian process to the eventual
goal of Bayesian optimization. In particular, the posterior predictive distribution
provides an outlook on the objective value and associated uncertainty for locations not
explored yet, which could be used by the optimization policy to quantify the utility of any
alternative location within the domain.
When converting the posterior knowledge about candidate locations, that is,
posterior parameters such as the mean and the variance, to a single utility score, the
acquisition function comes into play. An acquisition function is a manually designed
mechanism that evaluates the relative potential of each candidate location in the
form of a scalar score, and the location with the maximum score will be used as the
recommendation for the next round of sampling. It is a function that assesses how
valuable a candidate location when we acquire/sample it. The acquisition function

29
Chapter 1 Bayesian Optimization Overview

is often cheap to evaluate as a side computation since we need to evaluate it at every


candidate location and then locate the maximum utility score, another (inner)
optimization problem.
Many choices of acquisition function have been proposed in the literature. In a later
part of the book, we will cover the popular ones, such as expected improvement (EI) and
knowledge gradient (KG). Still, it suffices, for now, to understand that it is a predesigned
function that needs to balance two opposing forces: exploration and exploitation.
Exploration encourages resolving the uncertainty across the domain by sampling at
unfamiliar and distant locations, since these areas may bear a big surprise due to a
high certainty. Exploitation recommends a greedy move at promising regions where
we expect the observation value to be high. The exploration-exploitation trade-off is a
common topic in many optimization settings.
Another distinguishing feature is the short-term and long-term trade-off. A short-­
term acquisition function only focuses on one step ahead and assumes this is the last
chance to sample from the environment; thus, the recommendation is to maximize the
immediate utility. A long-term acquisition function employs a multi-step lookahead
approach by simulating potential evolutions/paths in the future and making a final
recommendation by maximizing the long-run utility. We will cover both types of policies
in the book.
There are many other emerging variations in the design of the acquisition function,
such as adding safety constraints to the system under study. In any case, we would judge
the quality of the policy using a specific acquisition function based on how close we
are to the location of the global maximum upon exhausting our budget. The distance
between the current and optimal locations is often called instant regret or simple regret.
Alternatively, the cumulative regret (cumulative distances between historical locations
and the optimum location) incurred throughout the sampling process can also be used.

The Full Bayesian Optimization Loop


Bayesian optimization is an iterative process between the (uncontrolled) environment
and the (controlled) policy. The policy involves two components to support sequential
decision-making: a Gaussian process as the surrogate model to approximate the true
underlying function (i.e., the environment) and an acquisition function to recommend
the following best sampling location. The environment receives the probing request
at a specific location and responds by revealing a new observation that follows a

30
Chapter 1 Bayesian Optimization Overview

particular observation model. The Gaussian process surrogate model then uses the new
observation to obtain a posterior process in support of follow-up decision-making by the
preset acquisition function. This process continues until the stopping criterion such as
exhausting a given budget is met. Figure 1-20 illustrates this process.

Figure 1-20. The full Bayesian optimization loop featuring an iterative


interaction between the unknown (black-box) environment and the decision-­
making policy that consists of a Gaussian process for probabilistic evaluation
and acquisition function for utility assessment of candidate locations in the
environment

Summary
Bayesian optimization is a class of methodology that aims at sample-efficient
global optimization. This chapter covered the foundations of the BO framework,
including the following:

• The defining characteristics of Bayesian optimization as a global


optimization technique, including the observation model, surrogate
model, and the acquisition function
• The basics of Bayesian statistics, including the Bayesian inference
framework, different types of probabilities (joint, conditional, and
marginal), and prior and posterior predictive distributions

31
Chapter 1 Bayesian Optimization Overview

• The Bayesian optimization workflow that highlights two major


components: the Gaussian process and the acquisition function

In the next chapter, we will discuss the first component: the Gaussian process,
covering both theoretical understanding and practical implementation in Python.

32
CHAPTER 2

Gaussian Processes
In the previous chapter, we covered the derivation of the posterior distribution for
parameter θ as well as the predictive posterior distribution of a new observation y′
under a normal/Gaussian prior distribution. Knowing the posterior predictive
distribution is helpful in supervised learning tasks such as regression and classification.
In particular, the posterior predictive distribution quantifies the possible realizations
and uncertainties of both existing and future observations (if we were to sample again).
In this chapter, we will cover some more foundation on the Gaussian process in the first
section and switch to the implementation in code in the second section.
The way we work with the parameters depends on the type of models used for
training. There are two types of models in supervised learning tasks: parametric and
nonparametric models. Parametric models assume a fixed set of parameters to be
estimated and used for prediction. For example, by defining a set of parameters θ
(bolded lowercase to denote multiple elements contained in a vector) given a set of input
observations X (bolded uppercase to denote a matrix) and output target y, we rely on the
parametric model p(y| X, θ) and estimate the optimal parameter values θˆ via procedures
such as maximum likelihood estimation or maximum a posteriori estimation. Using a
Bayesian approach, we can also infer the full posterior distribution p(θ| X, y) to enable a
distributional representation instead of a point estimate for the parameters θ.
Figure 2-1 illustrates the shorthand math notation for matrix X and vector y.

33
© Peng Liu 2023
P. Liu, Bayesian Optimization, https://doi.org/10.1007/978-1-4842-9063-7_2
Other documents randomly have
different content
prouvent combien les lois prêtent à interprétation; les idées sur la
morale n’ont pas plus de fixité (Arcésilas, Dicéarque), 379.—Les lois et
les mœurs tiennent surtout leur autorité de ce qu’elles existent. Si
on remontait à leur origine, on constaterait parfois combien sont
discutables les principes qu’elles consacrent; aussi les philosophes
qui se piquaient le plus de ne rien accepter sans examen, ne se
faisaient-ils nullement scrupule de ne pas les observer et de ne tenir
aucun compte des bienséances (Chrysippe, Métroclès et Cratès,
Diogène, Hipparchia), 381.—Des philosophes ont avancé que, dans un
même sujet, subsistent les apparences les plus contraires; ce qu’il y
a de certain, c’est que les termes les plus clairs peuvent toujours
être interprétés différemment et que bien des écrits obscurs ont,
grâce à cela, trouvé des interprétations qui les ont mis en honneur
(Héraclite, Protagoras), 383.—Homère n’a-t-il pas été présenté
comme ayant traité en maître les questions de tous genres? Et
Platon n’est-il pas constamment invoqué comme s’étant prononcé en
toutes choses, dans le sens de celui qui le cite, etc.? 387.—Quoique
les notions qui nous viennent des sens puissent, comme on l’a dit,
être erronées, les sens sont pourtant la source de toutes nos
connaissances (Chrysippe, Carnéade), 389.—Si nous ne pouvons tout
expliquer, peut-être est-ce parce que certains sens existent dans la
nature et que l’homme s’en trouve dépourvu, ce qu’il lui est
impossible de constater, 391.—C’est par les sens que, malgré les
erreurs en lesquelles ils nous induisent, toute science s’acquiert;
chacun d’eux y contribue et aucun ne peut suppléer à un autre
(Épicure, Timagoras), 395.—L’expérience révèle les erreurs et les
incertitudes dont est entaché le témoignage des sens qui, bien
souvent, en imposent à la raison (Philoxène, Narcisse, Pygmalion,
Démocrite, Théophraste, le joueur de flûte de Gracchus), 399.—Par
contre, les passions de l’âme ont également action sur les opérations
des sens et concourent à les altérer, 403.—C’est avec raison que la
vie de l’homme a été comparée à un songe; que nous dormions ou
que nous soyons éveillés, notre état d’âme varie peu, 405.—En
général, les sens des animaux sont plus parfaits que ceux de
l’homme; des différences sensibles se peuvent aisément constater
entre eux, 405.—Même chez l’homme, nombreuses sont les
circonstances qui modifient les témoignages des sens, et leur
enlèvent tout degré de certitude, d’autant que souvent les
indications données par l’un sont contradictoires avec celles fournies
par un autre, 409.—En somme, on ne peut rien juger définitivement
des choses d’après les apparences que nous en donnent les sens,
413.—En outre, rien chez l’homme n’est à l’état stable; constamment
en transformation, il est insaisissable (Platon, Parménide, Pythagore,
Héraclite, Épicharme, Plutarque), 415.—D’où nous arrivons à conclure
qu’il n’y a rien de réel, rien de certain, rien qui n’existe que Dieu;
que l’homme n’est rien, ne peut rien par lui-même; et que, seule, la
foi chrétienne lui permet de s’élever au-dessus de sa misérable
condition (Plutarque, Sénèque), 417.

CHAPITRE XIII.

Du jugement à porter sur la mort d’autrui, II, 421.—Peu


d’hommes témoignent à leur mort d’une réelle fermeté d’âme; il en
est peu qui croient à ce moment que leur dernière heure est venue,
421.—Quand nous en sommes là, nous sommes portés d’ordinaire à
croire la nature entière intéressée à notre conservation et que nous
ne pouvons périr sans que le monde en soit bouleversé (César), 421.
—Pour juger du courage de qui s’est donné la mort, il faut examiner
dans quelles circonstances il se trouvait; la fermeté que nous
admirons ne vient souvent que de la crainte de souffrir une mort
lente ou honteuse (Caligula, Tibère, Héliogabale), 423.—Exemples de
faiblesse chez des gens qui avaient décidé de se tuer (L. Domitius,
Plautius Sylvanus, Albucilla, Démosthène, G. Cimbria, Ostorius), 425.—
Une mort prompte et inattendue est la plus désirable (l’empereur
Adrien, César), 425.—Noble constance de Socrate dans l’attente de la
mort, 427.—Exemples (Pomponius Atticus, le philosophe Cléanthe,
Tullius Marcellinus), 427.—Courage de Caton aidant, en pareille
circonstance, la mort à accomplir son œuvre, 429.

CHAPITRE XIV.
Comment notre esprit se crée à lui-même des difficultés,
II, 431.—Le choix de l’homme entre deux choses de même valeur se
détermine par si peu, qu’on est amené à en conclure que tout ici-bas
est doute et incertitude (Pline), 431.

CHAPITRE XV.

Notre désir s’accroît par la difficulté qu’il rencontre à se


satisfaire, II, 433.—La difficulté de les obtenir et la crainte de les
perdre sont ce qui donne le plus de prix à nos jouissances; les
obstacles rendent notamment les plaisirs de l’amour plus piquants;
tout ce qui est étranger a pour nous plus d’attrait (Jupiter et Danaé,
Lycurgue et les lois de Lacédémone, la courtisane Flora), 433.—Les
femmes ne se voilent et n’affectent de la pudeur, que pour exciter
davantage nos désirs (l’impératrice Poppée), 435.—C’est pour réveiller
notre zèle religieux, que Dieu permet les troubles qui agitent l’Église,
437.—En interdisant le divorce, on a affaibli les nœuds du mariage,
437.—La sévérité des supplices, loin d’empêcher les crimes, en
augmente le nombre; il y a des peuples qui ont existé sans lois
répressives (les Argyppées), 437.—Montaigne, au milieu des guerres
civiles, a garanti sa maison de toute invasion, en la laissant ouverte
et sans défense, 439.

CHAPITRE XVI.

De la gloire, II, 441.—En tout, il y a lieu de distinguer le nom et


la chose, 442.—A Dieu seul appartient gloire et honneur; l’homme
manque de tant d’autres choses qui lui sont autrement nécessaires,
qu’il est bien puéril à lui de rechercher celles-là, 441.—Plusieurs
philosophes ont prêché le mépris de la gloire laquelle, chez l’homme,
est cause de si grands dommages; elle n’est à rechercher que
lorsque d’autres avantages plus réels l’accompagnent (Chrysippe,
Diogène, les Sirènes et Ulysse), 443.—Et cependant l’homme est
tellement complexe que bien que ce mépris fût un des dogmes
fondamentaux de sa doctrine, Épicure lui-même, à son heure
dernière, n’a pas été sans se préoccuper du soin de sa réputation,
445.—Selon d’autres philosophes la gloire est désirable pour elle-
même; le plus généralement on admet qu’il ne faut ni la rechercher,
ni la fuir (Carnéade, Aristote), 447.—Erreur de ceux qui ont cru que la
vertu n’est désirable que pour la gloire qui l’accompagne (Cicéron),
447.—S’il en était ainsi, il ne faudrait jamais faire de belles actions
que lorsqu’on est remarqué (Sextus Peduceus, Sextilius Rufus, M.
Crassus et Q. Hortensius), 447.—La vertu serait chose bien frivole, si
elle tirait sa recommandation de la gloire, 449.—Quant à Montaigne,
toute la gloire qu’il désire, c’est de passer une vie tranquille, telle
qu’il la conçoit, 449.—C’est le hasard qui donne la gloire: que de
belles actions demeurent inconnues (César, Alexandre), 449.—La
vertu est à rechercher pour elle-même, indépendamment de
l’approbation des hommes, 451.—Le jugement des foules est
méprisable; le sage ne doit pas attacher de prix à l’opinion des fous
(Démétrius, Cicéron), 453.—Quand on ne suivrait pas le droit chemin
uniquement parce qu’il est droit, il faudrait encore le suivre pour son
propre avantage, les choses honnêtes étant ordinairement celles qui
profitent le plus (Paul Émile, Fabius), 453.—On fait trop cas de la
louange et de la réputation, d’ailleurs on n’est jamais jugé que sur
des apparences; aussi notre juge le plus sûr, c’est nous-mêmes, 455.
—Certains vont jusqu’à vouloir que leurs noms soient connus à tout
prix, même par des crimes (Érostrate, Manlius Capitolinus), 457.—
Qu’est-ce pourtant que la gloire attachée à un nom? n’est-il pas des
noms communs à plusieurs familles, témoin celui de Montaigne? 457.
—Peu d’hommes, sur un très grand nombre, jouissent de la gloire à
laquelle ils pourraient prétendre (les Grecs, les Romains, les
Lacédémoniens), 459.—Les écrits qui relatent leurs actions, le souvenir
qui s’en conserve sont eux-mêmes de bien courte durée, 459.—A
quel degré ne faut-il pas atteindre pour que notre mémoire se
perpétue! dans de telles conditions, et la vertu portant elle-même sa
récompense, est-ce la peine de sacrifier à la gloire? 461.—On peut
cependant arguer en sa faveur qu’elle est un stimulant pour les
hommes; qu’elle les porte quelquefois à la vertu, parce que
redoutant le blâme de la postérité, ils recherchent son estime
(Trajan, Néron, Platon), 461.—Un semblable mobile équivaut à avoir
recours à la fausse monnaie quand la bonne ne suffit pas; cela a été
le cas de tous les législateurs (Numa, Sertorius, Zoroastre, Trismégiste,
Zamolxis, Charondas, Minos, Lycurgue, Dracon et Solon, Moïse, la
religion des Bédouins), 463.—Quant aux femmes, elles ont tort
d’appeler honneur ce qui est leur devoir; celles qui ne sont retenues
que par la crainte de perdre leur honneur, sont bien près de céder,
463.

CHAPITRE XVII.

De la présomption, II, 465.—La présomption nous fait


concevoir une trop haute idée de notre mérite, elle nous représente
à nous-mêmes autres que nous ne sommes; mais, pour fuir ce
défaut, il ne faut pas tomber dans l’excès contraire et, par une
excessive modestie, s’apprécier moins qu’on ne vaut; en toutes
choses, il faut être vrai et sincère, 465.—Se peindre soi-même est le
moyen de se faire connaître pour qui mène une vie obscure; c’est ce
qui, contrairement aux conventions mondaines, a déterminé
Montaigne à parler de lui-même et l’incite à continuer (Lucilius), 462.
—Remontant à son enfance, il remarque, qu’ainsi qu’il arrive
souvent, il avait des gestes habituels qui, chez lui, pouvaient
indiquer de la fierté; on ne saurait en inférer qu’il soit réellement
atteint de ce défaut (Alexandre, Alcibiade, Jules César, Cicéron,
Constantin), 467.—Il ne trouve bien rien de ce qu’il fait, et estime
toujours moins les choses qu’il possède que celles qui appartiennent
aux autres, 469.—La trop bonne opinion que l’homme a de lui-
même, semble à Montaigne être la cause des plus grandes erreurs,
471.—Il sait le peu qu’il vaut, il a toujours été peu satisfait de ce que
son esprit a produit, surtout lorsqu’il s’est essayé dans la poésie que
cependant il aime, 471.—Accueil fait aux jeux olympiques à celle de
Denys l’Ancien, 473.—Opinion que Montaigne a de ses propres
ouvrages; il a grand’peine à rendre ses idées et ne s’entend
nullement à faire valoir les sujets qu’il traite (Cicéron, Xénophon,
Platon), 475.—Son style est embarrassé, sa nature primesautière
s’accommode mieux de parler que d’écrire; sa prononciation est
altérée par le patois de son pays; avec l’âge, il a perdu l’habitude
qu’il avait, étant enfant, de s’exprimer et d’écrire en latin (Salluste,
César, Sénèque, Plutarque, Messala), 477.—De quel prix est la beauté
corporelle? c’est elle qui, la première, a mis de la différence entre les
hommes, 479.—Montaigne était d’une taille au-dessous de la
moyenne. A l’encontre de ce qui est pour la femme, chez l’homme
une taille élevée est la condition essentielle et presque unique de la
beauté (C. Marius, les Éthiopiens, les Indiens, Jésus-Christ, Platon,
Philopœmen), 481.—Généralement maladroit aux exercices du corps, il
était cependant vigoureux et résistant, quand les fatigues auxquelles
il se livrait provenaient de sa propre volonté, 483.—Son état de
fortune à sa naissance lui assurait l’indépendance, il s’en est tenu là,
485.—Sa nonchalance est telle, qu’il préfère ignorer les préjudices
qu’il peut en éprouver que d’avoir à s’en préoccuper, 487.—Toute
réflexion, toute délibération lui sont pénibles, bien qu’une fois sa
détermination prise, la résolution ne lui fasse pas défaut, 487.—
L’incertitude du succès l’a dégoûté de l’ambition, qu’il n’admet que
chez ceux qui sont dans l’obligation de chercher fortune pour se
maintenir dans la condition où ils sont nés (le chancelier Olivier),
489.—Son siècle, par sa dépravation, ne convient nullement à son
humeur, 491.—On n’y connaît pas la franchise, la loyauté et, lui,
abhorre la dissimulation (Aristote, Appollonius), 493.—La fourberie
finit presque toujours par avoir de mauvais résultats; il est plus
nuisible qu’utile pour les princes d’y avoir recours (Metellus
Macedonicus, Louis XI, Tibère, Soliman), 495.—Montaigne, ennemi de
toute contrainte et de toute obligation, apportait dans ses relations
avec les grands une entière liberté de langage (Aristippe), 493.—
L’infidélité de sa mémoire lui rendait impossible de prononcer des
discours de longue haleine, 497.—Il était tellement rebelle à toute
pression, que sa volonté elle-même était parfois impuissante à
obtenir obéissance de lui-même (un archer), 497.—Son peu de
mémoire qui se révélait en maintes occasions, le mettait notamment
hors d’état de démêler dans ce qui lui venait à l’esprit, ce qui lui était
propre de ce qui était une réminiscence de ses lectures (Messala
Corvinus, Georges Trapezunce), 499.—Il avait l’esprit lent et obtus,
mais ce qu’il avait une fois compris il le retenait bien (Pline le Jeune),
501.—Son ignorance à propos des choses les plus communes, 503.—
Il était foncièrement irrésolu, trouvant tour à tour également bonnes
les raisons alléguées pour ou contre, ce qui le portait dans les cas
douteux à suivre les autres ou à s’en rapporter au hasard, plus qu’à
se décider par lui-même (René de Lorraine, Chrysippe, Mathias,
Socrate), 505.—Par la même raison, il est peu favorable aux
changements politiques, parce qu’on n’est jamais sûr des institutions
nouvelles qu’on veut substituer à celles existant depuis longtemps
déjà (Machiavel), 507.—Sur quoi est fondée l’estime que Montaigne a
de lui-même; il croit à son bon sens, du reste personne au monde
ne s’imagine en manquer, 509.—C’est ce qui fait que les ouvrages
uniquement inspirés par le bon sens, attirent si peu de réputation à
leurs auteurs; chacun se croit capable d’en faire autant, 511.—
Montaigne estime que ses opinions sont saines; il en voit une preuve
dans le peu de cas qu’il n’a jamais cessé de faire de lui-même
malgré la profonde affection qu’il se porte, 511.—Les autres
regardent en avant d’eux; lui ne regarde que lui-même, s’examine,
se contrôle et exerce ainsi constamment son jugement, 513.—Il
estime peu son époque; peut-être ce sentiment provient-il en partie
de son commerce continu avec l’antiquité autrement riche à tous
égards, 513.—C’est toujours avec plaisir qu’il loue le mérite partout
où il le constate, chez ses amis et même chez ses ennemis (les
Perses), 515.—Les hommes complets sont rares; éloge de son ami
Étienne de La Boétie, 515.—Les gens de lettres sont vains et faibles
d’entendement; peut-être exige-t-on trop d’eux et est-on, envers
eux, moins porté à l’indulgence, 515.—Mauvaise direction imprimée
à l’éducation qui se borne, en fait de morale, à des définitions, au
lieu de nous en inculquer les principes, 517.—Effets d’une bonne
éducation; elle modifie le jugement et les mœurs. Les mœurs du
peuple, en leur simplicité, sont plus réglées que celles des
philosophes de ce temps, 517.—Hommes de guerre, hommes
politiques, poètes et autres qui, seuls, parmi ceux de son siècle,
semblent à Montaigne mériter une mention spéciale (le duc de Guise,
le maréchal Strozzi, les chanceliers Olivier et l’Hospital, Daurat,
Théodore de Bèze, Buchanan, Mont-Doré, Turnebus, Ronsard, du Bellay, le
duc d’Albe, le connétable de Montmorency, M. de la Noue), 519.—Éloge
de Marie de Gournay, sa fille d’alliance, 519.—En ces temps de guerre
civile continue, la vaillance, en France, a atteint presque à la
perfection et y est devenue une vertu commune, 521.

CHAPITRE XVIII.

Du fait de donner ou recevoir des démentis, II, 521.—Si,


dans son livre, Montaigne parle aussi souvent de lui-même, dont la
vie n’offre rien de remarquable, c’est pour laisser un souvenir de lui
à ses amis (César, Xénophon, Alexandre, Auguste, Caton, Sylla, Brutus),
521.—Mais alors même que personne ne le lirait, il n’en aurait pas
moins employé, d’une manière agréable, à s’étudier et à se peindre,
une grande partie de sa vie; que lui importe le reste, 525.—Son
siècle est si corrompu que l’on ne se fait plus scrupule de parler
contre la vérité, défaut imputé à bien des époques aux Français
(Pindare, Platon, Salvinus Massiliensis), 527.—Et cependant rien ne les
offense plus que de leur en faire reproche, probablement parce que
les reproches mérités blessent plus que les accusations non fondées;
et aussi, parce que mentir est une lâcheté (Lysandre), 527.—Le
mensonge est un dissolvant de la société; il est en abomination chez
certains peuples de l’Amérique récemment découverte, 529.—Les
Grecs et les Romains, moins délicats que nous sur ce point, ne
s’offensaient pas de recevoir des démentis (César), 529.

CHAPITRE XIX.

De la liberté de conscience, II, 529.—Le zèle religieux est


souvent excessif et conséquemment injuste, 529.—C’est à ce zèle
outré des premiers chrétiens qu’il faut attribuer la perte d’un grand
nombre d’ouvrages de l’antiquité (l’empereur Tacite et Cornelius
Tacite), 531.—Leur intérêt les a aussi portés à louer de très mauvais
empereurs favorables au christianisme, et à en calomnier de bons
qui lui étaient contraires; du nombre de ces derniers est Julien,
surnommé l’Apostat, qui était un homme de premier ordre; sa
continence, sa justice (Alexandre, Scipion), 531.—Appréciation portée
sur lui par deux historiens chrétiens ses contemporains, Ammien
Marcellin et Eutrope, 533.—Sa sobriété, son application au travail,
son habileté dans l’art militaire (Alexandre le Grand), 533.—Sa mort a
quelque similitude avec celle d’Épaminondas, 535.—On l’a surnommé
l’Apostat; c’est un surnom qu’il ne mérite pas, n’ayant
vraisemblablement jamais été chrétien par le cœur. Il était
excessivement superstitieux; l’exclamation qu’on lui prête, lorsqu’il
se sentit frappé à mort, ne semble pas avoir été dite (Marcus Brutus),
535.—Il voulait rétablir le paganisme et détruire les chrétiens en
entretenant leurs divisions par une tolérance générale, 525.—Nos
rois, probablement par impuissance, suivent le même système à
l’égard des catholiques et des protestants, 537.
CHAPITRE XX.

Nous ne goûtons rien qui ne soit sans mélange, II, 537.—


Les hommes ne sauraient goûter de plaisirs sans mélange; toujours
quelque amertume se joint à la volupté; il semble que, sans cet
ingrédient, on ne saurait la supporter (Ariston, Pyrrhon, Épicharme,
Socrate, Métrodore, Attale), 537.—Au moral, il en est de même; point
de bonheur sans quelque teinte de vice, point de justice sans
quelque mélange d’injustice (Platon), 541.—Dans la société même,
les esprits les plus parfaits ne sont pas les plus propres aux affaires;
tel homme du plus grand sens ne sait pas conduire sa maison, tel
qui connaît l’économie publique laisse glisser en ses mains toute une
fortune (Simonide et le roi Hiéron), 541.

CHAPITRE XXI.

Contre la fainéantise, II, 543.—C’est un devoir pour un prince


de mourir debout, c’est-à-dire sans cesse occupé des affaires de
l’État; pourquoi des sujets se sacrifieraient-ils au service et aux
intérêts d’un souverain dont l’âme est avilie par l’oisiveté (les
empereurs Vespasien et Adrien)? 543.—Il est naturel qu’un prince
commande ses armées; les succès qu’il remporte sont plus complets
et sa gloire plus justifiée (Sélim I, Bajazet II, Amurat III et Charles V;
les rois de Castille et de Portugal), 545.—A l’activité les princes
doivent joindre la sobriété (l’empereur Julien, la jeunesse
lacédémonienne et la jeunesse persane, les anciens Romains), 545.—Le désir
de mourir bravement et utilement est très louable, mais cela n’est
pas toujours en notre pouvoir (les légions romaines de M. Fabius,
quelques soldats indiens, Philistus), 547.—Bel exemple de vertus
guerrières donné par Mouley-Moluch, roi de Fez, dans un combat où
il expire vainqueur des Portugais, 547.—Tranquillité d’âme de Caton,
résolu à la mort et sur le point de se la donner, 551.
CHAPITRE XXII.

Des postes, II, 551.—Montaigne, petit et trapu, courait


volontiers la poste dans sa jeunesse, 551.—L’usage de disposer à
demeure des chevaux de relais, de distance en distance, a été établi
par Cyrus, roi de Perse; les Romains ont agi de même (Vibullius Rufus,
César, Tiberius Néron, Sempronius Gracchus), 553.—Emploi
d’hirondelles, de pigeons pour faire parvenir rapidement des
nouvelles (Cecina, D. Brutus), 553.—Au Pérou, c’était avec des
porteurs que se courait la poste; mesure prise en Turquie pour
assurer le service des courriers, 553.

CHAPITRE XXIII.

Des mauvais moyens employés à bonne fin, II, 553.—Les


états politiques sont sujets aux mêmes vicissitudes et accidents que
le corps humain; lorsque leur population s’accroît outre mesure, on
recourt aux émigrations, à la guerre, etc. (les anciens Francs, les
Gaulois et Brennus, les Goths, les Vandales, les Turcs, les Romains,
Édouard III roi d’Angleterre, Philippe de Valois), 553.—La faiblesse de
notre condition nous réduit à recourir parfois, dans un bon but, à de
mauvais moyens (Lycurgue, condamnés a mort livrés vivants au scalpel
des médecins), 557.—Les spectacles de gladiateurs avaient été
inventés pour inspirer au peuple romain le mépris de la mort
(l’empereur Théodose), 557.

CHAPITRE XXIV.

De la grandeur romaine, II, 559.—Montaigne ne veut dire


qu’un mot de la grandeur des Romains, à laquelle il ne trouve rien
de comparable. N’étant encore que simple citoyen romain, César
donne, vend, propose des trônes (César et Cicéron, M. Furius, le roi
Déjotarus et un gentilhomme de Pergame, le roi Ptolémée), 559.—Une
lettre du sénat romain suffit pour faire abandonner ses conquêtes à
un roi puissant (Popilius et le roi Antiochus), 561.—Les Romains
rendaient leurs royaumes aux rois qu’ils avaient vaincus, pour faire
de ceux-ci des instruments de servitude (Auguste, le roi breton
Cogidunus, Soliman), 562.

CHAPITRE XXV.

Se garder de contrefaire le malade, II, 563.—Exemples de


personnes devenues soit goutteuses, soit borgnes après avoir feint
de l’être pendant quelque temps (Celius, un homme cité par Appien),
563.—Réflexion de Montaigne sur un vœu formé par quelques
gentilshommes anglais, 565.—Il faut empêcher les enfants de
contrefaire les défauts physiques qu’ils aperçoivent chez les autres,
de peur qu’ils ne les contractent eux-mêmes, 565.—Exemple d’un
homme devenu aveugle en dormant, 565.—Une folle habitant la
maison de Sénèque, devenue aveugle, croyait que c’était la maison
qui était devenue obscure; réflexion de ce philosophe sur ce que les
hommes ressemblent à cette folle, attribuant toujours leurs vices à
d’autres causes qu’à eux-mêmes, 565.

CHAPITRE XXVI.

Du pouce, II, 567.—Usage chez certains rois barbares de


cimenter leurs alliances en entrelaçant leurs pouces, les piquant, et
suçant le sang l’un de l’autre, 567.—Étymologie du mot pouce, 567.
—Coutume des Romains d’abaisser ou d’élever le pouce pour
applaudir ou pour ordonner la mort des gladiateurs, 567.—La
mutilation du pouce chez les anciens dispensait du service militaire
(les Romains, Auguste, C. Vatienus, Philoclès, les Athéniens et les
Éginètes, les Lacédémoniens), 569.

CHAPITRE XXVII.

La poltronnerie est mère de la cruauté, II, 569.—Vérité de


l’adage qui fait le titre de ce chapitre; le vrai brave pardonne à
l’ennemi qu’il a vaincu, le lâche l’injurie et le frappe même lorsqu’il
est réduit à l’impuissance (Alexandre tyran de Phères), 569.—Tuer son
ennemi quand il est abattu, c’est se priver de la vengeance; mieux
vaudrait le conserver à la vie, pour jouir de sa honte. Celui qui
succombe n’est pas du reste le plus à plaindre; le repos lui est
acquis, tandis que le survivant est obligé de fuir, de se cacher (Bias,
Lysiscus, coutume du royaume de Narsingue), 571.—Une chose
inexcusable c’est d’attendre la mort d’un ennemi pour publier des
invectives contre lui (Asinius Pollion et Plancus, Aristote), 573.—Les
duels dérivent d’un sentiment de lâcheté, de la crainte que notre
adversaire ne renouvelle ses offenses; l’usage de s’y faire
accompagner de tenants dans les querelles particulières part de ce
même sentiment, la peur de se voir abandonné à soi-même devant
le danger; devoirs des tenants en pareille occurrence (le duc
d’Orléans et le roi Henry d’Angleterre, les Argiens et les Lacédémoniens,
les Horaces et les Curiaces, un frère de Montaigne), 573.—S’il est vrai
que, seul, le courage doive être honoré, l’art de l’escrime est à flétrir,
puisqu’il ne procure la victoire qu’à force de feintes et de ruses; de
plus, il porte à violer les lois (le consul P. Rutilius, César à Pharsale),
577.—D’ailleurs, à la guerre, cet art est inutile et parfois dangereux
(Philopœmen, Platon), 579.—Les gens sanguinaires et cruels sont
généralement lâches, et un premier acte de cruauté en amène
nécessairement d’autres (l’empereur Maurice et Phocas; Philippe roi de
Macédoine, Théoxène et Poris), 581.—Les tyrans s’ingénient à
prolonger les tourments de leurs victimes; mais leur intention est
souvent trompée, les tortures violentes tuant, et celles qui sont
tolérables ne suffisant pas à leur rage, 583.—Dans les exécutions
ordinaires de la justice tout ce qui outrepasse la mort simple, est
cruauté (Juifs crucifiés), 583.—Détails de quelques supplices atroces;
Montaigne pense que les plus hideux à voir, ne sont pas toujours
ceux qui causent le plus de douleur aux malheureux qui ont à les
subir (l’empereur Mechmet en Épire, Crésus; Georges Séchel, chef des
paysans polonais révoltés), 585.

CHAPITRE XXVIII.
Chaque chose en son temps, II, 587.—Ce furent deux grands
hommes que Caton le Censeur et Caton d’Utique; mais celui-ci
l’emporte de beaucoup sur le premier, 587.—Dans sa vieillesse, Caton
le Censeur s’avisa d’apprendre le grec; c’est un ridicule, toutes choses
doivent être faites en leur temps (Q. Flaminius, Eudémonidas et
Xénocrate, Philopœmen et le roi Ptolémée), 587.—Nos désirs devraient
être amortis par l’âge, mais nos goûts et nos passions survivent à la
perte de nos facultés; quant à lui, Montaigne, il ne pense qu’à sa fin
et ne forme pas de projets dont l’exécution nécessiterait plus d’une
année, 589.—Sans doute un vieillard peut encore étudier, mais ses
études doivent être conformes à son âge, elles doivent lui servir à
quitter le monde avec moins de regrets (Caton d’Utique), 589.

CHAPITRE XXIX.

De la vertu, II, 591.—Par le mot vertu, il faut entendre ici la


force d’âme. Ce n’est pas en des élans impétueux mais passagers
que consiste ce genre de vertu; elle demande de la persévérance, un
caractère solide et constant, et se rencontre rarement, 591.—Bien
qu’il la possédât à un haut degré, Pyrrhon essaya vainement de
toujours mettre sa vie en conformité avec sa doctrine; c’est que ce
n’est pas tout de témoigner de la fermeté d’âme dans une
circonstance donnée, le difficile est de se montrer tel dans toutes ses
actions, 591.—Traits de courage amenés par une soudaine résolution
(un paysan et un gentilhomme du pays de Montaigne, une femme de
Bergerac), 593.—Autres exemples, ceux-là suite de déterminations,
de projets arrêtés longtemps à l’avance; ces actions fortes et
courageuses longuement préméditées sont, en général, le fruit de
préjugés absurdes ou de fausses doctrines (les femmes hindoues, les
gymnosophistes, Calanus), 595.—Le dogme de la fatalité, souvent mis
en avant mais facile à réfuter, est fréquemment exploité pour
surexciter les esprits; c’est lui qui inspire tant d’audace aux Turcs (les
Bédouins, deux moines de Florence, un jeune Turc, Henry de Navarre),
597.—Quant aux assassins, la plupart du temps ce sont les passions
religieuses ou politiques qui arment leur bras (les assassins du prince
d’Orange et du duc de Guise, la secte des Assassins), 601.

CHAPITRE XXX.

A propos d’un enfant monstrueux, II, 605.—Description d’un


enfant et d’un pâtre monstrueux; ce qui nous paraît tel, ne l’est pas
pour la nature, 605.

CHAPITRE XXXI.

De la colère, II, 607.—Il vaut mieux confier les enfants au


gouvernement qu’à leurs propres parents (les institutions de
Lacédémone et de Crète), 607.—Ceux-ci les châtient quelquefois dans
des transports de colère, ils les accablent de coups, les estropient;
ce n’est pas correction, c’est vengeance, 607.—La colère nous fait le
plus souvent envisager les choses sous un aspect trompeur; les
fautes qui nous irritent ne sont pas telles qu’elles nous paraissent.
Combien hideux sont les signes extérieurs de la colère (César et
Rabirius), 609.—Il ne faut pas juger de la vérité ou de la fausseté des
croyances et des opinions des hommes par leur conduite habituelle
(Eudaminondas, Cléomène, Cicéron et Brutus, Cicéron et Sénèque, les
éphores de Sparte), 611.—Modération de quelques grands hommes
sous l’empire de la colère (Plutarque et un de ses esclaves, Archytas
de Tarente, Platon, le lacédémonien Charylle et un ilote), 611.—Nous
cherchons toujours à trouver et à faire trouver notre colère juste et
raisonnable (Cneius Pison), 613.—Les femmes naturellement
emportées, deviennent furieuses par la contradiction; le silence et la
froideur les calment (l’orateur Celius, Phocion), 615.—Pour cacher sa
colère, il faut des efforts inouïs; elle est moins terrible quand elle
éclate librement (les hommes de guerre, Diogène et Démosthène), 615.—
Attentions à avoir quand, dans son intérieur, on a sujet de se mettre
en colère, 617.—Caractère du courroux de Montaigne; il feint parfois
d’être plus en colère qu’il ne l’est réellement, 617.—Il ne croit pas
que la colère puisse jamais avoir de bons effets, même quand il
s’agit de forcer les autres à pratiquer la vertu; c’est une arme
dangereuse; elle nous tient, nous ne la tenons pas (Aristote), 619.

CHAPITRE XXXII.

Défense de Sénèque et de Plutarque, II, 621.—Combien est


fausse la comparaison que l’on a voulu établir entre Sénèque et le
cardinal de Lorraine, en s’appuyant sur le portrait injurieux que
l’historien Dion trace du premier; il est plus rationnel de croire ce
qu’en disent Tacite et quelques autres qui en parlent d’une manière
très honorable, 621.—Quant à Plutarque, il a été accusé par Bodin,
d’ignorance, d’excessive crédulité et de partialité; réfutation de ces
accusations. Sur le reproche d’ignorance, Montaigne n’a pas le savoir
nécessaire pour en juger, 623.—Nombreux exemples témoignant que
les faits avancés par Plutarque et qualifiés d’incroyables par son
critique, n’ont rien d’impossible (un enfant de Lacédémone, Pyrrhus, les
jeunes Spartiates, Ammien Marcellin et les Égyptiens, un paysan espagnol
et L. Pison, Epicharis, de simples villageois du temps de Montaigne),
623.—C’est un tort de vouloir juger du possible et de l’impossible par
ce dont nous sommes nous-mêmes capables (Agésilas), 629.—La
partialité de Plutarque en faveur des Grecs et au détriment des
Romains n’est pas mieux fondée, d’autant qu’il ne prétend pas que
les grands hommes de ces deux peuples qu’il met en parallèle, ont
même valeur; il ne porte pas sur eux d’appréciation d’ensemble, il ne
compare que des points de détail en des situations déterminées,
629.

CHAPITRE XXXIII.

Histoire de Spurina, II, 633.—Nous apprendre à commander à


nos passions, tel est le but de la philosophie. Mais il en est d’une
violence extrême; et, des appétits qu’elles font naître en nous, ceux
que l’amour occasionne semblent les plus excessifs; peut-être est-ce
parce qu’ils intéressent à la fois le corps et l’âme, 633.—De combien
de moyens ne s’est-on pas servi pour les amortir: les mutilations, les
cilices, les réfrigérants de toutes espèces (un prince français,
Xénocrate), 633.—Chez quelques-uns, l’ambition est plus indomptable
que l’amour; Jules César, qui était d’une incontinence excessive, a
toujours su réprimer la fougue de cette passion quand il s’agissait de
grands intérêts (César, Mahomet II), 635.—D’autres, au contraire, ont
fait céder l’ambition à l’amour (Ladislas roi de Naples), 637.—César
ne sacrifiait jamais à ses plaisirs une heure de son temps quand les
affaires l’exigeaient tout entier; il était à la fois le plus actif et le plus
éloquent de son époque; il était aussi très sobre (César et Caton),
639.—Sa douceur et sa clémence ont paru douteuses; mille
exemples prouvent qu’il avait ces qualités (les capitaines de Pompée,
César à Pharsale, C. Memmius, C. Calvius, Catulle, C. Oppius), 641.—
Mais son ambition effrénée l’a amené à renverser la république la
plus florissante qui ait jamais existé, ce dont rien, d’après
Montaigne, ne saurait l’absoudre (Marc Antoine), 643.—Exemple
extraordinaire d’un jeune Toscan, Spurina, qui, extrêmement beau, se
cicatrisa tout le visage pour se soustraire aux passions qu’il inspirait,
645.—Une telle action ne se peut approuver; il est plus noble de
lutter que de se dérober aux devoirs que la société nous impose,
autrement c’est mourir pour s’épargner la peine de bien vivre
(Scipion et Diogène), 645.

CHAPITRE XXXIV.

Observations sur les moyens que Jules César employait à


la guerre, II, 647.—Dans le chapitre précédent, Montaigne a
examiné les vices et les qualités de César, il s’occupe ici de ses hauts
faits et de ses talents militaires; selon lui, ses commentaires
devraient être le bréviaire de tout homme de guerre, 647.—Pour
rassurer ses troupes alarmées de la supériorité numérique de
l’ennemi, il leur exagérait lui-même cette supériorité; il accoutumait
ses soldats à lui obéir sans les laisser commenter ses desseins; très
ménager du temps, il savait amuser l’ennemi pour le surprendre
avec plus d’avantage (le roi Juba, Cyrus, les Suisses), 647.—Il
n’exigeait guère de ses soldats que la vaillance et la discipline,
parfois il leur donnait toute licence; il aimait qu’ils fussent richement
armés, les honorait du nom de «Compagnons», ce qui n’empêchait
pas qu’il ne les traitât, le cas échéant, avec beaucoup de sévérité,
649.—Il se complaisait aux travaux de campagne, 651.—Il aimait à
haranguer ses troupes avant le combat, et ses harangues sont des
modèles d’éloquence militaire, 651.—Rapidité de César dans ses
mouvements; aperçu de ses guerres nombreuses en divers pays,
653.—Il voulait tout voir par lui-même; préférait obtenir le succès en
négociant, plutôt que par la force des armes; il était plus circonspect
qu’Alexandre dans ses entreprises, et donnait hardiment de sa
personne chaque fois que la nécessité le comportait (bataille de
Tournai, siège d’Avaricum, guerre contre Afranius et Petreius, César à
Dyrrachium, César franchissant l’Hellespont), 653.—Sa confiance et sa
ténacité au siège d’Alésia; deux particularités dignes de remarque à
propos de ce siège (Lucullus, Vercingétorix), 657.—Avec le temps,
César devint plus retenu dans ses entreprises. Quoique peu
scrupuleux, il n’approuvait cependant pas qu’on se servît de toutes
sortes de moyens à la guerre pour obtenir le succès (Arioviste), 659.
—Il savait très bien nager et aimait à aller à pied, 659.—Ses soldats
et ses partisans avaient pour lui une extrême affection et lui étaient
tout dévoués (l’amiral de Chatillon, Sceva soldat de César, Granius
Petronius, le siège de Salone), 661.

CHAPITRE XXXV.

Trois bonnes femmes, II, 663.—Quelques épigrammes de


Montaigne contre les femmes qui font parade de leur affection pour
leurs maris seulement quand ils sont morts (la veuve d’un prince
français), 663.—Cependant, dans l’antiquité, il en relève trois qui
voulurent partager le sort de leurs époux se donnant la mort. La
première, une italienne, citée par Pline le Jeune, était de naissance
commune; son dévouement, 665.—Les deux autres sont nobles;
l’une est Arria, femme de Cecina Pætus; son énergie, 667.—L’autre
est Paulina Pompeia, femme de Sénèque; son histoire, 671.—Singulière
preuve d’amour que, de son côté, Sénèque, renonçant pour elle à
mourir, avait donnée à sa femme, 675.

TROISIÈME VOLUME.

CHAPITRE XXXVI.

Quels hommes occupent le premier rang entre tous, III,


11.—Trois hommes des temps passés occupent, selon Montaigne, le
premier rang entre tous. Le premier, c’est Homère, le prince, le
modèle de tous les poètes; estime que l’on en a fait dans tous les
temps (Aristote, Varron, Virgile, Alexandre le Grand, Cléomène,
Plutarque, Alcibiade, Hiéron, Platon et Panetius, Mahomet II et le pape
Pie II), 11.—Le second est Alexandre le Grand: ses belles actions
pendant sa vie si courte; il est préférable à César qui pourtant lui est
supérieur sous certains rapports (Annibal, les Mahométans), 15.—Le
troisième et le meilleur de tous, c’est Épaminondas; il l’emporte sur
Alexandre et César, mais son théâtre d’action a été beaucoup plus
restreint. Les Grecs l’ont nommé le premier d’entre eux; il réunissait
toutes les qualités que l’on trouve éparses chez les autres, et chez
lui elles atteignaient la perfection, 19.—Scipion Émilien pourrait lui
être comparé, s’il eût eu une fin aussi glorieuse. Ce qu’on peut dire
d’Alcibiade, 21.—Bonté, douceur, équité et humanité d’Épaminondas
(Pélopidas, les Béotiens), 21.

CHAPITRE XXXVII.

De la ressemblance des enfants avec leurs pères, III, 23.


—Comment Montaigne a fait son livre: il n’y travaillait que lorsqu’il
avait des loisirs; un valet lui a emporté une partie de son manuscrit,
il le regrette peu, 23.—Il y a sept ou huit ans qu’il a commencé à
l’écrire, et depuis dix-huit mois il souffre d’un mal qu’il avait toujours
redouté, de coliques néphrétiques, 23.—Combien les hommes sont
attachés à la vie! Pour lui, il est bien plus sensible aux maux
physiques qu’aux douleurs morales, et cependant il commence à
s’habituer à sa cruelle maladie qui lui offre cet avantage de le mieux
familiariser avec la mort (Mécène, Tamerlan et les lépreux, Antisthène
et Diogène), 23.—Il n’est point de ceux qui réprouvent que l’on
témoigne par des plaintes et des cris les souffrances que l’on
ressent, quoiqu’il arrive à assez bien se contenir, et que, même dans
les plus grandes douleurs, il conserve sa lucidité d’esprit, s’observe
et se juge, 27.—Ce qui l’étonne et qu’il ne peut s’expliquer, ce sont
ces transmissions physiques et morales, directes et indirectes, des
pères, des aïeux, des bisaïeuls aux enfants (la famille des Lépides à
Rome, une famille de Thèbes), 31.—Il pense tenir de son père ce mal
de la pierre dont il est affecté, comme aussi il a hérité de lui de son
antipathie pour la médecine, 31.—Motif du peu d’estime en laquelle
il tient cette science, elle fait plus de malades qu’elle n’en guérit, 35.
—La plupart des peuples, les Romains entre autres, ont longtemps
existé sans connaître la médecine (les Romains, Caton le Censeur, les
Arcadiens, les Libyens, nos villageois), 39.—L’utilité des purgations
imaginées par la médecine n’est rien moins que prouvée; sait-on du
reste jamais si un remède agit en bien ou en mal et s’il n’eût pas
mieux valu laisser faire la nature (un Lacédémonien, l’empereur Adrien,
un lutteur et Diogène, Nicoclès), 39.—Les médecins se targuent de
toutes les améliorations qu’éprouve le malade et trouvent toujours à
excuser le mauvais succès de leurs ordonnances (Platon, Ésope), 41.
—Loi des Égyptiens obligeant les médecins à répondre de l’efficacité
du traitement de leurs malades (Esculape), 43.—Le mystère sied à la
médecine; le charlatanisme qu’apportent les médecins dans la
désignation et le mode d’emploi de leurs drogues, leur attitude
compassée près de leurs malades en imposent; ils devraient toujours
discuter à huis clos et se garder de traiter à plusieurs un même
malade, ils éviteraient ainsi de déceler les contradictions qui règnent
entre eux, 45.—Sur la cause même des maladies, que d’opinions
diverses! 47.—Quand la médecine a commencé à être en crédit;
fluctuations que, depuis cette époque, ont subies les principes sur
lesquels elle repose (Hippocrate, Chrysippe, Érasistrate, Hiérophile,
Asclépiade, Thémisson, Musa, Vectius Valens, Thessalus, Crinas de
Marseille, Charinus, Pline l’Ancien, Paracelse, Fioraventi, Argentarius),
47.—Rien de moins certain que les médicaments qui ne font pas de
bien ne font pas de mal; en outre, les méprises sont fréquentes; la
chirurgie offre une bien plus grande certitude, 49.—Comment ajouter
foi à des médicaments complexes, composés en vue d’effets
différents, souvent contraires, devant se produire simultanément sur
divers de nos organes? 53.—Chaque maladie devrait être traitée par
un médecin distinct qui s’en serait spécialement occupé (les
Égyptiens), 55.—Faiblesse et incertitude des raisonnements sur
lesquels est fondé l’art de la médecine: l’un condamne ce que l’autre
approuve, 55.—Quoique Montaigne n’ait confiance en aucun remède,
il reconnaît que les bains sont utiles, peut-être aussi les eaux
thermales; diversité dans les modes d’emploi de ces eaux (sources
minérales en France, en Allemagne, en Italie), 57.—Conte assez
plaisant contre les gens de loi et les médecins (les habitants du pays
de Lahontan), 61.—Autre conte sur la médecine (un bouc nourri
d’herbes apéritives et de vin blanc), 63.—Ce n’est que leur science
que Montaigne attaque chez les médecins et non eux, pour lesquels
il a la même estime que pour les gens de n’importe quelle autre
profession; limite dans laquelle il se confie à eux; combien au
surplus ne font pas, pour eux-mêmes, usage des drogues qu’ils
prescrivent à autrui (Lycurgue, un gentilhomme gascon), 65.—C’est la
crainte de la douleur, de la mort, qui fait qu’on se livre
communément aux médecins (les Babyloniens, les Égyptiens), 67.—Sur
quoi, du reste, la connaissance que les médecins prétendent avoir de
l’efficacité de leurs remèdes est-elle fondée (Galien)? 69.—Insertion
d’une lettre de Montaigne à Madame de Duras. Elle lui a entendu
exposer ses idées sur la médecine, elle les retrouvera dans son
ouvrage où il se peint tel qu’il est, ne voulant pas paraître après lui
autre qu’il n’était de son vivant, se souciant peu de ce que, lui mort,
on en pourra penser (Tibère), 71.—S’il a parlé si mal de la médecine,
ce n’a été qu’à l’exemple de Pline et de Celse, les seuls médecins de
Rome ancienne qui aient écrit sur leur art, 75.—Il se peut que lui-
même en arrive à se remettre entre les mains des médecins; c’est
qu’alors, comme tant d’autres, il sera gravement atteint et ne sera
plus en possession de la plénitude de ses facultés; au surplus, sur ce
sujet comme sur toutes autres choses, Montaigne admet fort bien
que tout le monde ne soit pas de son avis (Périclès), 75.

LIVRE TROISIÈME.

CHAPITRE I.

De ce qui est utile et de ce qui est honnête, III, 79.—La


perfidie est si odieuse que les hommes les plus méchants ont parfois
refusé de l’employer, même quand ils y avaient intérêt (Tibère et
Arminius), 79.—L’imperfection de la nature humaine est si grande que
des vices et des passions très blâmables, sont souvent nécessaires à
l’existence de la société; c’est ainsi que la justice recourt quelquefois
et bien à tort à de fausses promesses, pour obtenir des aveux, 79.—
Dans le peu d’affaires politiques auxquelles Montaigne a été mêlé, il
a toujours cru devoir se montrer franc et consciencieux (Hypéride et
les Athéniens, Atticus), 81.—Quelque danger qu’il y ait à prendre parti
dans les troubles intérieurs, il n’est ni beau, ni honnête de rester
neutre (Gélon tyran de Syracuse, Morvillers évêque d’Orléans), 85.—
Quel que soit le parti que l’on embrasse, la modération est à
observer à l’égard des uns comme vis-à-vis des autres, 87.—Il est
des gens qui servent les deux partis à la fois; ils sont à utiliser, tout
en se gardant du mal qu’ils peuvent vous faire, 87.—Quant à
Montaigne, il disait à tous les choses telles qu’il les pensait, et se
contentait de ce qu’on lui communiquait sans chercher à pénétrer les
secrets de personne, ne voulant du reste être l’homme lige de qui
que ce fût (Philippide et Lysimaque), 87.—Cette manière de faire n’est
pas celle que l’on pratique d’ordinaire, mais il était peu apte aux
affaires publiques qui exigent souvent une dissimulation qui n’est
pas dans son caractère, 89.—Il y a une justice naturelle, bien plus
parfaite que les justices spéciales à chaque nation, que chacune a
créées à son usage et qui autorisent parfois des actes condamnables
lorsque le résultat doit en être utile (l’indien Dendamis), 91.—La
trahison, par exemple, est utile dans quelques cas, elle n’en est pas
plus honnête; ceux qui s’y prêtent en sont flétris et on ne saurait
vous imposer d’en commettre (deux compétiteurs au royaume de
Thrace, l’empereur Tibère et Pomponius Flaccus, les Lacédémoniens et
Antipater, les rois d’Égypte et leurs juges), 93.—Si elle est excusable,
ce n’est qu’opposée à une autre trahison sans que pour cela le
traître cesse d’être méprisé; parfois il est puni par ceux-là mêmes
qu’il a servis (Fabricius et le médecin de Pyrrhus, Jarolepc duc de
Russie, Antigone et les soldats d’Eumène, l’esclave de Sulpitius, Clovis,
Mahomet II, la fille de Séjan), 95.—Ceux qui consentent à être les
bourreaux de leurs parents et de leurs compagnons encourent la
réprobation publique (Witolde, prince de Lithuanie), 99.—Les princes
sont quelquefois dans la nécessité de manquer à leur parole; ils ne
sont excusables que s’ils se sont trouvés dans l’impossibilité absolue
d’assurer autrement les intérêts publics dont ils ont charge, 99.—
Comment le Sénat de Corinthe s’en remit à la Fortune, du jugement
qu’il avait à porter sur Timoléon qui venait de tuer son propre frère,
101.—Acte inexcusable du Sénat romain revenant sur un traité qu’il
avait ratifié, revirement fréquent dans les guerres civiles, 101.—
L’intérêt privé ne doit jamais prévaloir sur la foi donnée; ce n’est que
si on s’est engagé à quelque chose d’inique ou de criminel, que l’on
peut manquer à sa parole, 103.—Chez Épaminondas, l’esprit de justice
et la délicatesse de sentiments ont toujours été prédominants; son
exemple montre qu’ils sont compatibles avec les rigueurs de la
guerre et qu’il est des actes qu’un homme ne peut se permettre
même pour le service de son roi, non plus que pour le bien de son
pays (Pompée, César, Marius, un soldat de Pompée, un autre à une
époque un peu postérieure), 103.—En résumé, l’utilité d’une action
ne la rend pas honorable, 107.
CHAPITRE II.

Du repentir, III, 107.—Avant d’entrer en matière, Montaigne


jette un regard sur lui-même et expose que, si la peinture qu’il fait
de lui dans son ouvrage ne le représente pas constamment avec les
mêmes idées, c’est qu’il se peint au jour le jour et que rien n’est
stable en ce monde; il change, parce que tout change (Demade), 107.
—Quoique sa vie n’offre rien de particulier, l’étude qu’il en fait, n’en
a pas moins son utilité, étant donné que c’est un homme qu’il
dépeint, et non un grammairien, un poète ou un jurisconsulte; que
jamais auteur n’a traité un sujet qu’il possédait mieux, et qu’il ne
veut que raconter et non enseigner, 109.—Tout vice laisse dans l’âme
une plaie qui tourmente sans cesse; une bonne conscience procure,
au contraire, une satisfaction durable; c’est ce qui fait que
Montaigne se félicite de n’avoir, malgré la contagion de son siècle,
causé ni la ruine ni l’affliction de personne, de n’avoir pas attenté
publiquement aux lois, ni manqué à sa parole, 111.—Chacun devrait
être son propre juge, les autres n’ont qu’une fausse mesure de
nous-mêmes; ce n’est pas nous qu’ils voient, mais ce qu’ils croient
deviner de nous sous le masque dont nous nous couvrons, 113.—Le
repentir est, dit-on, la suite inévitable d’une faute; cela n’est pas
exact pour les vices enracinés en nous, 115.—La vie extérieure d’un
homme n’est pas sa vie réelle, il n’est lui-même que dans sa vie
privée; aussi combien peu font l’admiration de ceux qui vivent
constamment dans leur intérieur et même dans leur voisinage
immédiat. C’est surtout chez les hommes de condition sociale peu
élevée, que la grandeur d’âme se manifeste (Bias, Livius Drusus,
Agésilas, Montaigne, Aristote, Alexandre et Socrate, Tamerlan, Érasme),
115.—Les inclinations naturelles, les longues habitudes se
développent, mais ne se modifient ni ne se surmontent par
l’éducation; aussi ceux qui entreprennent de réformer les mœurs, se
trompent-ils en croyant y arriver: ils n’en changent que l’apparence,
121.—Les hommes en général, même dans leur repentir, ne
s’amendent pas réellement; s’ils cherchent à être autres, c’est parce
qu’ils espèrent s’en trouver mieux; pour lui, son jugement a toujours
dirigé sa conscience (un paysan de l’Armagnac), 121.—Aussi ne se
repent-il aucunement de sa vie passée; dans la gestion de ses
propres affaires, il a pu commettre des erreurs importantes: c’est à
la fortune, et non à son jugement, qu’il en impute la faute, 125.—
Les conseils sont indépendants des événements; lui-même en
demandait peu et n’en tenait guère compte; d’autre part, il en
donnait rarement. Une fois une affaire finie, il se tourmentait peu de
la tournure qu’elle avait prise, lors même qu’elle était contraire à ses
désirs ou à ses prévisions (Phocion), 129.—On ne saurait appeler
repentir les changements que l’âge apporte dans notre manière de
voir et par suite dans notre conduite; la sagesse des vieillards n’est
que de l’impuissance; ils raisonnent autrement, et peut-être moins
sensément que dans la vigueur de l’âge (Antisthène), 131.—Il faut
donc s’observer dans la vieillesse pour éviter, autant que possible,
les imperfections qu’elle apporte avec elle (Socrate), 133.

CHAPITRE III.

De la société des hommes, des femmes et de celle des


livres, III, 137.—La diversité des occupations est un des caractères
principaux de l’âme humaine; le commerce des livres est de ceux qui
la distraient (Caton l’Ancien), 137.—Pour Montaigne, son occupation
favorite était de méditer sur lui-même; par la lecture, il ajoutait à ses
sujets de méditation; il se plaisait aussi aux conversations sérieuses,
sans bannir toutefois les sujets ayant de la grâce et de la beauté; les
entretiens frivoles n’étaient pour lui d’aucun intérêt (Aristote), 137.—
Peu porté à se lier, il apportait beaucoup de circonspection dans ces
amitiés de rencontre qu’engendre la vie journalière; cette réserve,
commandée aussi par le mauvais esprit du temps, n’a pas été sans
indisposer beaucoup de personnes contre lui; par contre, assoiffé
d’amitié vraie, il se livrait sans restriction s’il venait à se rencontrer
avec quelqu’un répondant à son idéal (Socrate, Plutarque), 139.—Il
est utile de savoir s’entretenir familièrement avec toutes sortes de
gens et il faut se mettre au niveau de ceux avec lesquels on
converse; aussi n’aime-t-il pas les personnes au langage prétentieux
(Platon, les Lacédémoniens), 141.—Cette sorte de langage est un
défaut fréquent chez les savants et qui lui fait fuir les femmes
savantes; que la femme ne se contente-t-elle de ses dons naturels;
si, cependant, elle veut étudier, qu’elle cultive la poésie, l’histoire et
ce qui, en fait de philosophie, peut l’aider à supporter les peines de
la vie, 143.—Montaigne, de caractère ouvert et exubérant, s’isolait
volontiers autant par la pensée au milieu des foules, à la cour par
exemple, que d’une manière effective, chez lui, où on était affranchi
de toutes les contraintes superflues qu’impose la civilité, 145.—Dans
le monde, il recherchait la société des gens à l’esprit juste et sage,
lesquels sont bien plus rares qu’on ne croit; nature des
conversations qu’il avait avec eux. C’est là ce que finalement il
appelle son premier commerce (Hippomachus), 147.—Le commerce
avec les femmes vient en second lieu; il a sa douceur, mais aussi ses
dangers; les sens y jouent un grand rôle; Montaigne voudrait que de
part et d’autre on y apportât de la sincérité, à cet égard l’homme est
au-dessous de la brute (les filles des Brahmanes), 149.—Idée qu’il
donne de ses amours; les grâces du corps, en pareil cas, l’emportent
sur celles de l’esprit bien que celles-ci y aient aussi leur prix
(l’empereur Tibère, la courtisane Flora), 153.—Un troisième
commerce dont l’homme a la disposition, est celui des livres; c’est le
plus sûr, le seul qui ne dépende pas d’autrui; les livres consolent
Montaigne dans sa vieillesse et dans la solitude (Jacques roi de
Naples et de Sicile), 153.—Sa bibliothèque est son lieu de retraite de
prédilection; description qu’il en donne, 155.—Les Muses sont le
délassement de l’esprit. Dans sa jeunesse, Montaigne étudiait pour
briller; dans l’âge mûr, pour devenir plus sage; devenu vieux, il
étudie pour se distraire, 159.—Mais le commerce des livres a, lui
aussi, des inconvénients; il n’exerce pas le corps: de ce fait, dans la
vieillesse, il est préjudiciable à la santé, 159.

CHAPITRE IV.

De la diversion, III, 159.—C’est par la diversion qu’on parvient


à calmer les douleurs vives. On console mal par le raisonnement; il
faut distraire l’esprit, appeler son attention sur d’autres objets, mais
l’effet en est de courte durée (Cléanthe, les Péripatéticiens, Chrysippe,
Épicure, Cicéron), 159.—A la guerre, la diversion se pratique utilement
pour éloigner d’un pays un ennemi qui l’a envahi, pour gagner du
temps (Périclès, le sieur d’Himbercourt, Atalante et Hippomène), 161.—
C’est aussi un excellent remède dans les maladies de l’âme, par elle
on rend moins amers nos derniers moments; Socrate est le seul qui,
dans l’attente de la mort, sans cesser de s’en entretenir, ait
constamment, durant un long espace de temps, gardé la plus
parfaite sérénité (les disciples d’Hégésias et le roi Ptolémée), 165.—
Chez les condamnés à mort, la dévotion devient une diversion à leur
terreur, 165.—Fermeté, lors de son exécution, de Subrius Flavius
condamné à mort, 167.—Sur un champ de bataille, dans un duel,
l’idée de la mort est absente de la pensée des combattants (L.
Silanus), 167.—Dans les plus cruelles calamités, nombre de
considérations rendent notre situation moins pénible; sommes-nous
menacés d’une mort prochaine, l’espérance d’une vie meilleure, le
succès de nos enfants, la gloire future de notre nom, l’espoir que
nous serons vengés, etc., tout se présente à notre esprit, l’occupe et
le distrait (Didon, Ariane, Xénophon, Épicure, Épaminondas, Zénon), 167.—
Moyen de dissiper un ardent désir de vengeance, 169.—C’est encore
par la diversion qu’on se guérit de l’amour, comme de toute autre
passion malheureuse; par elle, le temps, qui calme tout, exerce son
action, 169.—De même en détournant l’attention, on fait tomber un
bruit public qui vous offense (Alcibiade), 171.—Un rien suffit pour
attirer et détourner notre esprit; en présence même de la mort, les
objets les plus frivoles entretiennent en nous le regret de la vie
(Plutarque, la robe de César, Tibère), 173.—L’orateur et le comédien
en arrivent souvent à ressentir en réalité les sentiments qu’ils
expriment dans le plaidoyer qu’ils débitent ou le rôle qu’ils jouent
(les pleureuses, le convoi de M. de Grammont, Quintilien), 175.—
Singulier moyen que nous mettons en œuvre pour faire diversion à
la douleur que nos deuils peuvent nous causer, 177.—Nous nous
laissons souvent influencer par de purs effets d’imagination; parfois,
il n’en faut pas davantage pour nous porter aux pires résolutions
(Cambyse, Aristodème, Midas, Prométhée), 177.
CHAPITRE V.

A propos de quelques vers de Virgile, III, 179.—La vieillesse


est si naturellement portée vers les idées tristes et sérieuses que,
pour se distraire, elle a besoin de se livrer quelquefois à des actes de
gaîté; à l’âge où il est parvenu, Montaigne se défend de la
tempérance comme il se défendait autrefois de la volupté, 179.—
Aussi saisit-il avidement toutes les occasions de goûter quelque
plaisir et pense qu’il vaut mieux être moins longtemps vieux, que
vieux avant de l’être (Platon), 181.—Ce qu’il y a de pire, dans la
vieillesse, c’est que l’esprit se ressent des souffrances et de
l’affaiblissement du corps, 185.—La santé, la vigueur physique font
éclore les grandes conceptions de l’esprit; la sagesse n’a que faire
d’une trop grande austérité de mœurs, elle est par essence gaie et
sociable (Platon, Socrate, Crassus), 185.—Ceux qui se blessent de la
licence des écrits de Montaigne devraient bien plutôt blâmer celle de
leurs pensées. Pour lui, il ose dire tout ce qu’il ose faire et regrette
que tout ce qu’il pense ne puisse de même être publié; il est du
reste à présumer que la confession qu’il fait de ses fautes, aura peu
d’imitateurs (Thalès, Origène, Ariston), 187.—Ce que les hommes
craignent le plus, c’est qu’une occasion quelconque mette leurs
mœurs à découvert; et pourtant, comment un homme peut-il être
satisfait d’être estimé, honoré, lorsqu’il sait qu’il ne mérite ni
l’estime, ni la vénération? Montaigne, qui va maintenant entrer dans
le vif de son sujet, appréhende que ce chapitre des Essais ne fasse
passer son livre du salon de ces dames dans leur boudoir (Archélaüs,
Socrate), 191.—Comment se fait-il que l’acte par lequel se perpétue
le genre humain, paraisse si honteux qu’on n’ose le nommer? Il est
vrai que si on tait son nom, il n’en est pas moins connu de tout sexe
(Aristote, Plutarque, Lucrèce), 193.—Pourquoi avoir voulu brouiller les
Muses avec Vénus? Rien n’inspire plus les poètes que l’amour, et rien
ne peint mieux ses transports que la poésie; pour s’en convaincre, il
ne faut que lire les vers où Virgile décrit avec tant de chaleur une
entrevue amoureuse de Vénus avec Vulcain, 193.—Le mariage
diffère de l’amour; c’est un marché grave, dicté par la raison, que
l’on contracte en vue de la postérité; les extravagances amoureuses
doivent en être bannies; au surplus, les mariages auxquels l’amour a
seul présidé, ont, plus que tous autres, tendance à mal tourner
(Aristote), 195.—L’amour ne fait pas partie intégrante du mariage,
pas plus que la vertu n’est d’une façon absolue liée à la noblesse.
Digression sur le rang en lequel sont tenus les nobles dans le
royaume de Calicut (Antigone), 195.—Un bon mariage, s’il en existe,
est une union faite d’amitié et de confiance, qui impose des devoirs
et des obligations mutuelles; il n’est pas d’état plus heureux dans la
société humaine (Socrate), 199.—Montaigne répugnait beaucoup à
se marier, cependant il s’est laissé assujettir par l’exemple et les
usages à ce commun devoir; et, tout licencieux qu’on le croit, il a
mieux observé les lois du mariage qu’il ne l’avait promis et espéré.
Ceux-là ont grand tort qui s’y engagent sans être résolus à s’y
comporter de même, 201.—Différence entre le mariage et l’amour;
une femme peut céder à un homme, dont elle ne voudrait pas pour
mari (Virgile, Isocrate, Lycurgue, Platon), 203.—Nos lois sont trop
sévères envers les femmes, on voit qu’elles ont été faites par les
hommes. Nous voulons qu’elles maîtrisent leurs désirs plus ardents
encore que les nôtres, que nous n’essayons même pas de modérer
(Isocrate, Tirésias, Proculus et Messaline, une femme de Catalogne et la
reine d’Aragon, Solon), 205.—Il n’y a pas de passion plus impérieuse,
et nous nous opposons à ce qu’elles en tempèrent les effets ou
reçoivent entière satisfaction; épousent-elles un jeune homme, cela
ne l’empêche pas d’avoir des maîtresses; un vieillard, c’est comme si
elles restaient vierges (le philosophe Polémon, la vestale Clodia Læta,
Boleslas roi de Pologne et Kinge sa femme), 209.—L’éducation qu’on
donne aux jeunes filles, tout opposée à ce qu’on exige d’elles, éveille
constamment en elles ce sentiment: elles n’entendent parler que
d’amour; ce qu’on leur en cache, souvent maladroitement, elles le
devinent; aussi, leur imagination aidant, en savent-elles plus que
nous qui prétendons les instruire, et Boccace et l’Arétin n’ont rien à
leur apprendre (la fille de Montaigne), 209.—Du reste c’est l’amour,
c’est l’union des sexes qui sont la grande affaire de ce monde; aussi
ne faut-il pas s’étonner si les plus grands philosophes ont écrit sur ce
sujet (Socrate, Zénon, Straton, Théophraste, Aristippe, Platon, Démétrius
de Phalère, Héraclide du Pont, Antisthène, Ariston, Cléanthe, Sphereus,
Chrysippe, l’école d’Épicure), 211.—Dans l’antiquité, les organes de la
génération étaient déifiés; aujourd’hui, comme alors, tout du fait de
l’homme comme de celui de la nature, rappelle constamment
l’amour aux yeux de tous (à Babylone, dans l’île de Chypre, à
Héliopolis, les Égyptiennes, les matrones de Rome, la chaussure des Suisses,
les costumes des hommes et des femmes chez nous et ailleurs, un
pape), 213.—Mieux vaudrait renseigner de bonne heure la femme sur
les choses de l’amour, que de lui en faire mystère et de laisser son
imagination travailler, ce qui la porte notamment à des exagérations
qui aboutissent à des déconvenues lorsqu’elle est en présence de la
réalité; en somme, dans toutes les règles qu’il a édictées, l’homme
n’a eu que lui-même en vue (Platon, les femmes de l’Inde, Livie, les
Lacédémoniennes, S. Augustin), 215.—Il est bien difficile, dans l’état
actuel de nos mœurs, qu’une femme demeure toujours chaste et
fidèle (S. Jérôme), 217.—Elles n’en ont que plus de mérite,
lorsqu’elles parviennent à se maintenir sages; mais ce n’est pas en
se montrant prudes et revêches qu’elles feront croire à leur vertu. Ce
à quoi elles doivent s’appliquer, c’est à conserver leur réputation, ou,
si elles l’ont perdue, à la rétablir. L’indiscrétion des hommes est un
grand tourment pour elles, 219.—La jalousie est une passion inique
dont elles ont également à souffrir, etc.; le préjugé qui nous fait
considérer comme une honte l’infidélité de la femme n’est pas plus
raisonnable. Que de grands hommes se sont consolés de cet
accident; les dieux du paganisme, Vulcain entre autres, ne s’en
alarmaient pas. Chez la femme, la jalousie est encore plus terrible
que chez l’homme; elle pervertit en elle tout ce qu’il y a de bon et de
beau et la rend susceptible des pires méfaits (le berger Chratis,
Lucullus, César, Pompée, Antoine, Caton, Lépide, Vulcain et Vénus, Octave
et Paulia Posthumia), 223.—La chasteté est-elle chez la femme une
question de volonté? Pour réussir auprès d’elle, tout dépend des
occasions et il faut savoir oser (Montaigne était de ceux qui n’osent
guère); celles qui se prétendent sûres d’elles-mêmes, ou n’ont pas
été exposées à la tentation, ou se vantent; du reste ce que nous
entendons leur interdire à cet égard, est mal défini et peut se
produire parfois inconsciemment (les femmes Scythes, Fatua femme de
Faustus, la femme de Hiéron), 227.—C’est d’après l’intention qu’il faut
juger si la femme manque, ou non, à son devoir; qu’a-t-on à blâmer
chez celle qui se prostitue pour sauver son mari? à celle qui a été
livrée au libertinage avant l’âge d’avoir pleine connaissance? et puis,
quel profit retirons-nous de prendre trop de souci de la sagesse de
nos femmes (Phaulius d’Argos et le roi Philippe, Galba et Mécène, les
femmes de l’Inde, le philosophe Phédon, Solon)? 231.—Il vaut mieux
ignorer que connaître leur mauvaise conduite; un honnête homme
n’en est pas moins estimé parce que sa femme le trompe. C’est là un
mal qu’il faut garder secret, mais c’est là un conseil qu’une femme
jalouse ne saurait admettre, tant cette passion, qui l’amène à rendre
la vie intolérable à son mari, la domine une fois qu’elle s’est emparée
d’elle (Pittacus, le sénat de Marseille), 233.—Un mari ne gagne rien à
user de trop de contrainte envers sa femme; toute gêne aiguise les
désirs de la femme et ceux de ses poursuivants (un hôte de Flaminius,
Messaline et Claude), 237.—Lucrèce a peint les amours de Vénus et de
Mars avec des couleurs plus naturelles que Virgile décrivant les
rapports matrimoniaux de Vénus et de Vulcain; quelle vigueur dans
ces deux tableaux si expressifs! Caractère de la véritable éloquence;
enrichir et perfectionner leur langue est le propre des bons écrivains;
quelle différence entre ceux des temps anciens et ceux du siècle de
Montaigne (Virgile, Lucrèce, Gallus, Horace, Plutarque, Ronsard et la
Pléiade), 239.—La langue française, en l’état, se prête mal, parce
qu’on ne sait pas en user, à rendre les idées dont l’expression
comporte de l’originalité et de la vigueur; ce qui fait qu’on a souvent
recours à l’aide du latin et du grec, alors qu’on en pourrait tirer
davantage. On apporte également trop d’art dans le langage
employé dans les questions de science (Léon l’Hébreu, Ficin, Aristote,
Bambo, Équicola), 243.—Montaigne aimait, quand il écrivait, à s’isoler
et à se passer de livres pour ne pas se laisser influencer par les
conseils et par ses lectures; il ne faisait exception que pour
Plutarque (un peintre, le musicien Antigenide), 245.—Il a grande
tendance à imiter les écrivains dont il lit les ouvrages, aussi traite-t-il
de préférence des sujets qui ne l’ont pas encore été; n’importe
lequel, un rien lui suffit (des singes et Alexandre, Socrate, Zénon et
Pythagore), 247.—Les idées les plus profondes, comme les plus folles,
lui viennent à l’improviste, surtout lorsqu’il est à cheval; le souvenir
qu’il en conserve est des plus fugitifs, 249.—Revenant à son sujet
principal, Montaigne estime que l’amour n’est autre que le désir
d’une jouissance physique; et, considérant ce que l’acte lui-même a
de ridicule, il est tenté de croire que les dieux ont voulu par là
apparier les sages et les fous, les hommes et les bêtes (Socrate,
Platon, Alexandre), 249.—D’autre part, pourquoi regarder comme
honteuse une action si utile, commandée par la nature? On se cache
et on se confine pour construire un homme; pour le détruire, on
recherche le grand jour et de vastes espaces (les Esséniens, les
Athéniens), 251.—N’y a-t-il pas des hommes, et même des peuples,
qui se cachent pour manger? chez les Turcs, des fanatiques qui se
défigurent? un peu partout des hommes qui s’isolent de l’humanité?
On abandonne les lois de la nature, pour suivre celles plus ou moins
fantasques des préjugés, 253.—Parler discrètement de l’amour,
comme l’ont fait Virgile et Lucrèce, c’est lui donner plus de piquant;
ainsi font les femmes qui cachent leurs appâts pour les rendre plus
attrayants; et les prêtres, leurs dieux pour leur donner plus de lustre
(Virgile, Lucrèce, Ovide, Martial), 255.—L’amour, tel que le pratiquent
les Espagnols et les Italiens, plus respectueux et plus timide que chez
les Français, plaît à Montaigne; il en aime les préambules; celui qui
ne trouve de jouissance que dans la jouissance n’est pas de son
école. Le pouvoir de la femme prend fin, dès l’instant qu’elle est à
nous (Thrasonide), 257.—La coutume d’embrasser les femmes
lorsqu’on les salue, lui déplaît, c’est profaner le baiser; les hommes
eux-mêmes n’y gagnent pas: pour trois belles qu’ils embrassent il
leur en faut embrasser cinquante laides (Socrate), 259.—Il approuve
que, même avec des courtisanes, on cherche à gagner leur affection
afin de ne pas avoir que leur corps seulement (les Italiens, la Vénus
de Praxitèle, un Égyptien, Périandre, la Lune et Endymion), 259.—Les
femmes sont plus belles, les hommes ont plus d’esprit en Italie qu’en
France; mais nous avons autant de femmes d’exquise beauté et
d’hommes supérieurs que les Italiens. La femme mariée est, chez
eux, trop étroitement tenue, ce qui est d’aussi fâcheuse
conséquence que de leur laisser trop de licence, 261.—Il est de
l’intérêt de la femme d’être modeste et d’avoir de la retenue; même
n’étant pas sages, elles sauvegardent de la sorte leur réputation; la
nature d’ailleurs les a faites pour se refuser, du moins en apparence,
car elles sont toujours prêtes; par ces refus, elles excitent beaucoup
plus l’homme (les Sarmates, Aristippe, Thalestris et Alexandre), 265.—Il
y a de l’injustice à blâmer l’inconstance de la femme; rien de violent
ne peut durer et, par essence, l’amour est violent; d’autre part, c’est
une passion qui n’est jamais assouvie, il ne faut donc pas leur savoir
mauvais gré si, après nous avoir acceptés, s’apercevant que nos
facultés, notre mérite ne sont pas ce qu’elles attendaient de nous,
elles se pourvoient ailleurs (la reine Jeanne de Naples, Platon), 265.—
Quand l’âge nous atteint, ne nous abusons pas sur ce dont nous
sommes encore capables, et ne nous exposons pas à être
dédaignés, 267.—Montaigne reconnaît la licence de son style, mais il
tient à ce que son livre soit une peinture exacte de lui-même; et,
bien qu’aimant la modestie, il est obligé par les mœurs de son temps
à une grande liberté de langage qu’il est le premier à regretter
(Théodore de Bèze, Saint-Gelais), 269.—Il est injuste d’abuser du
pouvoir que les femmes nous donnent sur elles en nous cédant; à
cet égard, il n’a rien à se reprocher: il tenait religieusement les
engagements pris avec elles, en observait toutes les conditions,
souvent au delà et plus même qu’elles n’eussent voulu, 273.—Même
dans ses plus vifs transports, il conservait sa raison. Il estime qu’en
pareille matière, la modération doit être de règle; tant qu’on reste
maître de soi et que ses forces ne sont point altérées, on peut
s’abandonner à l’amour; quand viennent les ans, l’imagination,
substituée à la réalité, nous ranime encore (le philosophe Panetius,
Agésilas, Anacréon, Socrate), 275.—Dans l’usage des plaisirs, l’esprit et
le corps doivent s’entendre et s’entr’aider pour que chacun y
participe dans la mesure où cela lui est possible, comme il arrive de
la douleur, 279.—L’amour chez le vieillard que n’a pas encore atteint
la décrépitude, ranimerait le corps, obligerait à en prendre plus de
soin, ragaillardirait l’esprit, ferait diversion aux tristesses et aux
chagrins de toutes sortes qui l’assaillent; mais il ne saurait exiger un
amour réciproque; surtout qu’il ne s’adresse pas à des femmes hors
d’âge. A dire vrai, l’amour sans limites ne convient qu’à la première
jeunesse (Bion, Cyrus, Ménon, l’empereur Galba, Ovide, Emonès de Chio
et le philosophe Arcésilas, Horace, Homère, Platon, la reine Marguerite
de Navarre, Saint Jérôme), 281.—On voit souvent les femmes sembler
faire de l’amour une question de sentiment et dédaigner la
satisfaction que les sens peuvent y trouver, 285.—En somme,
hommes et femmes ont été pétris dans le même moule, et un sexe
n’est guère en droit de critiquer l’autre (Platon, Antisthène), 287.

CHAPITRE VI.

Des coches, III, 287.—Différence des opinions des philosophes


sur les causes et les origines de divers usages et accidents, par
exemple sur l’habitude de dire: «Dieu vous bénisse!» à qui éternue,
sur le mal de mer; digression sur la peur (Plutarque, Montaigne,
Socrate, Épicure), 287.—Variété d’emploi des chars à la guerre; usage
qui en a été fait pendant la paix, par nos premiers rois, par divers
empereurs romains (les Hongrois et les Turcs, les rois fainéants, Marc-
Antoine, Héliogabale, l’empereur Firmus), 293.—En général, les
souverains ont grand tort de se livrer à des dépenses de luxe pour
se montrer avec plus d’apparat, donner des fêtes au lieu d’employer
leurs trésors à élever des monuments et des établissements utiles;
ces prodigalités sont mal vues des peuples qui estiment, avec raison,
qu’elles sont faites à leurs dépens (Isocrate, Démosthène, Théophraste,
Aristote, le pape Grégoire XIII, la reine Catherine, l’empereur Galba),
295.—Un roi, en effet, ne possède rien, ou ne doit rien posséder en
propre et il se doit tout entier à son peuple; une sage économie et la
justice doivent présider à ses libéralités d’autant que, quoi qu’il
fasse, il lui sera toujours impossible de satisfaire l’avidité de ses
sujets (Denys le Tyran, Cyrus et Crésus), 297.—On pouvait à Rome
excuser la pompe des spectacles, tant que ce furent des particuliers
qui en faisaient les frais, mais non quand ce furent les empereurs,
parce que c’était alors les deniers publics qui en supportaient la
dépense (Philippe père d’Alexandre), 301.—Description de ces
magnifiques et étranges spectacles; ce que l’on en doit le plus
admirer, c’est moins leur magnificence que l’invention et les moyens
d’exécution; nous y voyons combien les arts, que nous croyons
arrivés chez nous à la perfection, sont moins avancés que chez les
anciens; l’artillerie et l’imprimerie qui viennent d’apparaître chez
nous, étaient connues depuis mille ans en Chine (l’empereur Probus,
Solon et les prêtres égyptiens), 301.—Un nouveau monde vient d’être
découvert; ses habitants sont gens simples, moins corrompus que
nous, ayant du bon sens; des arts leur sont absolument inconnus,
d’autres, à en juger par certaines de leurs œuvres, ne le cèdent en
rien à ce que nous-mêmes pouvons produire, 307.—Pour ce qui est
de leur courage, il n’est pas douteux que, s’ils ont succombé, c’est
beaucoup plus par ruse et par surprise que du fait de la valeur de
leurs ennemis, 309.—Tout autre eût été le sort de ces peuples s’ils
étaient tombés entre les mains de conquérants plus humains et
policés comme étaient les anciens Grecs et Romains; les réponses
que firent certains d’entre eux à leurs envahisseurs se présentant
pour pénétrer chez eux, témoignent de leur mansuétude et de leur
bon sens, 311.—Mauvaise foi et barbarie des Espagnols à l’égard des
derniers rois du Pérou et de Mexico; horrible autodafé qu’ils firent un
jour de leurs prisonniers de guerre, conduite odieuse que la
Providence n’a pas laissée impunie, 313.—L’or, par lui-même, n’est
pas une richesse, il ne le devient que s’il est mis en circulation, 317.
—Les Mexicains croyaient à cinq âges du monde, et pensaient se
trouver dans le dernier quand les Espagnols vinrent les exterminer,
319.—La route de Quito à Cusco, au Pérou, surpasse sous tous
rapports n’importe quel ouvrage qui ait été exécuté en Grèce, à
Rome et en Égypte, 319.—Pour en revenir aux coches, ils étaient
inconnus dans le Nouveau Monde; le dernier roi du Pérou était, au
milieu de la mêlée, porté sur une chaise d’or élevée sur des
brancards d’or, lorsqu’il fut fait prisonnier par les Espagnols, 321.

CHAPITRE VII.

Des inconvénients des grandeurs, III, 321.—Qui connaît les


grandeurs et leurs incommodités, peut les fuir sans beaucoup
d’efforts ni grand mérite, 321.—Montaigne n’a jamais souhaité des
postes très élevés; bien différent de César, il préférait être le
Welcome to our website – the perfect destination for book lovers and
knowledge seekers. We believe that every book holds a new world,
offering opportunities for learning, discovery, and personal growth.
That’s why we are dedicated to bringing you a diverse collection of
books, ranging from classic literature and specialized publications to
self-development guides and children's books.

More than just a book-buying platform, we strive to be a bridge


connecting you with timeless cultural and intellectual values. With an
elegant, user-friendly interface and a smart search system, you can
quickly find the books that best suit your interests. Additionally,
our special promotions and home delivery services help you save time
and fully enjoy the joy of reading.

Join us on a journey of knowledge exploration, passion nurturing, and


personal growth every day!

ebookmasss.com

Вам также может понравиться