0% found this document useful (0 votes)
46 views82 pages

Machine Learning in Business An Introduction To The World of Data Science 2nd Edition John C Hull Download

The document is an introduction to the second edition of 'Machine Learning in Business' by John C. Hull, aimed at providing business professionals with an understanding of machine learning tools and their applications. It covers various machine learning models, including supervised and unsupervised learning, and discusses their relevance in business contexts. The book emphasizes the importance of data science skills for future executives and includes practical exercises and resources for further learning.

Uploaded by

wnjaoon229
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
46 views82 pages

Machine Learning in Business An Introduction To The World of Data Science 2nd Edition John C Hull Download

The document is an introduction to the second edition of 'Machine Learning in Business' by John C. Hull, aimed at providing business professionals with an understanding of machine learning tools and their applications. It covers various machine learning models, including supervised and unsupervised learning, and discusses their relevance in business contexts. The book emphasizes the importance of data science skills for future executives and includes practical exercises and resources for further learning.

Uploaded by

wnjaoon229
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 82

Machine Learning In Business An Introduction To

The World Of Data Science 2nd Edition John C


Hull download

https://ebookbell.com/product/machine-learning-in-business-an-
introduction-to-the-world-of-data-science-2nd-edition-john-c-
hull-11841158

Explore and download more ebooks at ebookbell.com


Here are some recommended products that we believe you will be
interested in. You can click the link to download.

Artificial Intelligence And Machine Learning In Business Management


Concepts Challenges And Case Studies 1st Edition Sandeep Kumar Panda
Editor

https://ebookbell.com/product/artificial-intelligence-and-machine-
learning-in-business-management-concepts-challenges-and-case-
studies-1st-edition-sandeep-kumar-panda-editor-34712882

Machine Learning And Cognition In Enterprises Business Intelligence


Transformed Rohit Kumar

https://ebookbell.com/product/machine-learning-and-cognition-in-
enterprises-business-intelligence-transformed-rohit-kumar-6784150

Machine Learning For Business Analytics Concepts Techniques And


Applications In Rapidminer Galit Shmueli

https://ebookbell.com/product/machine-learning-for-business-analytics-
concepts-techniques-and-applications-in-rapidminer-galit-
shmueli-47756924

Oracle Business Intelligence With Machine Learning Artificial


Intelligence Techniques In Obiee For Actionable Bi 1st Edition Rosendo
Abellera Lakshman Bulusu

https://ebookbell.com/product/oracle-business-intelligence-with-
machine-learning-artificial-intelligence-techniques-in-obiee-for-
actionable-bi-1st-edition-rosendo-abellera-lakshman-bulusu-6840586
Reinventing Manufacturing And Business Processes Through Artificial
Intelligence Innovations In Big Data And Machine Learning 1st Edition
Geeta Rana

https://ebookbell.com/product/reinventing-manufacturing-and-business-
processes-through-artificial-intelligence-innovations-in-big-data-and-
machine-learning-1st-edition-geeta-rana-35524710

Machine Learning And Data Mining In Pattern Recognition 2003th Edition


Petra Perner

https://ebookbell.com/product/machine-learning-and-data-mining-in-
pattern-recognition-2003th-edition-petra-perner-33186770

Machine Learning In The Analysis And Forecasting Of Financial Time


Series Jaydip Sen

https://ebookbell.com/product/machine-learning-in-the-analysis-and-
forecasting-of-financial-time-series-jaydip-sen-46871160

Machine Learning In Chemical Safety And Health Fundamentals With


Applications Qingsheng Wang

https://ebookbell.com/product/machine-learning-in-chemical-safety-and-
health-fundamentals-with-applications-qingsheng-wang-47057610

Machine Learning In Information And Communication Technology


Proceedings Of Icict 2021 Smit Hiren Kumar Deva Sarma

https://ebookbell.com/product/machine-learning-in-information-and-
communication-technology-proceedings-of-icict-2021-smit-hiren-kumar-
deva-sarma-47288552
Machine Learning in
Business:
An Introduction to the World of Data
Science
Machine Learning in
Business:
An Introduction to the World of Data
Science
Second Edition

John C. Hull
University Professor
Joseph L. Rotman School of Management
University of Toronto
Second Printing
Copyright © 2019, 2020 by John C. Hull
All Rights Reserved
ISBN: 9798644074372
To my students
Contents

Preface xi

Chapter 1 Introduction 1
1.1 This book and the ancillary material 3
1.2 Types of machine learning models 4
1.3 Validation and testing 6
1.4 Data cleaning 14
1.5 Bayes’ theorem 16
Summary 19
Short concept questions 20
Exercises 21

Chapter 2 Unsupervised Learning 23


2.1 Feature scaling 24
2.2 The k-means algorithm 25
2.3 Choosing k 28
2.4 The curse of dimensionality 31
2.5 Country risk 31
2.6 Alternative clustering algorithms 35
2.7 Principal components analysis 39
Summary 43
Short concept questions 44
Exercises 45

Chapter 3 Supervised Learning: Linear and Logistic


Regression 47
3.1 Linear regression: one feature 48
3.2 Linear regression: multiple features 49
3.3 Categorical features 52
3.4 Regularization 53
3.5 Ridge regression 54
3.6 Lasso regression 58
3.7 Elastic Net regression 60
3.8 Results for house price data 62
3.9 Logistic regression 66
vii
viii Contents

3.10 Decision criteria 69


3.11 Application to credit decisions 70
3.12 The k-nearest neighbor algorithm 76
Summary 76
Short concept questions 77
Exercises 78

Chapter 4 Supervised Learning: Decision Trees 81


4.1 Nature of decision trees 82
4.2 Information gain measures 83
4.3 Application to credit decisions 85
4.4 The naïve Bayes classifier 91
4.5 Continuous target variables 95
4.6 Ensemble learning 98
Summary 100
Short concept questions 101
Exercises 101

Chapter 5 Supervised Learning: SVMs 103


5.1 Linear SVM classification 103
5.2 Modification for soft margin 109
5.3 Non-linear separation 112
5.4 Predicting a continuous variable 114
Summary 118
Short concept questions 118
Exercises 119

Chapter 6 Supervised Learning: Neural Networks 121


6.1 Single layer ANNs 121
6.2 Multi-layer ANNs 125
6.3 Gradient descent algorithm 126
6.4 Variations on the basic method 131
6.5 The stopping rule 133
6.6 The Black−Scholes−Merton formula 133
6.7 Extensions 137
6.8 Autoencoders 138
6.9 Convolutional neural networks 140
6.10 Recurrent neural networks 142
Summary 143
Short concept questions 144
Exercises 144
Contents ix

Chapter 7 Reinforcement Learning 147


7.1 The multi-armed bandit problem 148
7.2 Changing environment 152
7.3 The game of Nim 154
7.4 Temporal difference learning 157
7.5 Deep Q-learning 159
7.6 Applications 159
Summary 161
Short concept questions 162
Exercises 163

Chapter 8 Natural Language Processing 165


8.1 Sources of data 168
8.2 Pre-processing 169
8.3 Bag of words model 170
8.4 Application of naïve Bayes classifier 172
8.5 Application of other algorithms 176
8.6 Information retrieval 177
8.7 Other NLP applications 178
Summary 180
Short concept questions 181
Exercises 181

Chapter 9 Model Interpretability 183


9.1 Linear regression 185
9.2 Logistic regression 189
9.3 Black-box models 192
9.4 Shapley values 193
9.5 LIME 196
Summary 196
Short concept questions 197
Exercises 198

Chapter 10 Applications in Finance 199


10.1 Derivatives 199
10.2 Delta 202
10.3 Volatility surfaces 203
10.4 Understanding volatility surface movements 204
10.5 Using reinforcement learning for hedging 208
10.6 Extensions 210
10.7 Other finance applications 212
Summary 213
x Contents

Short concept questions 214


Exercises 214

Chapter 11 Issues for Society 217


11.1 Data privacy 218
11.2 Biases 209
11.3 Ethics 220
11.4 Transparency 221
11.5 Adversarial machine learning 221
11.6 Legal issues 222
11.7 Man vs. machine 223

Answers to End of Chapter Questions 225


Glossary of Terms 243
Index 253
Preface

This book is based on my experience teaching introductory courses


on machine learning to business school students and executive groups.
The purpose of the material is not to convert the reader into a data sci-
entist. Instead, it is to give the reader an understanding of the tools used
by data scientists and how they can further the objectives of an organi-
zation. The second edition improves the presentation of material and
contains three new chapters.
Most students recognize that they need some knowledge of machine
learning to survive in a world where jobs will be increasingly impacted
by it. Today, all executives need to know how to use computers. Tomor-
row, all executives will need to be comfortable managing large data sets
and working with data science professionals to improve their produc-
tivity.
I have used no matrix or vector algebra and no calculus in this book.
Although these areas of study can help specialists, it has been my expe-
rience that most business school students and most executives are not
comfortable with them.
The book explains the most popular algorithms used by data scien-
tists. This will enable the reader to assess their strengths and weak-
nesses for a particular situation and work productively with data sci-
ence professionals. The algorithms are illustrated with a number of dif-
ferent data sets, which can be downloaded from my website:
www-2.rotman.utoronto.ca/~hull
Both Excel worksheets and Python code accompany the data sets. Vir-
tually all my students are comfortable with Excel before taking my
courses. I insist that all become comfortable with Python as well. This is
not a hard sell. Students recognize that coding skills have become a
necessary prerequisite for many jobs in business.
xi
xii Preface

Several hundred PowerPoint slides can be downloaded from my


website. Instructors who choose to adopt the book are welcome to
adapt the slides to meet their own needs.
A number of people have helped me move this book to a second edi-
tion. I would particularly like to thank Emilio Barone, Jacky Chen, Peter
Hull, Raymond Kan, Eddie Mizzi, and Jun Yuan, who made many sugges-
tions for improving the material. I am grateful to Jay Cao, Jeff Li, and Niti
Mishra who worked on some of the Python code that accompanies the
book. I would also like to thank Rotman’s FinHub center, the TD bank,
and the Global Risk Institute in Financial Services for providing funding
for the development of research and teaching materials in machine
learning and financial innovation. Peter Christoffersen (prior to his un-
timely death in 2018) and Andreas Park have been great colleagues at
FinHub and provided much of the inspiration for the book.
I welcome comments on the book from readers. My email address is
[email protected].

John Hull

About the Author

John Hull is a University Professor at the Joseph L. Rotman School of


Management, University of Toronto. Prior to writing this book, he wrote
three best-selling books in the derivatives and risk management area.
His books have an applied focus and he is proud that they sell equally
well in the practitioner and college markets. He is academic director of
FinHub, Rotman’s Financial Innovation Lab, which carries out research
and develops educational material in all aspects of financial innova-
tion. He has consulted for many companies throughout the world and
has won many teaching awards, including University of Toronto’s pres-
tigious Northrop Frye award.
Chapter 1

Introduction

Machine learning is becoming an increasingly important tool in


business—so much so that almost all employees are likely to be impact-
ed by it in one way or another over the next few years. Machine learning
is concerned with using large data sets to learn the relationships be-
tween variables, make predictions, and take decisions in a changing en-
vironment.
The data available for machine learning is growing exponentially. It
is estimated that in any two-year period we generate nine times as
much data as existed at the beginning of the two years.1 Companies now
have more information than ever before about their customers and
their purchasing habits. Hedge funds and pension plans can collect large
amounts of data and opinions about companies they invest in. Advances
in computer processing speeds and reductions in data storage costs al-
low us process this data and reach conclusions in ways that were simply
not possible in the past.
Machine learning is a branch of artificial intelligence (AI). AI is con-
cerned with developing ways in which machines can imitate human in-
telligence, possibly improving on it. Machine learning involves the crea-
tion of intelligence by learning from large volumes of data. It is arguably

1For discussion of this see: www.mediapost.com/publications/article/291358/90-


of-todays-data-created-in-two-years.html
1
2 Chapter 1

the most exciting development within AI and one that has the potential
to transform virtually all aspects of a business.2
What are the advantages for society of replacing human decision
making by machines? One advantage is speed. Machines can process
data and come to a conclusion much faster than humans. The results
produced by a machine are consistent and easily replicated on other
machines. By contrast, humans occasionally behave erratically and
training a human for a task can be quite time consuming and expensive.
To explain how machine learning differs from other AI approaches
consider the simple task of programming a computer to play tic tac toe
(also known as noughts and crosses). One approach would be to pro-
vide the computer with a look-up table listing the positions that can
arise and the move that would be made by an expert human player in
each of those positions. Another would be to create for the computer a
large number of games (e.g., by arranging for the computer to play
against itself thousands of times) and let it learn the best move. The
second approach is an application of machine learning. Either approach
can be successfully used for a simple game such as tic tac toe. Machine
learning approaches have been shown to work well for more complicat-
ed games such as chess and Go where the first approach is clearly not
possible.
A good illustration of the power of machine learning is provided by
language translation. How can a computer be programmed to translate
between two languages, say from English to French? One idea is to give
the computer an English to French dictionary and program it to trans-
late word-by-word. Unfortunately, this produces very poor results. A
natural extension of this idea is to develop a look up table for translat-
ing phrases rather than individual words. The results from this are an
improvement, but still far from perfect. Google has pioneered a better
approach using machine learning. This was announced in November
2016 and is known as “Google Neural Machine Translation” (GNMT).3 A
computer is given a large volume of material in English together with
the French translation. It learns from that material and develops its own
(quite complex) translation rules. The results from this have been a big
improvement over previous approaches.
Data science is the field that includes machine learning but is some-
times considered to be somewhat broader including such tasks as the
setting of objectives, implementing systems, and communicating with

2 Some organizations now use the terms “machine learning” and “artificial intelli-
gence” interchangeably.
3 See https://arxiv.org/pdf/1609.08144.pdf for an explanation of GNMT by the

Google research team.


Introduction 3

stakeholders.4 We will consider the terms “machine learning” and “da-


ta science” to be interchangeable in this book. This is because it is diffi-
cult to see how machine learning specialists can be effective in business
if they do not get involved in working toward the objectives of their
employers.
Machine learning or data science can be portrayed as the new world
of statistics. Traditionally, statistics has been concerned with such top-
ics as probability distributions, confidence intervals, significance tests,
and linear regression. A knowledge of these topics is important, but we
are now able to learn from large data sets in ways that were not possi-
ble before. For example:

 We can develop non-linear models for forecasting and improved


decision making.
 We can search for patterns in data to improve a company’s un-
derstanding of its customers and the environment in which it op-
erates.
 We can develop decision rules where we are interacting with a
changing environment.
As mentioned earlier, these applications of machine learning are now
possible because of increases in computer processing speeds, reduc-
tions in data storage costs, and the increasing amounts of data that are
becoming available.
When a statistician or econometrician dabbles in machine learning
the terminology is liable to seem strange at first. For example, statisti-
cians and econometricians talk about independent variables and de-
pendent variables while decision scientists talk about features and tar-
gets. The terminology of data science will be explained as the book pro-
gresses and a glossary of terms is provided at the end.

1.1 This Book and the Ancillary Material

This book is designed to provide readers with the knowledge to ena-


ble them to work effectively with data science professionals. It will not
convert the reader into a data scientist, but it is hoped that the book will

4See, for example, H. Bowne-Anderson, “What data scientists really do, according to
35 data scientists,” Harvard Business Review, August 2018:
https://hbr.org/2018/08/what-data-scientists-really-do-according-to-35-data-
scientists
4 Chapter 1

inspire some readers to learn more and develop their abilities in this
area. Data science may well prove to be the most rewarding and excit-
ing profession in the 21st century.
To use machine learning effectively you have to understand how the
underlying algorithms work. It is tempting to learn a programming lan-
guage such as Python and apply various packages to your data without
really understanding what the packages are doing or even how the re-
sults should be interpreted. This would be a bit like a finance specialist
using the Black−Scholes−Merton model to value options without under-
standing where it comes from or its limitations.
The objective of this book is to explain the algorithms underlying
machine learning so that the results from using the algorithms can be
assessed knowledgeably. Anyone who is serious about using machine
learning will want to learn a language such as Python for which many
packages have been developed. This book takes the unusual approach
of using both Excel and Python to provide backup material. This is be-
cause it is anticipated that some readers will, at least initially, be much
more comfortable with Excel than with Python.
The backup material can be found on the author’s website:
www-2.rotman.utoronto.ca/~hull
Readers can start by focusing on the Excel worksheets and then move to
Python as they become more comfortable with it. Python will enable
them use machine learning packages, handle data sets that are too large
for Excel, and benefit from Python’s faster processing speeds.

1.2 Types of Machine Learning Models

There are four main categories of machine learning models

 Supervised learning
 Unsupervised learning
 Semi-supervised learning
 Reinforcement learning

Supervised learning is concerned with using data to make predictions.


In the next section, we will show how a simple regression model can be
used to predict salaries. This is an example of supervised learning. In
Chapter 3, we will consider how a similar model can be used to predict
house prices. We can distinguish between supervised learning models
that are used to predict a variable that can take a continuum of values
Introduction 5

(such as an individual’s salary or the price of a house) and models that


are used for classification. Classification models are very common in
machine learning. As an example, we will later look at an application of
machine learning where potential borrowers are classified as accepta-
ble or unacceptable credit risks.
Unsupervised learning is concerned with recognizing patterns in da-
ta. The main objective is not to forecast a particular variable. Rather it is
to understand the environment represented by the data better. Consid-
er a company that markets a range of products to consumers. Data on
consumer purchases could be used to determine the characteristics of
the customers who buy different products. This in turn could influence
the way the products are advertised. As we will see in Chapter 2, clus-
tering is the main tool used in unsupervised learning.
The data for supervised learning contains what are referred to as
features and labels. The labels are the values of the target that is to be
predicted. The features are the variables from which the predictions are
to be made. For example, when predicting the price of a house the fea-
tures could be the square feet of living space, the number of bedrooms,
the number of bathrooms, the size of the garage, whether the basement
is finished, and so on. The label would be the house price. The data for
unsupervised learning consists of features but no labels because the
model is being used to identify patterns, not to forecast something. We
could use an unsupervised learning model to understand the houses
that exist in a certain neighborhood without trying to predict prices. We
might find that there is a cluster of houses with 1,500 to 2,000 square
feet of living space, three bedrooms, and a one-car garage and another
cluster of houses with 5,000 to 6,000 square feet of living area, six bed-
rooms, and a two-car garage.
Semi-supervised learning is a cross between supervised and un-
supervised learning. It arises when we are trying to predict something
and we have some data with labels (i.e., values for the target) and some
(usually much more) unlabeled data. It might be thought that the unla-
beled data is useless, but this is not necessarily the case. The unlabeled
data can be used in conjunction with the labeled data to produce clus-
ters which help prediction. For example, suppose we are interested in
predicting whether a customer will purchase a particular product from
features such as age, income level, and so on. Suppose further that we
have a small amount of labeled data (i.e., data which indicates the fea-
tures of customers as well as whether they bought or did not buy the
product) and a much larger amount of unlabeled data (i.e., data which
indicates the features of potential customers, but does not indicate
whether they bought the product). We can apply unsupervised learning
6 Chapter 1

to use the features to cluster potential customers. Imagine a simple


situation where:

 There are two clusters, A and B, in the full data set.


 The purchasers from the labeled data all correspond to points
in Cluster A while the non-purchasers from the labeled data all
correspond to points in the other Cluster B.

We might reasonably classify all individuals in Cluster A as buyers and


all individuals in Cluster B as non-buyers.
Human beings use semi-supervised learning. Imagine that you do
not know the names “cat” and “dog,” but are observant. You notice two
distinct clusters of domestic pets in your neighborhood. Finally some-
one points at two particular animals and tells you one is a cat while the
other is a dog. You will then have no difficulty in using semi-supervised
learning to apply the labels to all the other animals you have seen. If
humans use semi-supervised learning in this way, it should come as no
surprise that machines can do so as well. Many machine learning algo-
rithms are based on studying the ways our brains process data.
The final type of machine learning, reinforcement learning, is con-
cerned with situations where a series of decisions is to be taken. The
environment is typically changing in an uncertain way as the decisions
are being taken. Driverless cars use reinforcement learning algorithms.
The algorithms underlie the programs mentioned earlier for playing
games such as Go and chess. They are also used for some trading and
hedging decisions. We will discuss reinforcement learning in Chapter 7.

1.3 Validation and Testing

When a data set is used for forecasting or determining a decision


strategy, there is a danger that the machine learning model will work
well for the data set, but will not generalize well to other data. An obvi-
ous point is that it is important that the data used in a machine learning
model be representative of the situations to which the model is to be
applied. For example, using data for a region where customers have a
high income to predict the national sales for a product is likely to give
biased results.
As statisticians have realized for a long time, it is also important to
test a model out-of-sample. By this we mean that the model should be
tested on data that is different from the sample data used to determine
the parameters of the model.
Introduction 7

Data scientists are typically not just interested in testing one model.
They typically try several different models, choose between them, and
then test the accuracy of the chosen model. For this, they need three
data sets:

 a training set
 a validation set
 a test set
The training set is used to determine the parameters of the models
that are under consideration. The validation set is used to determine
how well each of the models generalizes to a different data set. The test
set is held back to provide a measure of the accuracy of the chosen
model.
We will illustrate this with a simple example. Suppose that we are in-
terested in predicting the salaries of people working in a particular pro-
fession in a certain part of the United States from their age. We collect
data on a random sample of 30 individuals. (This is a very small data set
created to provide a simple example. The data sets used in machine
learning are many times larger than this.) The first ten observations
(referred to in machine learning as instances) will be used to form the
training set. The next ten observations will be used for form the valida-
tion set and the final ten observations will be used to form the test set.
The training set is shown in Table 1.1 and plotted in Figure 1.1. It is
tempting to choose a model that fits the training set really well. Some
experimentation shows that a polynomial of degree five does this. This
is the model:

Y  a  b1 X  b2 X 2  b3 X 3  b4 X 4  b5 X 5

where Y is salary and X is age. The result of fitting the polynomial to the
data is shown in Figure 1.2. Details of all analyses carried out, are in
www-2.rotman.utoronto.ca/~hull
The model provides a good fit to the data. The standard deviation of
the difference between the salary given by the model and the actual sal-
ary for the ten individuals in the training data set, which is referred to
as the root-mean-squared error (rmse), is $12,902. However, common
sense would suggest that we may have over-fitted the data. (This is be-
cause the curve in Figure 1.2 seems unrealistic. It declines, increases,
declines, and then increases again as age increases.) We need to check
the model out-of-sample. To use the language of data science, we need
8 Chapter 1

to determine whether the model generalizes well to a validation data


set that is different from the training set in Table 1.1.

Table 1.1 The training data set: salaries for a random sample of ten
people working in a particular profession in a certain area.

Age (years) Salary ($)


25 135,000
55 260,000
27 105,000
35 220,000
60 240,000
65 265,000
45 270,000
40 300,000
50 265,000
30 105,000

Figure 1.1 Scatter plot of the training data set in Table 1.1

350,000

300,000

250,000
Salary ($)

200,000

150,000

100,000

50,000

0
20 30 40 50 60 70
Age (years)
Introduction 9

Figure 1.2 Result of fitting a polynomial of degree 5 to the data in Ta-


ble 1.1 and Figure 1.1 (see Salary vs. Age Excel file)

350,000

300,000

250,000
Salary ($)

200,000

150,000

100,000

50,000

0
20 30 40 50 60 70
Age (years)

The validation set is shown in Table 1.2. The scatter plot for this da-
ta is in Figure 1.3. When we use the model in Figure 1.2 for this data, we
find that the root mean square error (rmse) is about $38,794, much
higher than the $12,902 we obtained using the training data set in Table
1.1. This is a clear indication that the model in Figure 1.2 is over-fitting:
it does not generalize well to new data.

Table 1.2 The validation data set

Age (years) Salary ($)


30 166,000
26 78,000
58 310,000
29 100,000
40 260,000
27 150,000
33 140,000
61 220,000
27 86,000
48 276,000
10 Chapter 1

Figure 1.3 Scatter plot for data in Table 1.2

350,000

300,000

250,000
Salary ($)

200,000

150,000

100,000

50,000

0
20 30 40 50 60 70
Age (years)

The natural next step is to look for a simpler model. The scatter plot
in Figure 1.1 suggests that a quadratic model might be appropriate. This
model is:

Y  a  b1 X  b2 X 2

i.e., a polynomial of degree two.


The best-fit quadratic model together with the training data set from
Figure 1.1 is shown in Figure 1.4. The fit to the training set is of course
not as good as the model in Figure 1.2. The standard deviation of the
error is $32,932. However, the model generalizes to new data reasona-
bly well. The standard deviation of the errors given by the quadratic
model for the validation data set in Table 1.2 and Figure 1.3 is $33,554,
only a little worse than the $32,932 for the training data. The quadratic
model therefore generalizes better than the more elaborate model in
Figure 1.2.
The model in Figure 1.4 is simpler than the model in Figure 1.2 and
generalizes well to the validation set. However, this does not mean that
simpler models are always better than more complex models. In the
case of the data we are considering, we could use a linear model. This
would lead to the predictions in Figure 1.5.
Introduction 11

Figure 1.4 Result of fitting a quadratic model to the data in Table 1.1
and Figure 1.1 (see Salary vs. Age Excel file)

350,000

300,000

250,000
Salary ($)

200,000

150,000

100,000

50,000

0
20 30 40 50 60 70
Age (years)

Visually it can be seen that this model does not capture the decline in
salaries as individuals age beyond 50. This observation is confirmed by
the standard deviation of the error for the training data set, which is
$49,731, much worse than that for the quadratic model.

Figure 1.5 Result of fitting a linear model to training data (see Sala-
ry vs. Age Excel file)

350,000

300,000

250,000
Salary ($)

200,000

150,000

100,000

50,000

0
20 30 40 50 60 70
Age (years)
12 Chapter 1

Table 1.3 summarizes the root mean square errors given by the
three models we have considered. Note that both the linear model and
the quadratic model generalize well to the validation data set, but the
quadratic model is preferred because it is more accurate. By contrast,
the five-degree polynomial model does not generalize well. It over-fits
the training set while the linear model under-fits the training set.

Table 1.3 Root mean square errors (see Excel file)

Polynomial Quadratic Linear


of degree 5 model model
Training set 12, 902 32,932 49,731
(Table 1.1)
Validation set 38,794 33,554 49,990
(Table 1.2)

How accurate is the quadratic model? We could rely on the results


from the validation set. But we used the validation set to help choose
the best model and so it may overstate the accuracy of the model. We
therefore use the test data set to produce an accuracy measure. This
data set has played no role in analyses so far.
Suppose the test data set results are as shown in Table 1.4. The root
mean squared error for the test set is $34,273. When information about
the performance of the chosen model is presented, it should be based
on results for the test data set, not on those for the validation set or the
training set.
How should the balance between over-fitting and under-fitting be
achieved? This is an important issue in machine learning. Some machine
learning algorithms, such as neural networks (see Chapter 6), can in-
volve a very large number of parameters. It is then easy to over-fit, even
when the training data set is large.
Based on the simple example we have looked at, a rule of thumb
would seem to be as follows:

The complexity of the model should be increased until out-of-


sample tests indicate that it does not generalize well.
Introduction 13

Table 1.4 Errors when quadratic model is applied to the test set

Age (years) Salary ($) Predicted Error ($)


salary ($)
26 110,000 113,172 −3,172
52 278,000 279,589 −1,589
38 314,000 230,852 +83,148
60 302,000 264,620 +37,380
64 261,000 245,457 +15,543
41 227,000 249325 −22,325
34 200,000 199,411 +589
46 233,000 270,380 −37,380
57 311,000 273,883 −37,117
55 298,000 277,625 +20,375

This rule is illustrated in Figure 1.6. The figure assumes that there is a
continuum of models that get progressively more complex. For each
model, we calculate a measure of the model’s error, such as root mean
square error, for both the training set and the validation set. When the
complexity of the model is less than X, the model generalizes well: the
error of the model for the validation set is only a little more than that
for the training set. As model complexity is increased beyond X, the er-
rors for the validation set start to increase.

Figure 1.6 Errors of a model for the training set and the vali-
dation set.

Training set
Model
Error Validation set

X Model Complexity
14 Chapter 1

The best model is the one with model complexity X. This is because
that model has the lowest error for the validation set. A further increase
in complexity lowers errors for the training set but increases them for
the validation set, which is a clear indication of over-fitting.
Finding the right balance between under-fitting and over-fitting is
referred to as the bias-variance trade-off in machine learning. The bias is
the error due the assumptions in the model that cause it to miss rele-
vant relations. The variance is the error due to the model over-fitting by
reflecting random noise in the training set.
To summarize the points we have made:

 The training set is used to develop alternative models.


 The validation set is used to investigate how well the
models generalize to new data and to choose between the
models.
 The test set is kept back and is used as an out-of-sample
test of the accuracy of the chosen model at the end of the
analysis.

In the simple example we have looked at, the training set, validation
set, and test set had equal numbers of observations. In a typical ma-
chine learning application much more data is available and at least 60%
of it is allocated to the training set while 10% to 20% is allocated to
each of the validation set and the test set.
It is important to emphasize that the data sets in machine learning
involve many more observations that the baby data set we have used in
this section. (Ten observations are obviously insufficient to reliably
learn a relationship.) However, the baby data set does provide a simple
illustration of the bias-variance trade-off.

1.4 Data Cleaning

Data cleaning is a very important, if not terribly exciting, aspect of


machine learning. It has been estimated that data scientists spend 80%
of their time on collecting and cleaning data.5 Large data sets typical-
ly have issues that need to be fixed. Good data cleaning can make all the
difference between successful and unsuccessful machine learning. The

5 See https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-
time-consuming-least-enjoyable-data-science-task-survey-says/#2f8970aa6f63 for
a discussion of this.
Introduction 15

expression “garbage-in, garbage-out” applies just as much to machine


learning as to other analyses.
At this stage, it is appropriate to point out that there are two types of
data: numerical and categorical. Numerical data consists of numbers.
Categorical data is data which can fall into a number of different catego-
ries. For example, data to predict a house price might categorize drive-
ways as asphalt, concrete, grass, etc. As we will see in Chapter 3, cate-
gorical data must be converted to numbers for the purposes of analysis.
We now list some data cleaning issues and how they can be handled.

Inconsistent Recording
Either numerical or categorical data can be subject to inconsistent
recording. For example, numerical data for the square footage of a
house might be input manually as 3300, 3,300, 3,300 ft, or 3300+, and
so on. It is necessary to inspect the data to determine variations and
decide the best approach to cleaning. Categorical data might list the
driveway as “asphalt”, “Asphalt”, or even “aphalt.” The simplest ap-
proach here is to list the alternatives that have been input for a particu-
lar feature and merge them as appropriate.

Unwanted Observations
If you are developing a model to predict house prices in a certain ar-
ea, some of your data might refer to the prices of apartments or to the
prices of houses that are not in the area of interest. It is important to
find a way of identifying this data and removing it before any analysis is
attempted.

Duplicate Observations
When data is merged from several different sources or several dif-
ferent people have been involved in creating a data set there are liable
to be duplicate observations. These can bias results. It is therefore im-
portant to use a search algorithm to identify and remove duplicates as
far as possible.

Outliers
In the case of numerical data, outliers can be identified by either
plotting data or searching for data that is, say, six standard deviations
away from the mean. Sometimes it is clear that the outlier is a typo. For
example, if the square footage of a house with three bedrooms is input
16 Chapter 1

as 33,000, it is almost certainly a typo and should probably be 3,300.


However, outliers should be removed only if there is a good reason for
doing so. Unusually large or small values for features or targets, if cor-
rect, are likely to contain useful information. The impact of outliers on
the results of machine learning depends on the model being used. Outli-
ers tend to have a big effect on regression models such as those consid-
ered in Chapter 3. Other models, such as those involving decision trees
(which will be explained in Chapter 4) are less influenced by outliers.

Missing Data
In any large data set there are likely to be missing data values. A
simple approach is to remove data with missing values for one or more
features. But this is probably undesirable because it reduces the sample
size and may create biases. In the case of categorical data, a simple solu-
tion is to create a new category titled “Missing.” In the case of numerical
data, one approach is to replace the missing data by the mean or median
of the non-missing data values. For example, if the square footage of a
house is missing and we calculate the median square footage for the
houses for which this data is available to be 3,500, we could populate all
the missing values with 3,500. More sophisticated approaches can in-
volve regressing the target against non-missing values and then using
the results to populate missing values. Sometimes it is reasonable to
assume that data is missing at random and sometimes the very fact that
data is missing is itself informative. In the latter case it can be desirable
to create a new indicator variable which is zero if the data is present
and one if it is missing.

1.5 Bayes’ Theorem

Sometimes in machine learning we are interested in estimating the


probability of an outcome from data. The outcome might be a customer
defaulting on a loan or a transaction proving to be fraudulent. Typically
there is an initial probability of the outcome. When data is received, the
probability is updated to be a probability conditional on the data. A re-
sult known as Bayes’ theorem is sometimes useful for calculating condi-
tional probabilities.
Thomas Bayes discovered Bayes’ theorem in about 1760. We will
write P(X) as the probability of event X happening and 𝑃(𝑌|𝑋) as the
probability of event Y happening conditional that event X has happened.
Bayes’ theorem states that
Introduction 17

𝑃(𝑋|𝑌)𝑃(𝑌)
𝑃(𝑌|𝑋) = (1.1)
𝑃(𝑋)

The proof of Bayes’ theorem is straightforward. From the meaning of


conditional probabilities:

𝑃(𝑋 and 𝑌)
𝑃(𝑌|𝑋) =
𝑃(𝑋)
and
𝑃(𝑋 and 𝑌)
𝑃(𝑋|𝑌) =
𝑃(𝑌)

Substituting for 𝑃(𝑋 and 𝑌) from the second of these equations into the
first leads to the Bayes’ theorem result in equation (1.1).
For an application of Bayes’ theorem, suppose that a bank is trying
to identify customers who are attempting to do fraudulent transactions
at branches. It observes that 90% of fraudulent transactions involve
over $100,000 and occur between 4pm and 5pm. In total, only 1% of
transactions are fraudulent and 3% of all transactions involve over
$100,000 and occur between 4pm and 5pm.
In this case we define:

X: transaction occurring between 4pm and 5pm involving over


$100,000
Y: fraudulent transaction

We know that P(Y) = 0.01, 𝑃(𝑋|𝑌) = 0.9, and P(X) = 0.03. From Bayes’
theorem:

𝑃(𝑋|𝑌)𝑃(𝑌) 0.9 × 0.01


𝑃(𝑌|𝑋) = = = 0.3
𝑃(𝑋) 0.03

The probability of a random transaction being fraudulent transac-


tion is only 1%. But when it is known that the transaction is undertaken
between 4pm and 5pm and involves over $100,000, Bayes’ theorem
shows that this probability should be updated to 30%. The implications
of this are clear. If the bank has an on-line approval system for transac-
tions, it should not approve transactions between 4pm and 5pm where
over $100,000 is involved without further investigation.
Effectively what Bayes’ theorem allows one to do is to invert the
conditionality when probabilities are measured. Sometimes this prod-
18 Chapter 1

uces counterintuitive results. Suppose that a test for a certain disease is


“99% accurate.” By this it is usually meant that, when a person has the
disease, it gives a positive result (i.e., it predicts that the person has the
disease) 99% of the time. We also assume that, when a person does not
have the disease, it gives a negative result (i.e., it predicts that the per-
son does not have the disease) 99% of the time.6 Suppose that the dis-
ease is rare so that the (unconditional) probability of an individual hav-
ing the disease is one in 10,000. If you are tested positive, what is the
probability that you have the disease?
A natural response to this question is 99%. (After all, the test is 99%
accurate.) However, this is confusing the conditionality. Suppose that X
indicates that the test is positive and Y indicates that a person has the
disease. We are interested in 𝑃(𝑌|𝑋). We know that 𝑃(𝑋|𝑌) = 0.99. We
also know that P(Y) = 0.0001. Let us extend our notation so that X in-
dicates that the test result is negative and Y indicates that the person
does not have the disease. We also know that

𝑃(𝑌̅) = 0.9999

and

𝑃(𝑋̅|𝑌̅) = 0.99

Because either X or X is true 𝑃(𝑋̅|𝑌̅) + 𝑃(𝑋|𝑌̅) = 1 so that

𝑃(𝑋|𝑌̅) = 0.01

and we can calculate the probability of a positive test result as

𝑃(𝑋) = 𝑃(𝑋|𝑌)𝑃(𝑌) + 𝑃(𝑋|𝑌̅)𝑃(𝑌̅)

= 0.99 × 0.0001 + 0.01 × 0.9999 = 0.0101

Using the Bayes’ theorem result in equation (1.1),

𝑃(𝑋|𝑌)𝑃(𝑌) 0.99 × 0.0001


𝑃(𝑌|𝑋) = = = 0.0098
𝑃(𝑋) 0.0101

6 It does not have to be the case that that the accuracy measure is the same for posi-
tive and negative test results.
Introduction 19

This shows that there is a less than 1% chance that you have the dis-
ease if you get a positive test result. The test result increases the proba-
bility that you have the disease from the unconditional 0.0001 by a fac-
tor of about 98 but the probability is still low. The key point here is that
“accuracy" is defined as the probability of getting the right result condi-
tional that a person has the disease, not the other way round.
We will use Bayes’ theorem to explain a popular tool known as the
naïve Bayes classifier in Chapter 4 and use it in natural language pro-
cessing in Chapter 8.

Summary

Machine learning is a branch of artificial intelligence concerned with


learning from big data sets. It involves developing algorithms to make
predictions, cluster data, or develop a strategy for making a series of
decisions.
Statistical analysis has traditionally involved forming a hypothesis
(without looking at data) and then testing the hypothesis with data. Ma-
chine learning is different. There is no hypothesis. The model is derived
entirely from data.
Before using any machine learning algorithms, it is important to
clean the data. The features constituting the data are either numerical
or categorical. In either case there may be inconsistencies in the way
the data has been input. These inconsistencies need to be identified and
corrected. Some observations may be irrelevant to the task at hand and
should be removed. The data should be checked for duplicate observa-
tions that can create biases. Outliers that are clearly a result of input
errors should be removed. Finally, missing data must be dealt with in a
way that will not bias the results.
Bayes’ theorem is a result that is sometimes used when it is neces-
sary to quantify uncertainty. It is a way of inverting conditionality. Sup-
pose we are interested in knowing the probability of an event Y occur-
ring and can observe whether another related event X happens. Sup-
pose also that from experience we know the probability of X happening
when Y happens. Bayes’ theorem allows us to calculate the probability
of Y conditional on X.
20 Chapter 1

As mentioned in this chapter, machine learning has its own termi-


nology which is different from that traditionally used in statistics. We
close this chapter by summarizing the new terminology that has been
introduced so far. A feature is a variable on which we have observa-
tions. Each observation is referred to as an instance. A target is a varia-
ble about which we want to make predictions. Labels are observations
on the target. Supervised learning is a type of machine learning where
we use data on the features and targets to predict the target for new
data. Unsupervised learning is where we attempt to find patterns in data
to help us understand its structure. (There is no target and therefore
there are no labels in unsupervised learning). Semi-supervised learning
involves making predictions about a target from data that is partly la-
beled (so that values of the target are provided) and partly unlabeled
(so that values of the target are not provided). Finally, reinforcement
learning is concerned with producing algorithms for sequential decision
making where the decision maker is interacting with a changing envi-
ronment. Other terminology will be introduced as the book progresses.

SHORT CONCEPT QUESTIONS

1.1 What is the difference between machine learning and artificial


intelligence?
1.2 Explain two types of predictions that are made in supervised
learning.
1.3 When is unsupervised learning appropriate?
1.4 When is reinforcement learning appropriate?
1.5 When is semi-supervised learning appropriate?
1.6 How can you tell whether a machine learning model is over-
fitting data?
1.7 Explain the role of the validation data set and the test data set.
1.8 What is meant by a categorical feature?
1.9 What is meant by the bias-variance trade-off? Does the linear
model in Figure 1.5 give a bias error or a variance error? Does the
fifth-order-polynomial model in Figure 1.2 give a bias error or a
variance error?
1.10 List five different types of data cleaning.
1.11 “Bayes’ theorem allows one to invert the conditionality.” What is
meant by this statement?
Introduction 21

EXERCISES

1.12 How well do polynomials of degree 3 and 4 work for the data on
salary vs. age in Section 1.3.? Consider whether the best fit model
generalizes well from the training set to the validation set.
1.13 Suppose that 25% of emails are spam and it is found that spam
contains a particular word 40% of the time. Overall only 12.5% of
the emails contain the word. What is the probability of an email
being spam when it contains the word?
Chapter 2

Unsupervised Learning

As explained in Chapter 1, unsupervised learning is concerned with


identifying patterns in data. The immediate objective is not to predict
the value of a target variable. Rather it is to understand the structure of
data and find clusters. This is a useful exercise for many businesses.
Banks, for example, often use unsupervised learning to cluster their
customers so that they can communicate with them better and provide
an improved level of service. One cluster might be young couples who
are likely to want a mortgage soon. Another might be what are termed
HENRYs (High Earners, Not Rich Yet). These are families earning bet-
ween $250,000 and $500,000 who may be in the market for wealth
management services.
This chapter explains a popular clustering procedure known as the
k-means algorithm. It illustrates the algorithm by clustering countries
according to their risk from the perspective of a foreign investor. Data
on 122 countries and four features are used. The features are the real
GDP growth rate, a corruption index, a peace index, and a legal risk in-
dex. The chapter then mentions some alternative algorithms and ex-
plains principal components analysis, which is a useful tool for both su-
per-vised and unsupervised learning.

23
24 Chapter 2

2.1 Feature Scaling

Before covering clustering algorithms, it is appropriate to discuss


what is known as feature scaling. This is also referred to as the normali-
zation or standardization of data. It is a necessary first step to for many
machine learning algorithms, including the k-means algorithm. The
purpose of feature scaling is to ensure that the features are given equal
importance in an algorithm. Suppose for example that we are clustering
men according to two features: height in inches and weight in pounds.
Heights might range from 60 to 80 inches while weights range from 100
to 350 pounds. Without feature scaling, the two features will not be
treated with equal importance because the range of heights is much less
than the range of weights (20 inches vs 250 pounds).
One approach to feature scaling is to calculate the mean and stand-
ard deviation of each feature and scale observations on the feature by
subtracting the mean and dividing by the standard deviation. If V is a
feature value for a particular observation,

V 
Scaled Feature Value =

where  and  are the mean and standard deviation calculated from
observations on the feature. This method of feature scaling is some-
times referred to as Z-score scaling or Z-score normalization. The scaled
features have means equal to zero and standard deviations equal to one.
If we want a particular feature to have more effect than other features
in determining cluster separation, we could scale it so that its standard
deviation is greater than one.
An alternative approach to feature scaling is to subtract the mini-
mum feature value and divide by the difference between the maximum
and minimum values so that:

V  min
Scaled Feature Value =
max  min

where max and min denote the maximum and minimum feature values.
This is referred to as min-max scaling. The scaled feature values lie be-
tween zero and one.
Unsupervised Learning 25

Scaling using the Z-score method is usually preferred because it is


less sensitive to extreme values, but it can make sense to use min-max
scaling when features have been measured on bounded scales. In our
description of the k-means algorithm in the rest of this chapter, we as-
sume that feature values have been scaled using one of the two methods
we have described.
The usual approach is to use the training data set to define the scal-
ing parameters (i.e., the means and standard deviations of features or
their minimums and maximums). The scaling defined by the training set
is then applied to the validation set and the test set as well to new data.

2.2 The k-Means Algorithm

To cluster observations we need a distance measure. Suppose first


that there are only two features, x and y, so that we can plot the obser-
vations on a two-dimensional chart. Consider the two observations, A
and B, in Figure 2.1. A natural distance measure is the Euclidean dis-
tance. This is the length of the straight line AB. Suppose that for obser-
vation A, x = xA and y = yA, while for observation B, x = xB and y = yB. The
Euclidean distance between A and B (using Pythagoras’ theorem) is

√(𝑥A − 𝑥B )2 + (𝑦A − 𝑦B )2

This distance measure can be extended to many dimensions. Sup-


pose we have observations on m features and that the value of the jth
feature for the ith observation is vi j . The distance between the pth ob-
servation and the qth observation is

 v 
m 2
j 1 pj  vq j

The extension from two features to three features is fairly easy to


understand. It involves measuring the distance in three dimensions ra-
ther than two. Imagining distances when m > 3 is not so easy, but the
formula is a natural extension of that for one, two, and three dimen-
sions.
26 Chapter 2

Figure 2.1 The Euclidean distance between observations A and B, with


co-ordinates (xA, yA) and (xB, yB), is the length of the line AB.

Feature y

B
B

A A

A B Feature x

Another concept we need in order to understand the k-means algo-


rithm is the center of a cluster (sometimes referred to as the cluster’s
centroid). Suppose that a certain set of observations is regarded as a
cluster. The center is calculated by averaging the values of each of the
features for the observations in the cluster. Suppose there are four fea-
tures and the five observations in Table 2.1 are considered to be a clus-
ter. The center of the cluster is a point that has values of 0.914, 0.990,
0.316, and 0.330 for features 1, 2, 3, and 4, respectively. (For example,
0.914 is the average of 1.00, 0.80, 0.82, 1.10, and 0.85.) The distance
between each observation and the center of the cluster (shown in the
final column of Table 2.1) is calculated in the same way as the distance
between A and B in Figure 2.1. For example, the distance of the first ob-
servation from the center of the cluster is

√(1.00 − 0.914)2 + (1.00 − 0.990)2 + (0.40 − 0.316)2 + (0.25 − 0.330)2

which equals 0.145.


Unsupervised Learning 27

Table 2.1 Calculation of the center of a cluster of five observations on


four features.

Observ- Feature Feature Feature Feature Distance


ation 1 2 3 4 to center
1 1.00 1.00 0.40 0.25 0.145
2 0.80 1.20 0.25 0.40 0.258
3 0.82 1.05 0.35 0.50 0.206
4 1.10 0.80 0.21 0.23 0.303
5 0.85 0.90 0.37 0.27 0.137
Center 0.914 0.990 0.316 0.330

Figure 2.2 illustrates how the k-means algorithm works. The first
step is to choose k, the number of clusters (more on this later). We then
randomly choose k points for the centers of the clusters. The distance of
each observation from each cluster center is calculated as indicated
above and observations are assigned to the nearest cluster center. This
produces a first division of the observations into k clusters. We then
compute new centers for each of the clusters, as indicated in Figure 2.2.
The distances of each observation from the new cluster centers is then
computed and the observations are re-assigned to the nearest cluster
center. We then compute new centers for each of the clusters and con-
tinue in this fashion until the clusters do not change.

Figure 2.2 The k-means algorithm

Choose k random points as


cluster centers

Assign each observation to


nearest cluster center

Calculate new cluster


centers

Have cluster
End No centers changed? Yes
28 Chapter 2

A measure of the performance of the algorithm is the within-cluster


sum of squares, also known as the inertia. Define di as the distance of
the ith observation from the center of the cluster to which it belongs.
Then:
𝑛
Inertia = Within-cluster sum of squares = ∑𝑖=1 𝑑𝑖2

where n is the number of observations. For any given value of k, the ob-
jective of the k-means algorithm should be to minimize the inertia. The
results from one run of the algorithm may depend on the initial cluster
centers that are chosen. It is therefore necessary to re-run the algorithm
many times with different initial cluster centers. The best result across
all runs is the one for which the inertia is least.
Generally, the inertia decreases as k increases. In the limit when k
equals the number of observations there is one cluster for each obser-
vation and the inertia is zero.

2.3 Choosing k

In some cases, the choice of k may depend on the objective of the


clustering. For example, a company that is planning to produce small,
medium, large, and extra-large sweaters for men might collect data on
various relevant features (arm length, shoulder width, chest measure-
ment, etc.) for a random sample of men and then create four clusters to
help with product design. In other situations, the user of the algorithm
may not have any preconceived ideas about k and just want to optimally
group each observation with other similar observations.
The elbow method is a popular approach for determining the number
of clusters. The k-means algorithm is carried out for a range of values of
k (e.g., all values between 1 and 10). The inertia is then plotted against
the number of clusters as indicated in Figure 2.3. The slope of the line
in this chart indicates how the within-cluster sum of squares declines as
the number of clusters increases. In this example, the decline is quite
large when we move from one to two, two to three, and three to four
clusters. After four clusters, the decline is much smaller. We conclude
that the optimal number of clusters is four.
In addition to the within-cluster sum of squares, we are likely to be
interested in how distinct the clusters are. If two clusters are very close
together we might reasonably conclude that not much is gained by
keeping them separate. Analysts therefore often monitor the distance
Unsupervised Learning 29

between cluster centers. If changing the number of clusters from k to


𝑘 + 1 leads to two clusters with centers that are very close to each oth-
er, it might be considered best not to make the change.

Figure 2.3 Application of the elbow method. The inertia (within-


cluster sum of squares) is plotted against the number of clusters
Inertia

1 2 3 4 5 6 7 8 9
Number of Clusters

A less subjective way of choosing the number of clusters is the sil-


houette method. Again, we carry out the k-means algorithm for a range
of values of k. For each value of k, we calculate for each observation, i,
the average distance between the observation and the other observa-
tions in the cluster to which it belongs. Define this as a(i). We also calcu-
late, for each of the other clusters, the average distance between the
observation and the observations in that cluster. We define b(i) as the
minimum value of these average distances across all the other clusters.
We expect b(i) to be greater than a(i) as otherwise it probably would
have made sense to allocate observation i to a different cluster. The sil-
houette of an observation measures the extent to which b(i) is greater
than a(i). It is1

1 See L. Kaufman and P. Rousseeuw, Finding Groups in Data: An Introduction to Clus-


ter Analysis, Wiley 1990.
30 Chapter 2

b(i )  a(i )
s(i ) 
max[a(i ), b(i )]

The silhouette, s(i), lies between −1 and +1. (As already indicated, for
observations that have been allocated correctly it is likely to be posi-
tive.) As it becomes closer to +1, the observation more clearly belongs
to the group to which it has been assigned. The average of s(i) over all
observations in a cluster is a measure of the tightness of the grouping of
those observations. The average of s(i) over all observations in all clus-
ters is an overall measure of the appropriateness of the clustering and is
referred to as the average silhouette score. If for a particular data set
the average silhouette scores are 0.70, 0.53, 0.65, 0.52, and 0.45 for k =
2, 3, 4, 5, and 6, respectively, we would conclude that k = 2 and 4 are
better choices for the number of clusters than k = 3, 5, and 6.
Yet another approach for choosing k, known as the gap statistic, was
suggested by Tibshirani et al (2001).2 In this, the within-cluster sum of
squares is compared with the value we would expect under the null hy-
pothesis that the observations are created randomly. We create N sets
of random points and, for each value of k that is considered, we cluster
each set, calculating the within-cluster sum of squares. (N=500 usually
works well.) Define

mk: the mean of the within-cluster sum of squares for randomly


created data when there are k clusters
s k: the standard deviation of the within-cluster sum of squares
for randomly created data when there are k clusters
wk: the within-cluster sum of squares for the data we are con-
sidering when there are k clusters

We set

Gap(k)= mk−wk

This is the difference between the within-cluster sum of squares statist-


ic for the random data and the data of interest. It is argued that the best
choice for k is the smallest value such that Gap(k) is within sk+1 of
Gap(k+1).

2 See R. Tibshirani, G. Walther, and T. Hastie (2001), “Estimating the number of clus-
ters in a data set via the gap statistic,” Journal of the Royal Statistical Society, B, 63,
Part 2: 411-423.
Unsupervised Learning 31

2.4 The Curse of Dimensionality

As the number of features increases, the k-means algorithm becomes


affected by what is known as the “curse of dimensionality.” Distances
between observations increase. Consider the Euclidean distance be-
tween a point where all features equal 1.0 and a point where all fea-
tures equal 0.0. When there is one feature the distance is 1.0; when
there are two features the distance is √2 or 1.4; when there are three
features, it is √3 or 1.7; when then are 100 features it is 10; and when
there are 1,000 features it is 31.6. One consequence of this is that we
cannot compare a within-cluster sum of squares given by data with a
small number of features to one given by data with a large number of
features.
Another problem is that, as the number of features increases, the
distance measure that we have defined does not always differentiate
well between observations that are close and those that are far apart. As
a result the k-means algorithm works less well. This has led some users
of the algorithm to search for alternatives to the Euclidean distance
measure.
The Euclidean distance between an observation where feature j is xj
and another observation where feature j is yj can be written

𝑚 2
√∑ (𝑥𝑗 − 𝑦𝑗 )
𝑗=1

One alternative is

 xy
m
j 1 j j
1
 x
m 2 m
j 1 j j 1
y 2j

This always lies between 0 and 2.

2.5 Country Risk

Consider the problem of understanding the risk of countries for for-


eign investment. Among the features that can be used for this are:
32 Chapter 2

1. The real GDP growth rate (using data from the International
Monetary Fund)
2. A corruption index (produced by Transparency International)
3. A peace index (produced by Institute for Economics and Peace)
4. A legal risk index (produced by Property Rights Association)

Values for each of these features for 122 countries and all analyses
carried out are at www-2.rotman.utoronto.ca/~hull. Table 2.2 provides
an extract from the data. The table shows the importance of feature
scaling (see Section 2.1). The real GDP growth rate (%) is typically a
positive or negative number with a magnitude less than 10. The corrup-
tion index is on a scale from 0 (highly corrupt) to 100 (no corruption).
The peace index is on a scale from 1 (very peaceful) to 5 (not at all
peaceful). The legal risk index runs from 0 to 10 (with high values being
favorable). Table 2.3 shows the data in Table 2.2 after it has been scaled
using Z-score normalization. It shows that Australia’s real GDP growth
rate is slightly above average and its corruption index is 1.71 standard
deviations above the average. Its peace index is 1.20 standard devia-
tions below average (but low peace indices are good) and the legal risk
index is 1.78 standard deviations above the average.

Table 2.2 First few observations for clustering countries according to


their risk for international investment (see csv file)

Country Real GDP Corruption Peace Legal risk


growth rate index index index
(% per yr)
Albania 3.403 39 1.867 3.822
Algeria 4.202 34 2.213 4.160
Argentina −2.298 36 1.957 4.568
Armenia 0.208 33 2.218 4.126
Australia 2.471 79 1.465 8.244
Austria 1.482 75 1.278 8.012
Azerbaijan −3.772 30 2.450 3.946

Once the data has been scaled, a natural next step, given that there
are only four features, is to examine the features in pairs with a series of
scatter plots. This reveals that the corruption index and legal risk index
are highly correlated as shown in Figure 2.4. (This is perhaps not sur-
prising. Corruption is likely to be more prevalent in countries where
the legal systems are poor.) We therefore eliminate the corruption
Unsupervised Learning 33

index as the information it provides is largely captured by the legal risk


index. This means that we can consider our data as being points in
three-dimensional space, the dimensions being: real GDP growth rate,
peace index, and legal risk index

Table 2.3 Data in Table 2.2 after using Z-score scaling (see Excel file)

Country Real GDP Corruption Peace Legal risk


growth rate index index index
(% per yr)
Albania 0.32 −0.38 −0.31 −1.20
Algeria 0.56 −0.64 0.47 −0.97
Argentina −1.44 −0.54 −0.10 −0.69
Armenia −0.67 −0.69 0.48 −0.99
Australia 0.03 1.71 −1.20 1.78
Austria −0.27 1.50 −1.62 1.62
Azerbaijan −1.90 −0.85 1.00 −1.11

Figure 2.4 Scatter plot of scaled legal risk index and corruption index
(see Excel file)

3 Legal Risk
Index
2

0
-2 -1 0 1 2 3
-1 Corruption Index
-2

-3

Figure 2.5 shows the results of applying the k-means algorithm to


the country risk data when three features (real GDP growth rate, peace
index, and legal risk index) are used. As expected, the total within-
cluster sum of squares declines as the number of clusters, k, is in-
creased. As explained earlier we can use the figure to look for an elbow,
34 Chapter 2

a point where the benefit from increasing the number of clusters starts
to be relatively small. The elbow is not as pronounced in Figure 2.5 as it
is in Figure 2.3. However, a case can be made for three clusters as the
decrease in the inertia as we move from one to two and two to three
clusters is quite a bit greater than when we move from three to four
clusters.

Figure 2.5 Variation of inertia (within-cluster sum of squares) with


number of clusters for country risk example (from Python output)

400

300
Inertia

200

100

0
1 2 3 4 5 6 7 8 9
Number of Clusters

The results from the silhouette method are given in Table 2.4. It can
be seen that the average silhouette score is greatest when the number
of clusters is three. For this particular data set, both the elbow method
and the silhouette method point to the use of three clusters.3
Table 2.5 shows the cluster centers after scaling. It shows that high-
risk countries are on average over one standard deviation worse than
the mean for all three features. (Remember, high values are bad for the
peace index.) Tables 2.6, 2.7, and 2.8 give the allocation of countries to
three clusters.

3 The elbow method and the silhouette method do not always agree.
Unsupervised Learning 35

Table 2.4 Variation of the average silhouette score with the number of
clusters (from Python output)

Number of Average silhouette


clusters Score
2 0.363
3 0.388
4 0.370
5 0.309
6 0.303
7 0.315
8 0.321
9 0.292
10 0.305

Table 2.5 Cluster centers after features have been scaled so that mean
is zero and standard deviation is one (from Python output)

Peace index Legal index Real GDP growth


rate
High risk 1.39 −1.04 −1.79
Moderate risk 0.27 −0.45 0.36
Low risk −0.97 1.17 0.00

Table 2.6 High-risk countries (from Python output)

Argentina Lebanon
Azerbaijan Nigeria
Brazil Russia
Burundi Trinidad and Tobago
Chad Ukraine
Democratic Republic of Congo Venezuela
Ecuador Yemen
36 Chapter 2

Table 2.7 Moderate-risk countries (from Python output)

Albania Madagascar
Algeria Malawi
Armenia Mali
Bahrain Mauritania
Bangladesh Mexico
Benin Moldova
Bolivia Montenegro
Bosnia and Herzegovina Morocco
Bulgaria Mozambique
Cameroon Nepal
China Nicaragua
Colombia Oman
Croatia Pakistan
Cyprus Panama
Dominican Republic Paraguay
Egypt Peru
El Salvador Philippines
Ethiopia Romania
Gabon Rwanda
Georgia Saudi Arabia
Ghana Senegal
Greece Serbia
Guatemala Sierra Leone
Honduras South Africa
India Sri Lanka
Indonesia Tanzania
Iran Thailand
Israel The FYR of Macedonia
Jamaica Tunisia
Jordan Turkey
Kazakhstan Uganda
Kenya Vietnam
Kuwait Zambia
Latvia Zimbabwe
Liberia
Unsupervised Learning 37

Table 2.8 Low-risk countries (from Python output)

Australia Malaysia
Austria Mauritius
Belgium Netherlands
Botswana New Zealand
Canada Norway
Chile Poland
Costa Rica Portugal
Czech Republic Qatar
Denmark Singapore
Estonia Slovakia
Finland Slovenia
France Spain
Germany Sweden
Hungary Switzerland
Iceland Taiwan
Ireland United Arab Emirates
Italy United Kingdom
Japan United States
Korea (South) Uruguay
Lithuania

2.6 Alternative Clustering Approaches

The k-means algorithm is the most popular approach to clustering,


but there are alternatives. One is agglomerative hierarchical clustering.
This involves the following steps:

1. Start with each observation in its own cluster


2. Combine the two closest clusters
3. Repeat step 2 until all observations are in single cluster
The advantage of this approach is that the clusters form a hierarchy
so that we can see clusters within clusters. The hierarchy can be used to
obtain exactly k clusters for any given value of k between one and the
number of observations. Its disadvantage is that it tends to be computa-
tionally very time consuming when there are a large number of obser-
vations.
38 Chapter 2

A number of different measures of closeness between two clusters, A


and B, have been proposed for use in step 2. One is the average Euclide-
an distance between an observation in cluster A and an observation in
cluster B. Alternatively, we can use the minimum of these distances or
the maximum of them. Another measure (a version of what is known as
Ward’s method) equals the increase in inertia when two clusters are
combined. Whatever the measure chosen, step 2 involves searching for
the two clusters with the smallest measure and then combining them.
Sometimes clusters are estimated from assumed statistical distribu-
tions. This is known as distribution-based clustering. Suppose for sim-
plicity that there is only one feature and that the observations exhibit
the probability distribution shown in Figure 2.6. We might reasonably
assume that the observations come from a mixture of two normal dis-
tributions. This is a distribution when there is a probability p that an
observation comes from a normal distribution with a particular mean
and standard deviation and a probability 1−p that it comes from anoth-
er normal distribution with a different mean and standard deviation.
Statistical tools can be used to distinguish between the two distribu-
tions and therefore identify two clusters. A similar exercise can be car-
ried out when there are several features and more than two distribu-
tions.

Figure 2.6 Probability distribution for data on a feature from which


two normally distributed clusters could be separated
Other documents randomly have
different content
nur ihn, der bereits tot ist, sondern auch andere, die noch leben, die
er liebte, und die ihn lieben.
Es war ihm nicht gelungen, seinen Glauben denen mitzuteilen, die
ihm die Teuersten waren: seiner Frau und seinen Kindern. Man hat
gesehen, wie seine treue Gefährtin, die mutig sein Leben und seine
künstlerischen Arbeiten mit ihm teilte, darunter litt, daß er seinen
Glauben an die Kunst abgeschworen hatte, um eines anderen
moralischen Glaubens willen, den sie nicht begriff. Tolstoi litt nicht
weniger darunter, sich von seiner besten Freundin unverstanden zu
fühlen.
„Ich fühle mit meinem ganzen Sein,” schrieb er an Teneromo, „die
Wahrheit der Worte, daß Mann und Frau nicht zwei getrennte
Wesen, sondern nur eines sind. Mein glühendster Wunsch ist, auf
meine Frau nur etwas von jenem religiösen Bewußtsein übertragen
zu können, das mich befähigt, mich zu Zeiten über das Weh des
Lebens hinauszuheben. Ich hoffe, daß es auf sie übertragen wird,
wenn auch zweifellos nicht durch mich, so durch Gott, obgleich jenes
Bewußtsein für Frauen kaum zu erlangen sein dürfte.”248
Es scheint nicht, als ob dieser Wunsch Erhörung gefunden hätte. Die
Gräfin Tolstoi bewunderte und liebte die Herzensreinheit, das stille
Heldentum, die Güte dieser großen Seele, die mit ihr nur ein Wesen
bildete; sie sah, daß er „vor der Menge einherzog und den Weg
wies, den die Menschen gehen sollten”249. Als der Heilige Synod ihn
exkommunizierte, übernahm sie tapfer seine Verteidigung und
beanspruchte ihr Teil an der Gefahr, die ihn bedrohte. Aber sie
konnte nicht so tun, als ob sie etwas glaube, was sie tatsächlich
nicht glaubte; und Tolstoi war zu ehrlich, als daß er sie zum
Heucheln gezwungen hätte, er, dem das Heucheln von Glaube und
Liebe noch verhaßter war, als die Ablehnung von Glaube und
Liebe250. Wie hätte er also sie, die nicht glaubte, zwingen können,
ihre Lebensweise zu ändern und ihr und ihrer Kinder Vermögen zum
Opfer zu bringen?
Die Unstimmigkeit mit seinen Kindern war noch größer. Leroy-
Beaulieu, der Tolstoi in Jasnaja Poljana im Familienkreis sah, sagt,
daß „bei Tische, wenn Tolstoi sprach, seine Söhne nur schlecht
verbargen, wie sehr des Vaters Worte sie langweilten, und daß sie
Zweifel in ihre Wahrheit setzten”251. Sein Glaube hatte nur auf zwei
oder drei seiner Töchter, von denen die eine, Marie, gestorben war,
einen flüchtigen Eindruck gemacht. Er stand allein unter den Seinen.
„Außer seiner jüngsten Tochter und seinem Arzt” verstand ihn kaum
jemand252.
Er litt unter dieser inneren Entfremdung, er litt unter den
gesellschaftlichen Beziehungen, die man ihm aufzwang, unter diesen
langweiligen Gästen, die aus der ganzen Welt zu ihm kamen, unter
den Besuchen von Amerikanern und Snobs, die ihm lästig waren; er
litt unter dem „Luxus”, in dem zu leben ihn seine Familie zwang. Es
war ein recht bescheidener Luxus, wenn man denen glauben darf,
die ihn in seinem einfachen Haus mit der fast puritanischen
Einrichtung gesehen haben, in seinem kleinen Zimmer mit einem
eisernen Bett, armseligen Stühlen und nackten Wänden! Aber dieser
„Komfort” bedrückte ihn: es war ihm ein immerwährender Vorwurf.
In dem zweiten der Berichte, die er im „Mercure de France”
veröffentlichte, stellt er voll Bitterkeit den Anblick des Elends in
seiner Umgebung dem des Luxus in seinem eigenen Hause
gegenüber.
„So nutzbringend meine Tätigkeit manchen Menschen auch
erscheinen mag,” schrieb er schon 1903, „so verliert sie doch den
größten Teil ihrer Bedeutung, weil mein Leben nicht vollständig mit
meinen Lehren in Übereinstimmung gebracht ist”253.
Warum hat er dann diese Übereinstimmung nicht herbeigeführt?
Wenn er die Seinen nicht zwingen konnte, sich von der großen Welt
loszusagen, warum hat er sich nicht von ihnen und ihrer
Lebensweise losgesagt, — um so dem Spott und dem Vorwurf der
Heuchelei zu entgehen, die ihm seine Feinde entgegenschleuderten,
die sich nur allzu gern auf sein eigenes Beispiel beriefen, wenn sie
seine Lehre verwarfen?
Er hatte daran gedacht. Seit langem war sein Entschluß gefaßt.
Unter seinen hinterlassenen Papieren hat sich ein wundervoller Brief
gefunden254, den er am 8. Juni 1897 an seine Frau geschrieben hat.
Man muß ihn fast vollständig wiedergeben; denn nichts offenbart
besser das Geheimnis dieser liebevollen, schmerzerfüllten Seele:
„Seit langem, liebe Sofie, leide ich unter dem Mißverhältnis zwischen
meinem Leben und meinem Glauben. Ich kann Euch nicht zwingen,
Eure Lebensweise und Eure Gewohnheiten zu ändern. Genau so
wenig gelang es mir bis heute, Euch zu verlassen; denn ich wagte
nicht, die Kinder bei ihrer großen Jugend des kleinen Einflusses zu
berauben, den ich auf sie haben könnte, und Euch allen großen
Kummer zu bereiten. Aber ich kann nicht so weiterleben, wie ich
während der letzten sechzehn Jahre gelebt habe255, bald im
Widerstreit mit Euch und Euch dauernd aufreizend, bald den
Einflüssen, an die ich gewöhnt bin, und den Versuchungen, die mich
umlauern, erliegend. Ich habe beschlossen, jetzt das zu tun, was ich
seit langem tun wollte: wegzugehen... Wie die Inder sich allein in
den Wald zurückziehen, wenn sie die Sechzig erreicht haben, wie
jeder betagte fromme Mann die letzten Jahre seines Lebens Gott zu
widmen und sie nicht an Scherz, Geschwätz und Spiel zu vergeuden
wünscht, so ersehne ich, der ich das siebzigste Lebensjahr erreicht
habe, mit aller Kraft meiner Seele Ruhe und Einsamkeit und wenn
auch keine vollständige Übereinstimmung, so doch zum wenigsten
nicht diesen schreienden Mißklang zwischen meinem Leben und
meinem Gewissen. Wenn ich ganz offen weggegangen wäre, hätte
es Bitten und Auseinandersetzungen gegeben, ich wäre weich
geworden und hätte vielleicht meinen Entschluß nicht zur
Ausführung gebracht, während er doch ausgeführt werden muß. Ich
bitte Euch deshalb, mir zu verzeihen, wenn mein Tun Euch Kummer
bereitet. Und besonders Du, Sofie, laß mich gehen, suche mich
nicht, sei mir nicht gram und tadle mich nicht. Die Tatsache, daß ich
Dich verlassen habe, bedeutet nicht, daß ich einen Vorwurf gegen
Dich erhebe ... Ich weiß, daß Du nicht anders konntest. Du konntest
nicht sehen und nicht denken wie ich; deshalb vermochtest Du auch
nicht, Dein Leben zu ändern und es einer Sache aufzuopfern, die Du
nicht anerkennst. Darum tadle ich Dich auch nicht; ich gedenke
vielmehr in Liebe und Dankbarkeit der fünfunddreißig langen Jahre
unseres gemeinsamen Lebens und besonders der ersten Hälfte
dieser Zeit, da Du mit dem Mut und der Hingebung Deiner
mütterlichen Natur tapfer ertrugst, was Du als Deine Mission
ansahst. Du hast mir und der Welt gegeben, was Du geben
konntest. Du hast viel mütterliche Liebe gegeben und große Opfer
gebracht... Aber in den letzten fünfzehn Jahren unseres Lebens
haben sich unsere Wege getrennt. Ich kann mir nicht denken, daß
ich schuld daran bin; ich weiß, wenn ich mich geändert habe, so war
es nicht um Deinetwillen und nicht um der Welt willen, sondern weil
ich nicht anders konnte. Ich kann Dich nicht anklagen, daß Du mir
nicht gefolgt bist, und ich danke Dir und werde mich stets mit Liebe
dessen erinnern, was Du mir gegeben hast. — Lebe wohl, meine
liebe Sofie. Ich habe Dich lieb.”
„Die Tatsache, daß ich Dich verlassen habe...” Er verließ sie nicht. —
Armer Brief! Es scheint, daß es Tolstoi genügte, ihn zu schreiben, um
seinen Entschluß schon als ausgeführt zu betrachten... Nachdem er
ihn geschrieben hatte, war schon seine ganze Entschlußkraft
erschöpft. — „Wenn ich ganz offen weggegangen wäre, hätte es
Bitten und Auseinandersetzungen gegeben, ich wäre weich
geworden...” Es brauchte keine „Bitten”, keine
„Auseinandersetzungen”, es genügte ihm, einen Augenblick später
diejenigen zu sehen, die er verlassen wollte, und er fühlte, daß er sie
mit dem besten Willen nicht verlassen konnte; den Brief, den er in
seiner Tasche hatte, vergrub er unter seine Papiere mit der
Aufschrift:
„Meiner Frau, Sofie Andrejewna, nach meinem Tode zu übergeben.”
Und damit war sein Fluchtplan erledigt. War das seine Stärke? War
er nicht imstande, seine Liebe seinem Gott zum Opfer zu bringen?
Sicherlich fehlt es in den christlichen Chroniken nicht an Heiligen mit
stärkerem Herzen, die niemals zögerten, ihre und der anderen Liebe
unerschrocken mit Füßen zu treten... Nun, er war jedenfalls nicht
von dieser Art. Er war schwach. Er war Mensch. Und eben darum
lieben wir ihn.
Schon mehr als fünfzehn Jahre vorher legte er sich die schmerzvoll
verzweifelte Frage vor:
„Sag an, Leo Tolstoi, lebst du nach den Grundsätzen, die du
predigst?”
Und demütig antwortete er:
„Ich sterbe vor Scham, ich bin schuldig, ich verdiene Verachtung...
Und trotzdem, vergleicht mein ehemaliges Leben mit meinem
jetzigen! Dann werdet ihr sehen, daß ich nach dem göttlichen Gesetz
zu leben trachte. Ich habe nicht den tausendsten Teil von dem
getan, was not tut, und ich schäme mich dessen, aber ich habe es
nicht unterlassen, weil ich es nicht gewollt, sondern weil ich es nicht
gekonnt habe... Klagt mich an, aber klagt den Weg nicht an, dem ich
folge. Wenn ich die Straße kenne, die mich nach Hause führt, und
wenn ich ihr taumelnd wie ein Trunkener folge, ist damit gesagt, daß
die Straße schlecht ist? Oder zeigt mir eine andere, oder stützt mich
auf der richtigen Straße, so wie ich willens bin, euch zu stützen. Aber
stoßt mich nicht von euch, ergötzt euch nicht an meiner
Verzweiflung, ruft nicht voller Begeisterung aus: ‚Seht! Er sagt, daß
er nach Hause geht, und er fällt in den Morast!’ Nein, ergötzt euch
nicht, sondern helft mir, stützt mich! ... Helft mir! Mein Herz blutet
aus Verzweiflung darüber, daß wir uns alle verirrt haben; und wenn
ich mich aus allen Kräften bemühe, um mich herauszufinden, deutet
ihr, statt Mitleid mit mir zu haben, mit dem Finger auf mich und ruft:
‚Seht, er fällt mit uns in den Morast!’.”256
Dann, als er dem Tode näher war, wiederholte er:
„Ich bin kein Heiliger, ich habe mich nie für einen ausgegeben. Ich
bin ein Mensch, der sich mitreißen läßt und der manchmal nicht alles
sagt, was er denkt und fühlt; nicht, weil er es nicht will, sondern weil
er es nicht kann, weil ihm oft Übertreibungen und Irrtümer
unterlaufen. Mit meinem Tun ist es noch schlimmer. Ich bin ein
durchaus schwacher Mensch mit lasterhaften Gewohnheiten, der
Gott in Wahrheit dienen will, der aber immer wieder strauchelt.
Wenn man mich für einen Menschen hält, der sich nicht irren kann,
dann muß jedes meiner Vergehen als Lüge oder Heuchelei
erscheinen. Aber wenn man mich für einen schwachen Menschen
hält, dann erscheine ich als das, was ich in Wirklichkeit bin: ein
bemitleidenswertes aber ehrliches Wesen, das immer und von
ganzem Herzen gewünscht hat und weiter wünscht, ein guter
Mensch, ein guter Diener Gottes zu werden.”
So blieb er, von Gewissensbissen verfolgt, gequält durch die
stummen Vorwürfe von Anhängern, die energischer und weniger
menschlich waren als er257, gepeinigt durch seine Schwäche und
seine Unschlüssigkeit, hin- und hergezerrt zwischen der Liebe zu den
Seinen und der Liebe zu Gott, — bis zu dem Tage, wo ihn die
Verzweiflung und vielleicht auch der heiße Fieberhauch, der beim
Nahen des Todes spürbar wird, aus dem Hause auf die Landstraße
trieben. Er floh und irrte umher, klopfte an Klostertüren, zog seines
Weges weiter und blieb schließlich in einem unbekannten kleinen Ort
liegen, um nicht mehr aufzustehen258. Und auf seinem Totenbette
weinte er nicht über sich, sondern über die Unglücklichen. Und unter
Schluchzen sagte er:
„Es gibt auf Erden Millionen Menschen, die leiden; warum befaßt ihr
alle euch gerade mit mir allein?”
Und dann kam er — es war Sonntag, den 20. November 1910, kurz
nach 6 Uhr morgens —, „der Erlöser”, wie er ihn nannte, „der Tod,
der gesegnete Tod...”
Der Kampf war zu Ende, der zweiundachtzigjährige Kampf, dessen
Schauplatz dieses Leben gewesen war. Ein Leben, gemischt aus
Tragik und Ruhm, an dem alle Daseinskräfte, alle Laster und alle
Tugenden, Anteil hatten. — Alle Laster, ausgenommen ein einziges,
die Lüge; denn sie verfolgte er unaufhaltsam und spürte sie in ihren
verborgensten Schlupfwinkeln auf.
Zuerst der Freiheitsrausch, die aufeinanderprallenden Leidenschaften
in der stürmischen Nacht, die nur hier und da blendende Blitze
erhellen, Liebe und Verzückung, Offenbarungen des Ewigen. Jahre
im Kaukasus, vor Sewastopol, Jahre gährender und unruhiger
Jugend... Dann die wohltätige Besänftigung der ersten Ehejahre.
Das Glücklichsein in der Liebe, der Kunst und der Natur, — „Krieg
und Frieden.” Höhepunkt des Genies, das den ganzen menschlichen
Gesichtskreis und das Schauspiel dieser Kämpfe, die seelisch schon
der Vergangenheit angehörten, meistert. Er ist ihr Herr; und schon
genügen sie ihm nicht mehr. Wie Fürst Andrej hebt er seine Augen
zu dem grenzenlosen Himmel, der über Austerlitz leuchtet. Dieser
Himmel zieht ihn an:
„Es gibt Menschen mit mächtigen Schwingen, die die Begierde
zwingt, inmitten der Menge zu landen, wo ihre Schwingen
zerbrechen: solch einer bin ich. Dann schlägt man mit seinem
gebrochenen Flügel, schwingt sich mit Macht wieder auf und fällt
von neuem herab. Aber die Flügel heilen wieder. Ich werde sehr
hoch fliegen. Gott stehe mir bei!”259
Diese Worte sind im schrecklichsten Aufruhr geschrieben, dessen
Niederschlag und Echo die „Beichte” ist. Tolstoi wurde mehr als
einmal mit zerbrochenen Schwingen zu Boden geschleudert. Und
immer wieder läßt er nicht nach und steigt wieder auf. Nun schwebt
er dahin in dem „unermeßlichen, unergründlichen Himmel” mit
seinen beiden großen Schwingen, dem Glauben und der Vernunft.
Aber die ersehnte Ruhe findet er darin nicht. Der Himmel ist nicht
außerhalb unser, der Himmel ist in uns. Tolstoi läßt auch hier seinen
stürmischen Leidenschaften freien Lauf. Hierin unterscheidet er sich
von den entsagenden Aposteln; er ging mit derselben Inbrunst ans
Entsagen, mit der er ans Leben heranging. Und immer ist es das
Leben, das er mit dem Ungestüm eines Liebhabers umfängt. Er ist
„lebenstoll”. Er ist „lebenstrunken”. Er kann nicht leben ohne diesen
Rausch260. Berauscht von Glück und Unglück zu gleicher Zeit.
Berauscht vom Tod und von der Unsterblichkeit261. Sein Verzicht auf
das irdische Dasein ist nur ein wild leidenschaftlicher Schrei nach
dem ewigen Leben. Nein, der Friede, den er erlangt, der
Seelenfriede, den er herbeiwünscht, ist nicht der Friede des Todes.
Es ist der Friede jener brennenden Welten, die in den unendlichen
Räumen kreisen. Sein Zorn ist ruhig, und seine Ruhe ist
Leidenschaft262. Der Glaube hat ihm neue Waffen geliefert, um
unversöhnlich den Kampf wieder aufzunehmen, den er seit seinen
ersten Werken ohne Unterlaß gegen die Lügen der zeitgenössischen
Gesellschaft führte. Er begnügt sich nicht mehr mit ein paar
typischen Romanfiguren, er zieht zu Felde gegen alle die großen
Götzen: die Heucheleien der Religion, des Staates, der Wissenschaft,
der Kunst, des Liberalismus, des Sozialismus, der Volksbildung, der
Wohltätigkeit, des Pazifismus...263 Er geißelt sie, er verfolgt sie aufs
eifrigste.
Tolstois Grab auf Jasnaja Poljana
Die Welt sieht von Zeit zu Zeit die Erscheinung solch erregter Geister,
die, wie Johannes der Täufer, einen Bannfluch gegen die
Sittenverderbnis schleudern. Die letzte dieser Erscheinungen ist
Rousseau gewesen. Durch seine Liebe zur Natur264, seinen Haß auf
die moderne Gesellschaft, seine äußerste Bedürfnislosigkeit, seine
inbrünstige Verehrung des Evangeliums und der christlichen Moral ist
Rousseau ein Vorbote Tolstois, der sich auch auf ihn berief: „Manche
seiner Worte gehen mir zu Herzen,” sagte er, „ich könnte glauben,
sie selbst geschrieben zu haben”265.
Aber was für ein Unterschied zwischen diesen beiden Seelen, und
um wieviel ist die Tolstois von reinerem Christentum! Welcher
Mangel an Demut, welche pharisäische Anmaßung verrät der
vermessene Ausruf in den „Bekenntnissen” des Genfers:
„Du Ewiger! Einer soll dir zu sagen wagen: Ich war besser als dieser
Mann!”
Oder in jenem Fehdebrief an die Welt:
„Ich erkläre es laut und furchtlos: wer immer mich für einen
unredlichen Menschen hält, verdient selbst erdrosselt zu werden.”
Tolstoi weinte blutige Tränen über die „Verbrechen” seines
vergangenen Lebens:
„Ich leide Höllenqualen. Ich erinnere mich aller meiner begangenen
Niederträchtigkeiten, und diese Erinnerungen verlassen mich nicht,
sie vergiften mein Leben. Gewöhnlich bedauert man, daß man sich
nicht über den Tod hinaus an Vergangenes erinnert. Welch ein Glück,
daß es so ist! Wie schrecklich wäre es, wenn ich mich in dem
anderen Leben all des Bösen erinnern müßte, das ich hienieden
beging!...”266
Er hat nicht, wie Rousseau, seine „Bekenntnisse” geschrieben, weil
er, wie dieser sagte, „im Bewußtsein, daß das Gute das Schlechte
überwiege, guten Grund hatte, alles zu sagen”. Tolstoi verzichtet
nach einem vergeblichen Versuch darauf, seine Erinnerungen zu
schreiben. Die Feder entsinkt seiner Hand. Er will nicht Gegenstand
des Ärgernisses sein für die, die es lesen werden:
„Die Leute würden sagen: ‚Das ist also der Mann, den viele so hoch
stellen! Und was für ein Feigling war er! Demnach befiehlt Gott
selbst uns einfachen Sterblichen, feige zu sein’.”267
Niemals hat Rousseau aus dem christlichen Glauben heraus diese
schöne schamhafte Demut gekannt, die dem alten Tolstoi eine solch
unsagbare Güte verleiht. Hinter Rousseau, als Umrahmung seines
Denkmals auf der Schwaneninsel, sieht man Genf, das Rom Calvins.
In Tolstoi findet man die Pilger, die „Einfältigen” wieder, deren naive
Bekenntnisse und Tränen seine Kinderjahre bewegt hatten.
Aber weit mehr noch als der Kampf gegen die Welt, der ihm mit
Rousseau gemeinsam ist, erfüllte ein anderer Kampf die letzten
dreißig Jahre von Tolstois Leben. Ein herrlicher Kampf zwischen den
beiden hehrsten Mächten in seiner Seele: der Wahrheit und der
Liebe.
Die Wahrheit, — „dieser Blick, der bis ins Herz geht”, — das
durchdringende Licht dieser grauen Augen, die einen durchbohren...
sie war sein ältester Glaube, die Beherrscherin seiner Kunst.
„Die Heldin meiner Schriften, sie, die ich mit der ganzen Kraft meiner
Seele liebe, sie, die immer schön war, ist und sein wird, sie ist die
Wahrheit.”268
Die Wahrheit war das einzige Strandgut, das er nach dem Tode
seines Bruders aus dem Schiffbruch rettete269, der Angelpunkt seines
Lebens, der Fels im Meere.
Aber bald hatte ihm „die schreckliche Wahrheit”270 nicht mehr
genügt. Die Liebe hatte sie verdrängt. Sie war der lebendige Quell
seiner Kinderjahre, „der natürliche Zustand seiner Seele”271. Als im
Jahre 1880 der moralische Umschwung kam, sagte er sich nicht von
der Wahrheit los, sondern er suchte sie mit der Liebe zu
verschmelzen272.
Die Liebe ist „die Grundlage der Willenskraft”273. Die Liebe ist „der
Zweck des Lebens”, der einzige neben der Schönheit274. Die Liebe ist
das Wesen des vom Leben gereiften Tolstoi, des Verfassers von
„Krieg und Frieden” und des Briefes an den Heiligen Synod275.
Diese Durchdringung der Wahrheit mit der Liebe macht den
einzigartigen Wert der Hauptwerke aus, die er in seines Lebens Mitte
— nel mezzo del cammin — schrieb, und unterscheidet seinen
Realismus von dem Realismus eines Flaubert. Dieser setzt seinen
Ehrgeiz darein, seine Gestalten nicht zu lieben. So groß er auf diese
Weise auch sein mag, ihm fehlt das „Fiat lux!” Das Licht der Sonne
genügt nicht, das Licht des Herzens tut not. Tolstois Realismus
verkörpert sich in jeder seiner Gestalten, und indem er sie mit ihren
Augen sieht, findet er in der geringsten von ihnen Gründe, sie zu
lieben und uns die Bande empfinden zu lassen, die uns mit allen
brüderlich vereinen276. Durch die Liebe dringt er bis zu den Wurzeln
des Lebens.
Aber es ist schwierig, diese Verbindung aufrechtzuerhalten. Es gibt
Stunden, in denen das Spiel des Lebens und seine Leiden so bitter
sind, daß sie der Liebe gleichsam den Kampf ansagen, und daß man,
um sie zu retten, um seinen Glauben zu retten, sie so hoch über
alles Menschliche erheben muß, daß sie Gefahr läuft, jede
Verbindung mit der Welt zu verlieren. Und was soll der tun, dem
vom Schicksal die wunderbare und unselige Gabe zuteil wurde, die
Wahrheit zu sehen, sie sehen zu müssen? Wer kann sagen, wie sehr
Tolstoi in seinen letzten Lebensjahren gelitten hat unter dem
unaufhörlichen Widerstreit zwischen seinen unerbittlichen Augen, die
den Schrecken der Wirklichkeit sahen, und seinem empfindsamen
Herzen, das unentwegt die Liebe bejahte und ihrer harrte!
Wir alle haben diese tragischen Konflikte kennengelernt. Wie oft
waren wir vor die Entscheidung gestellt, nicht zu sehen oder zu
hassen! Und wie oft mag einen Künstler, — einen Künstler, würdig
dieser Bezeichnung, einen Schriftsteller, der die herrliche und
furchtbare Macht des geschriebenen Wortes kennt, — wie oft mag
ihn Bangigkeit beschlichen haben im Augenblick, da er diese oder
jene Wahrheit niederschrieb277! Diese gesunde und männliche
Wahrheit, die inmitten der modernen Lügen, der Lügen der
Zivilisation, so notwendig ist, diese Wahrheit, die zum Leben so
unentbehrlich zu sein scheint, wie die Luft, die man einatmet... Und
dann merkt man, daß so viele Lungen diese Luft nicht vertragen
können, so viele durch die Zivilisation geschwächte oder einfach
durch die Güte ihres Herzens schwach gewordene Menschen. Soll
man keine Rücksicht darauf nehmen und ihnen diese tödliche
Wahrheit unbedenklich ins Gesicht schleudern? Gibt es nicht eine
höhere Wahrheit, die, wie Tolstoi sagt, „zur Liebe bereit ist”? — Aber
kann man wohl darein willigen, die Menschen mit tröstlichen Lügen
einzulullen, wie Peer Gynt seine sterbende alte Mutter mit seinen
Märchen einschläfert?... Die Gesellschaft steht immer vor dem
Dilemma: Wahrheit oder Liebe. Gewöhnlich entscheidet sie sich
dahin, Wahrheit und Liebe zugleich zu opfern.
Nie hat Tolstoi einen seiner beiden Glauben verraten. In den Werken
aus seiner Reifezeit weist die Liebe der Wahrheit den Weg. In den
Werken der letzten Jahre senkt sich ein Licht von oben, ein Strahl
der Gnade auf das Leben, ohne sich aber damit zu vermischen. Man
hat es in der „Auferstehung” gesehen, wo der Glaube die
Wirklichkeit beherrscht, sie aber nicht durchdringt. Dieselben
Menschen, die Tolstoi jedesmal, wenn er sie einzeln sieht, als sehr
schwach und mittelmäßig schildert, erhalten für ihn, wenn er an sie
als ein Ganzes denkt, einen Zug von göttlicher Heiligkeit278. — In
seinem täglichen Leben trat derselbe Widerspruch zutage wie in
seiner Kunst, nur noch schroffer. Wenn er auch noch so gut wußte,
was die Liebe von ihm forderte, so handelte er doch anders; er lebte
nicht, wie es Gott gefiel, er lebte, wie es der Welt gefiel. Wo sollte er
die Liebe fassen? Wie sollte er zwischen ihren verschiedenen
Gesichtern und ihren widerspruchsvollen Forderungen
unterscheiden? Galt es die Liebe zu seiner Familie, oder die Liebe zu
allen Menschen?... Bis zum letzten Tag schlug er sich mit diesen
Zweifeln herum.
Wo ist die Lösung? — Er hat sie nicht gefunden. Überlassen wir das
Recht, deshalb mit Verachtung über ihn zu urteilen, den
hochfahrenden Intellektuellen. Sie haben gewiß die Lösung
gefunden, sie haben die Wahrheit, und sie stützen sich mit
Sicherheit auf sie. Für sie war Tolstoi ein empfindsamer Schwächling,
der ihnen nicht als Vorbild dienen kann. Zweifellos ist er kein Vorbild,
dem sie nacheifern können; dazu sind sie nicht lebendig genug.
Tolstoi gehört nicht zu jenen eitlen Auserwählten, er gehört keiner
Kirche an, — weder der der Schriftgelehrten, wie er sie nannte, noch
der der Pharisäer vom einen oder vom anderen Glauben. Er ist der
vollkommenste Typus des freien Christen, der sein Leben lang einem
Ideal zustrebt, ohne ihm je näher zu kommen279.
Tolstoi redet nicht zu der geistigen Auslese, er redet zu den
gewöhnlichen Menschen — hominibus bonae voluntatis. — Er ist
unser Gewissen. Er spricht aus, was wir Durchschnittsmenschen alle
denken, und was wir nur nicht in uns zu lesen wagen. Und er ist uns
kein hochmütiger Lehrmeister, keiner jener hoheitsvollen
Geisteshelden, die in ihrer Kunst und ihrer Weisheit über der
Menschheit thronen. Er ist — wie er sich selbst gern in seinen
Briefen mit diesem schönsten und innigsten Namen bezeichnete —
„unser Bruder”.
Ende
Anmerkungen
1 (S. 6): Abgesehen von einigen Unterbrechungen, — vornehmlich einer ziemlich
langen zwischen 1865 und 1878.
2 (S. 6): Es ist die wichtigste Sammlung von Dokumenten über das Leben und das
Werk Tolstois. Ich habe sehr ausgiebig daraus geschöpft.
3 (S. 7): Er nahm auch an den Napoleonischen Feldzügen teil und war in
Frankreich während der Jahre 1814-1815 in Gefangenschaft.
4 (S. 8): „Kindheit”, Kapitel II.
5 (S. 8): „Kindheit”, Kapitel XXVII.
6 (S. 8): Jasnaja Poljana, dessen Name etwa mit „Helle Lichtung” wiedergegeben
werden kann, ist ein kleines Dorf im Süden von Moskau, einige Meilen von Tula
entfernt, „in einer der urrussischsten Provinzen. Die beiden größten Gebiete
Rußlands,” sagt A. Leroy-Beaulieu, „das Waldgebiet und das Getreidegebiet
berühren sich hier und gehen ineinander über. In diesen Gegenden trifft man
weder Finnen noch Tartaren, weder Polen noch Juden oder Kleinrussen. Das
Gebiet von Tula liegt im tiefsten Herzen Rußlands.” (A. Leroy-Beaulieu: Leo Tolstoi;
Revue des deux Mondes, 15. Dezember 1910.)
7 (S. 9): Tolstoi hat ihn in „Anna Karenina” geschildert mit den Zügen von Lewins
Bruder.
8 (S. 9): Er schrieb „Das Tagebuch eines Jägers”.
9 (S. 9): In Wirklichkeit war sie eine entfernte Verwandte. Sie hatte Tolstois Vater
geliebt und war von ihm wiedergeliebt worden; aber wie Sonja in „Krieg und
Frieden” hatte sie sich nicht zu behaupten gewußt.
10 (S. 10): „Kindheit”, Kapitel XII.
11 (S. 11): Hat Tolstoi doch in autobiographischen Aufzeichnungen aus dem Jahre
1878 behauptet, daß er sich der Empfindungen erinnere, die er als Kind beim
Wickeln und Baden gehabt habe. (Siehe „Erste Erinnerungen”.)
12 (S. 11): „Erste Erinnerungen.”
13 (S. 13): Von 1842-1847.
14 (S. 13): Nikolaus, der um 5 Jahre älter als Leo war, hatte sein Studium schon
im Jahre 1844 vollendet.
15 (S. 13): Er liebte die metaphysischen Unterhaltungen „um so mehr”, wie er
sagt, „als sie viel abstrakter waren und bis zu einem solchen Grad von Unklarheit
führten, daß man, im Glauben, man sage, was man denke, alles andere sagen
konnte”. („Knabenjahre”, Kapitel XXVII.)
16 (S. 13): „Knabenjahre”, Kapitel XIX.
17 (S. 13): Hauptsächlich in seinen ersten Werken, in den Berichten aus
Sewastopol.
18 (S. 14): Das war zu der Zeit, als er mit Vergnügen Voltaire las. („Beichte”,
Kapitel I.)
19 (S. 14): „Beichte”, Kapitel I.
20 (S. 14): „Jugend”, Kapitel III.
21 (S. 14): In den Monaten März und April 1847.
22 (S. 14): „Alles was der Mensch tut, tut er aus Eigenliebe”, sagt Nekludow in
„Knabenjahre”. — Im Jahre 1853 bemerkt Tolstoi in seinem Tagebuch: „Mein
großer Fehler: der Hochmut. Eine grenzenlose, durch nichts gerechtfertigte
Eigenliebe... Ich bin so ehrgeizig, daß ich, wenn ich zwischen dem Ruhm und der
Tugend (die ich liebe) zu wählen hätte, wohl glaube, ich würde ersteren wählen.”
23 (S. 15): „Ich wollte, alle sollten mich kennen und mich lieben. Ich wollte, daß
schon allein beim Hören meines Namens alle von Bewunderung für mich erfüllt
und mir zu Dank verpflichtet wären.”
24 (S. 15): Nach einem Bildnis aus dem Jahre 1844, als er 20 Jahre alt war.
25 (S. 15): „Ich bildete mir ein, daß es für einen Menschen, der eine so breite
Nase, so aufgeworfene Lippen und so kleine Augen wie ich hatte, kein Glück auf
Erden gäbe.” („Kindheit”, Kapitel XVII.) An anderer Stelle spricht er mit
Verzweiflung von „diesem Gesicht ohne Ausdruck, diesen schlaffen, weichen,
unentschiedenen Zügen ohne Adel, die an die einfachen Muschiks erinnern, von
diesen zu großen Händen und Füßen”. („Jugend”, Kapitel I.)
26 (S. 15): „Ich teilte die Menschheit in drei Klassen ein: die erstklassigen
Menschen, die allein achtungswürdigen; die zweitklassigen Menschen, würdig der
Verachtung und des Hasses; und die Plebs, die für mich überhaupt nicht
existierte.” („Jugend”, Kapitel XXXI.)
27 (S. 15): Hauptsächlich während eines Aufenthaltes in St. Petersburg in den
Jahren 1847-1848.
28 (S. 15): „Knabenjahre”, Kapitel XXVII.
29 (S. 16): Unterhaltungen mit Paul Boyer (Le Temps), 28. August 1901.
30 (S. 17): Nekludow kommt auch vor in „Knabenjahre” und „Jugend” (1854), in
„Begegnung im Felde” (1856), in „Aufzeichnungen eines Marqueurs” (1856), in
„Luzern” (1857) und in „Auferstehung” (1899). Es ist zu bemerken, daß dieser
Name für ganz verschiedene Personen Verwendung findet. Tolstoi hat gar nicht
versucht, ihm immer dieselbe äußere Erscheinung zu geben, und am Schluß der
„Aufzeichnungen eines Marqueurs” tötet sich Nekludow sogar. Es sind lediglich
verschiedene Inkarnationen Tolstois in seinen besten und schlimmsten
Eigenschaften.
31 (S. 18): „Der Morgen des Gutsherrn.”
32 (S. 18): Sie fällt zeitlich mit den Berichten aus der „Kindheit” zusammen.
33 (S. 19): 11. Juni 1851 im befestigten Lager von Stari-Jurt im Kaukasus.
34 (S. 20): Tagebuch.
35 (S. 20): Tagebuch, 2. Juli 1851.
36 (S. 20): Brief an seine Tante Tatjana, Januar 1852.
37 (S. 21): Ein Bildnis von 1851 zeigt schon die Veränderung, die sich in seiner
Seele vollzieht. Das Haupt ist erhoben, die Gesichtszüge haben sich etwas
aufgehellt, die Augenhöhlen sind weniger dunkel, die Augen bewahren noch ihre
strenge Starrheit, und der halbgeöffnete Mund, den ein keimender Schnurrbart
umschattet, wirkt vergrämt; das Gesicht zeigt noch immer etwas Hochmütiges und
Mißtrauisches, aber doch weit mehr Jugendlichkeit.
38 (S. 22): Die Briefe, die er damals an seine Tante Tatjana schrieb, sind angefüllt
mit Herzensergüssen und Tränen. Er ist, wie er sagt, „Liova-riova”, Leo der Greiner
(6. Januar 1852).
39 (S. 22): „Der Morgen des Gutsherrn” ist das Bruchstück eines geplanten
Werkes „Roman eines russischen Gutsbesitzers”. „Die Kosaken” sind der 1. Teil
eines großen Kaukasusromans. Das gewaltige Werk war nach der Absicht des
Verfassers nur eine Art Einleitung zu einem zeitgenössischen Epos, dessen
Mittelstück die „Dekabristen” sein sollten.
40 (S. 23): Der Pilger Krischa oder der Tod der Mutter.
41 (S. 24): In einem Brief an Birukow.
42 (S. 24): „Der Morgen des Gutsherrn” wurde erst 1850-1856 beendet.
43 (S. 25): „Die beiden Alten” (1885).
44 (S. 26): „Der Überfall.”
45 (S. 27): Obwohl sie erst viel später, im Jahre 1860 in Hyères beendet wurden
(erschienen sind sie erst 1863), so stammt doch der größere Teil des Werks aus
dieser Zeit.
46 (S. 27): „Die Kosaken.”
47 (S. 29): „Vielleicht”, sagt der in die junge Kosakin verliebte Olenin, „liebe ich in
ihr die Natur... Indem ich sie liebe, fühle ich, wie ganz ich an der Natur teilnehme.”
— Oft vergleicht er die Frau, die er liebt, mit der Natur. „Sie ist wie die Natur
gleichmäßig, still und schweigsam.” An anderer Stelle bringt er den Anblick der
fernen Berge und „dieser majestätischen Frau” in Verbindung miteinander.
48 (S. 30): Ebenso in dem Briefe Olenins an seine russischen Freunde.
49 (S. 31): Tagebuch.
50 (S. 32): Man findet diese Schreibweise auch im „Holzschlag”, der zum selben
Zeitpunkt beendigt wurde. Zum Beispiel: „Es gibt drei Arten von Liebe: 1. die
ästhetische Liebe; 2. die ergebene Liebe; 3. die werktätige Liebe, usw.”
(„Jugendjahre.”) — Oder auch: „es gibt drei Arten von Soldaten: 1. die
gehorsamen; 2. die befehlshaberischen; 3. die bramarbasierenden, — die
ihrerseits alle wieder in Unterabteilungen zerfallen”. („Holzschlag”)
51 (S. 33): „Jugend”, Kapitel XXXII.
52 (S. 34): Tolstoi hatte die Geschichte an die Zeitschrift „Sovremennik” geschickt,
und sie wurde darin sofort veröffentlicht.
53 (S. 35): Tolstoi ist viel später, in seinen Unterhaltungen mit seinem Freunde
Teneromo, darauf zurückgekommen. Er hat ihm namentlich von einem
Angstzustand erzählt, der ihn eines Nachts erfaßte, als er vollständig eingegraben
in einer abgedunkelten Verschanzung lag. Man findet diese Episode aus dem Krieg
von Sewastopol in dem Sammelband „Die Revolutionäre”.
54 (S. 35): Drujinin warnt ihn später freundschaftlich vor dieser Gefahr: „Sie
neigen zu einer ganz außerordentlichen Feinheit des Analysierens; sie kann sich in
einen großen Fehler verwandeln. Mitunter könnten Sie sagen: bei dem und dem
verriet die Wade den Wunsch, nach Indien zu reisen... Sie müssen diese Neigung
zügeln, aber um nichts in der Welt sie ersticken.” (Brief aus dem Jahre 1856.)
55 (S. 37): die die Zensur verstümmelt hat.
56 (S. 37): 2. September 1855.
57 (S. 38): „Seine Eigenliebe beherrschte ihn vollständig; es gab für ihn keine
andere Wahl, als der erste zu sein oder sich selbst aus dem Leben zu löschen... Er
wollte gern der erste unter den Männern sein, mit denen er sich zu vergleichen
pflegte.”
58 (S. 39): 1889 kam Tolstoi beim Schreiben einer Vorrede zu den „Erinnerungen
an Sewastopol von einem Artillerieoffizier”, A. J. Erchow, auf diese Szenen zurück.
Alles Heldenhafte war daraus geschwunden. Er erinnerte sich nur noch an die
Angst, die sieben Monate gewährt hatte, — die doppelte Angst: die vor dem Tod
und die vor der Schande, eine entsetzliche moralische und seelische Qual. Alle
„Heldentaten” bedeuteten bei der Belagerung für ihn nur noch das eine:
Kanonenfutter gewesen zu sein.
59 (S. 40): Suarès, „Tolstoi”, herausgegeben von der „Union pour l'Action morale”,
1899, (aufs neue veröffentlicht in den „Cahiers de la Quinzaine”, unter dem Titel:
„Tolstoi vivant”).
60 (S. 41): Turgenjew klagt in einer Unterhaltung über Tolstois törichten
Adelsstolz, über seine junkerhafte Prahlerei.
61 (S. 41): „Ein Charakterzug, ob er nun gut oder schlecht zu nennen sei, war mir
immer eigen: ich wehrte mich stets instinktiv gegen alle epidemisch auftretenden
äußeren Einflüsse... Ich hatte eine Abneigung gegen die allgemeine Strömung.”
(Brief an P. Birukow.)
62 (S. 41): Turgenjew.
63 (S. 42): Grigorowitsch.
64 (S. 42): Eugen Garchin, Erinnerungen an Turgenjew 1883.
65 (S. 42): Der heftigste, der zum endgültigen Bruch zwischen ihnen führte, fand
im Jahre 1861 statt. Turgenjew gab seinen philanthropischen Empfindungen
Ausdruck und sprach von den wohltätigen Veranstaltungen, mit denen seine
Tochter sich beschäftigte. Nichts erregte Tolstoi mehr als die Wohltätigkeit der
großen Gesellschaft. „Ich finde,” sagte er, „daß ein gutgekleidetes junges
Mädchen, das schmutziges und übelriechendes Bettelvolk auf seinen Knien hält,
eine Theaterszene spielt, die der Aufrichtigkeit entbehrt.” — Die
Auseinandersetzung wurde immer heftiger, Turgenjew geriet außer sich und
bedrohte Tolstoi mit Ohrfeigen. Tolstoi bestand auf sofortiger Genugtuung und
forderte Turgenjew zum Zweikampf. Turgenjew, der seine Erregung gleich
bedauert hatte, schickte einen Entschuldigungsbrief. Aber Tolstoi verzieh ihm nicht.
Fast zwanzig Jahre später bat er — wie man in der Folge sehen wird — ihn um
Entschuldigung, im Jahre 1878, als er sein ganzes früheres Leben abschwor und
seinen Stolz vor Gott gründlich demütigte.
66 (S. 42): „Beichte.”
67 (S. 42): „Es gab”, sagte er, „keinen Unterschied zwischen uns und einem
Tollhaus. Selbst in jener Zeit hatte ich diese unbestimmte Empfindung; aber wie
alle Verrückten behandelte ich alle als Narren, außer mich selbst.” („Beichte”).
68 (S. 43): „Beichte.”
69 (S. 43): „Tagebuch des Fürsten D. Nekludow”, „Luzern”.
70 (S. 44): „Tagebuch des Fürsten D. Nekludow.”
71 (S. 44): Er lernte auf dieser Reise verschiedene Persönlichkeiten kennen: in
Dresden Auerbach, der als erster ihn zur Volksbelehrung angeregt hatte, in
Kissingen Fröbel, in London Herzen, in Brüssel Proudhon, der einen großen
Eindruck auf ihn gemacht zu haben scheint.
72 (S. 45): Hauptsächlich in den Jahren 1861/62.
73 (S. 45): „Erziehung und Kultur.”
74 (S. 46): Tolstoi hat sich in der Zeitschrift „Jasnaja Poljana” im Jahre 1862 mit
diesen Theorien auseinandergesetzt.
75 (S. 48): Rede über die „Überlegenheit des künstlerischen Elements in der
Literatur über alle ihre Zeitströmungen”.
76 (S. 48): Er stellte ihm seine eigenen Beispiele entgegen, den alten Postillion
aus „Drei Tode”.
77 (S. 48): Im Jahre 1856 war schon ein anderer Bruder Tolstois, Dmitri, an der
Schwindsucht gestorben. Tolstoi selbst glaubte sich zu verschiedenen Malen von
der Schwindsucht befallen, in den Jahren 1856, 1862 und 1871. Er war, wie er am
28. Oktober 1852 schreibt, „von kräftiger Körperbeschaffenheit, aber von
schwacher Gesundheit.” Dauernd litt er an Erkältungen, Halsweh, Augen- und
Zahnschmerzen und Rheumatismus. Im Kaukasus, im Jahre 1852, mußte er
„wenigstens zwei Tage in der Woche das Zimmer hüten”. Im Jahre 1854 hält ihn
die Krankheit mehrere Monate auf dem Weg von Silistrien nach Sewastopol
zurück. 1856 liegt er ernsthaft brustkrank in Jasnaja darnieder. Aus Angst vor der
Schwindsucht macht er im Jahre 1862 eine Kefirkur in Samara, bei den Baschkiren,
und vom Jahre 1870 an geht er fast jedes Jahr zu diesem Zweck wieder dorthin.
In seinen Briefen an Fet spricht er dauernd von solchen Dingen. Dieser
Gesundheitszustand macht es einigermaßen begreiflich, daß Tolstoi sich
andauernd mit dem Gedanken an den Tod beschäftigte. Späterhin sprach er von
der Krankheit als von seiner besten Freundin: „Wenn man krank ist, scheint es, als
ob man ganz sanft eine leicht abschüssige Fläche hinunterglitte, die an einem
bestimmten Punkt von einem Vorhang, einem leichten Vorhang aus leichtem Stoff
abgeschlossen ist. Diesseits davon ist das Leben, jenseits davon ist der Tod. Um
wieviel ist in bezug auf sittlichen Wert der Zustand der Krankheit dem Zustand der
Gesundheit überlegen! Sprecht mir nicht von jenen Leuten, die niemals krank
gewesen sind! Sie sind entsetzlich, besonders die Frauen. Eine kerngesunde Frau
ist eine wahre Bestie!” (Unterhaltungen mit Paul Boyer, „Le Temps”, 27. August
1901.)
78 (S. 48): 17. Oktober 1860, in einem Brief an Fet.
79 (S. 48): 1861 in Brüssel geschrieben.
80 (S. 49): Eine andere Novelle aus jener Zeit, ein einfacher Reisebericht, der
persönliche Erinnerungen weckt, „Der Schneesturm”, ist von großer,
eindrucksvollster dichterischer, sozusagen musikalischer Schönheit. Tolstoi hat
einen Teil des äußeren Rahmens später noch einmal für „Der Herr und sein
Knecht” (1895) verwendet.
81 (S. 50): Als Kind hatte er in einer Eifersuchtsanwandlung seine damals
neunjährige kleine Spielkameradin — die spätere Frau Bers — vom Balkon
heruntergeworfen, so daß sie lange Zeit hinkte.
82 (S. 50): Siehe „Eheglück”, die Erklärung Sergius': „Denken Sie sich einen Herrn
A., einen alten Mann, der das Leben kennt, und eine Frau B., jung und glücklich,
die weder die Menschen noch das Leben kennt. Infolge verschiedener
Familienumstände liebte er sie wie eine Tochter, und dachte nicht daran, daß er sie
anders lieben könnte..., usw.”
83 (S. 51): Vielleicht verwandte er in seinem Werk auch die Erinnerungen an einen
Liebesroman, der sich im Jahre 1856 in Moskau mit einem jungen Mädchen
angesponnen hatte, das sehr verschieden von ihm war, sehr leichtfertig und
oberflächlich, und das er schließlich im Stich ließ, obwohl sie beide aufrichtig
ineinander verliebt waren.
84 (S. 52): Von 1857 bis 1861.
85 (S. 52): Tagebuch, Oktober 1857.
86 (S. 53): Brief an Fet, 1863.
87 (S. 53): „Beichte.”
88 (S. 53): „Das Familienglück erfüllt mich vollständig.” (5. Januar 1863.) — „Ich
bin so glücklich! so glücklich! Ich liebe sie so sehr!” (8. Februar 1863.)
89 (S. 54): Sie hatte einige Novellen geschrieben.
90 (S. 54): „Krieg und Frieden” soll sie siebenmal abgeschrieben haben.
91 (S. 54): Gleich nach seiner Heirat gab Tolstoi alle pädagogischen Arbeiten in
den Schulen und an der Zeitschrift auf.
92 (S. 54): Ebenso wie ihre kluge und künstlerisch veranlagte Schwester Tatjana,
deren Geist und musikalische Begabung Tolstoi sehr liebte. — Tolstoi sagte: „Ich
habe Tanja (Tatjana) genommen, habe sie mit Sonja (Sofie Bers, spätere Gräfin
Tolstoi) vermischt, und es ist Natascha herausgekommen.”
93 (S. 54): Die Unterbringung Dollys in dem zerfallenen Landhaus; Dolly und die
Kinder; — viele Einzelheiten in bezug auf Frauenkleidung; ganz zu schweigen von
gewissen Geheimnissen der Frauenseele, in die vielleicht selbst das Verständnis
eines genialen Mannes nicht so tief hätte eindringen können, wenn eine Frau sie
ihm nicht verraten hätte.
94 (S. 55): Ein charakteristisches Zeichen dafür, daß das schöpferische Genie
Tolstois Geist mit Beschlag belegt hat: sein Tagebuch bricht am 1. November 1865
auf dreizehn Jahre ab, zu dem Zeitpunkt, da er mitten in der Arbeit an „Krieg und
Frieden” ist. Der Ehrgeiz des Dichters ließ den Monolog seines Gewissens
verstummen. Diese Schaffensperiode ist zugleich eine Zeit des körperlichen
Sichauslebens. Tolstoi ist versessen auf die Jagd. „Auf der Jagd vergesse ich
alles...” (Brief aus dem Jahre 1864.) — Auf einem zu Pferde unternommenen
Jagdausflug brach er sich den Arm (September 1864), und während seiner
Genesung diktierte er die ersten Teile von „Krieg und Frieden.” — „Als ich aus
meiner Ohnmacht erwachte, sagte ich mir: ‚Ich bin ein Künstler’. Ich bin es auch,
aber ein einsamer Künstler.” (Brief an Fet, 23. Januar 1865.) Alle Briefe aus jener
Zeit, die er an Fet schrieb, atmen Schöpferfreude. „Alles, was ich bis zu jenem
Tage veröffentlicht habe, kommt mir wie ein Versuch vor.”
95 (S. 55): Unter den Werken, die einen Einfluß auf ihn ausübten, gibt Tolstoi
schon zwischen seinem 20. und 30. Lebensjahr folgende an:
„Goethe: Hermann und Dorothea... sehr großer Einfluß.”
„Homer: Ilias und Odyssee (in russisch)... sehr großer Einfluß.”
Im Juni 1863 schreibt er in sein Tagebuch: „Ich lese Goethe, und mancherlei
Gedanken formen sich in mir.”
Im Frühjahr 1865 liest er aufs neue Goethe, und er nennt „Faust” die Dichtung des
Gedankens, die Dichtung, die ausdrückt, was keine andere Kunst zum Ausdruck
bringen kann. Später opferte er Goethe wie auch Shakespeare seinem Gotte auf.
Aber seiner Bewunderung für Homer blieb er treu. Im August 1857 las er mit
gleicher Ergriffenheit die Ilias und das Evangelium. Und in einem seiner letzten
Bücher, der Schrift gegen Shakespeare (1903), stellt er Homer als Beispiel der
Aufrichtigkeit, des Ebenmaßes und der wahren Kunst Shakespeare gegenüber.
96 (S. 56): Tolstoi begann das Werk im Jahre 1863 mit den „Dekabristen”, wovon
er drei Bruchstücke schrieb. Aber er kam zu der Überzeugung, daß das Fundament
seines Gebäudes nicht fest genug begründet war, und indem er weiter
zurückschürfte, gelangte er zur Epoche der Napoleonischen Kriege und schrieb
„Krieg und Frieden”. Die Veröffentlichung nahm ihren Anfang im Januar 1865 im
„Russki Viestnik”; der sechste Band wurde im Herbst 1869 beendet. Dann ging
Tolstoi weiter in der Geschichte und entwarf den Plan zu einem epischen Roman
über Peter den Großen und dann zu einem anderen, „Mirowitsch”, über die
Herrschaft der Kaiserinnen des 18. Jahrhunderts und ihrer Günstlinge. Er arbeitete
von 1870-1873 daran, vergrub sich in Dokumente und entwarf mehrere Szenen;
aber bei der ihm eigenen Genauigkeit des Realisten hatte er das Gefühl, daß es
ihm niemals gelingen würde, den Geist jener vergangenen Zeiten genügend
wahrhaft getreu wiederaufleben zu lassen, und er verzichtete daher auf die
Ausführung seines Planes. — Später, im Januar 1876, bewegte ihn der Gedanke an
einen neuen Roman aus der Zeit Nikolaus I.; dann machte er sich wieder mit
Leidenschaft im Jahre 1877 an die „Dekabristen”, sammelte Zeugnisse von den
wenigen Überlebenden aus jener Zeit und suchte die in Betracht kommenden Orte
auf. 1878 schrieb er an seine Tante, die Gräfin A. A. Tolstoi: „Dieses Werk ist für
mich so wichtig! Sie können sich nicht denken, wie wichtig es für mich ist; so
wichtig, wie es für Sie Ihr Glaube ist. Ich möchte sagen: noch wichtiger.” — Aber
er entfernte sich davon in dem Maße, als er sich in den Gegenstand vertiefte: sein
Denken gehörte ihm nicht mehr. Bereits am 17. April 1879 schrieb er an Fet: „Die
Dekabristen? Gott weiß, wo sie sind!... Ich wiege mich in der Hoffnung, daß, wenn
ich daran dachte, wenn ich schrieb, der Hauch meines Geistes allein schon denen
unerträglich sein würde, die zum Wohl der Menschheit auf die Menschen
schießen.” — Zu diesem Zeitpunkt seines Lebens hatte die religiöse Krisis
eingesetzt: er ging daran, alle seine alten Götzen zu verbrennen.
97 (S. 61): Peter Besukow, der Natascha geheiratet hat, wird ein Dekabrist sein. Er
hat eine geheime Gesellschaft gegründet, um über das allgemeine Wohl zu
wachen, eine Art Tugendbund. Natascha schließt sich schwärmerisch seinen
Plänen an. Denissow will nichts von einer friedlichen Revolution wissen, sondern
ist zu einem bewaffneten Aufstand bereit. Nikolaus Rostow hat sich seinen blinden
Soldatengehorsam bewahrt. Er, der nach Austerlitz sagte: „Wir haben nur etwas zu
tun: unsere Pflicht zu erfüllen, uns zu schlagen und niemals zu denken”, er ereifert
sich gegen Peter und sagt: „Mein Eid vor allem! Wenn man mir beföhle, mit
meiner Schwadron gegen dich zu marschieren, würde ich marschieren und
losschlagen.” Seine Frau, Prinzessin Marie, billigt es. Der Sohn des Fürsten Andrej,
der kleine Nikolaus Wolkonski, zart bis zur Krankhaftigkeit, aber reizend, mit
großen Augen und goldenen Haaren, hört mit seinen fünfzehn Jahren fieberhaft
dem Streit zu; seine ganze Liebe gehört Peter und Natascha; Nikolaus und Marie
liebt er kaum; er hegt für seinen Vater, den er nie gesehen hat, eine wahre
Verehrung; er träumt davon, ihm zu gleichen, groß zu sein und etwas Großes zu
vollbringen, was? — das weiß er nicht... „Was Sie auch sagen, ich werde es tun...
Ja ich werde es tun. Er selbst würde es gebilligt haben.” — Und das Werk endet
mit dem Traum eines Kindes, das sich als einen plutarchischen Helden fühlt,
zusammen mit seinem Onkel Peter, vom Ruhm umwittert und von einem Heer
begleitet. — Wenn die „Dekabristen” damals geschrieben worden wären, dann
hätte der kleine Wolkonski zweifellos darin die Rolle eines Helden gespielt.
98 (S. 62): Ich habe gesagt, daß die beiden Familien Rostow und Wolkonski in
„Krieg und Frieden” in vielen Zügen an Tolstois Familie väterlicherseits und
mütterlicherseits erinnern. Auch in den Berichten aus dem Kaukasus und aus
Sewastopol finden sich mehrere Figuren von Soldaten und Offizieren aus „Krieg
und Frieden”.
99 (S. 64): Brief vom 2. Februar 1868, den Birukow anführt.
100 (S. 64): Vornehmlich, so sagte er, den Fürsten Andrej im ersten Teil.
101 (S. 64): Es ist bedauerlich, daß die Schönheit der dichterischen Schöpfung
manchmal durch philosophisches Gerede, mit dem Tolstoi sein Werk überlädt,
beeinträchtigt wird, vor allem in den letzten Teilen. Er sucht seine Theorie vom
Fatum der Geschichte zu entwickeln, und das Unglück ist, daß er endlos darauf
zurückkommt und sich unentwegt wiederholt. Flaubert, der beim Lesen der beiden
ersten Bände, welche er „göttlich” und „voll von Stellen im Shakespeareschen
Geiste” nannte, „Bewunderungsrufe ausstieß”, warf den dritten Band gelangweilt
in die Ecke: „Er fällt schrecklich ab. Er wiederholt sich, und er philosophiert. Man
sieht den Herrn Grafen, den Verfasser und den Russen, während man bisher nur
die Natur und die Menschheit gesehen hatte”. (Brief an Turgenjew, Januar 1880.)
102 (S. 66): Brief an seine Frau (aus den Archiven der Gräfin Tolstoi), von Birukow
angeführt.
103 (S. 66): Während er im Sommer 1869 „Krieg und Frieden” beendet, entdeckt
er Schopenhauer und begeistert sich daran: „Ich bin überzeugt, daß Schopenhauer
der genialste der Menschen ist. Das ganze Weltall strahlt mit einer
außergewöhnlichen Klarheit und Schönheit aus ihm.” (Brief an Fet, 30. August
1869.)
104 (S. 67): „Homer und seine Übersetzer”, sagt er an anderer Stelle,
„unterscheiden sich voneinander wie gekochtes und destilliertes Wasser von
Quellwasser, das Felsen sprengt und selbst durch Sand seinen Lauf nimmt,
dadurch aber nur immer reiner und frischer wird”. (Brief an Fet, Dezember 1879.)
105 (S. 67): Unveröffentlichte Korrespondenz.
106 (S. 67): Aus den Archiven der Gräfin Tolstoi.
107 (S. 67): Der Roman wurde 1877 beendet. Er erschien — bis auf das Nachwort
— im „Russki Viestniki”.
108 (S. 67): Durch den Tod von dreien seiner Kinder (18. November 1873, Februar
1875, Ende November 1875), der Tante Tatjana, seiner Adoptivmutter, (20. Juni
1874) und der Tante Pelagie (22. Dezember 1875).
109 (S. 68): Brief an Fet, 1. März 1876.
110 (S. 68): „Die Frau bildet den Stein des Anstoßes in der Laufbahn eines
Mannes. Es ist schwer, eine Frau zu lieben und etwas Gescheites zu tun; und das
einzige Mittel, um nicht durch die Liebe zur Untätigkeit verurteilt zu sein, ist sich
zu verheiraten.”
111 (S. 70): Motto des Buches.
112 (S. 71): Vergleiche auch im Nachwort den dem Krieg und dem Nationalismus,
dem Panslawismus, ausgesprochen feindlichen Geist.
113 (S. 73): Das Böse ist, was für die Welt vernünftig ist. Das Opfer, die Liebe, gilt
als Unvernunft.
114 (S. 75): „Jetzt treibe ich mich aufs neue an die langweilige und platte ‚Anna
Karenina’ mit dem einzigen Wunsch, sie so rasch wie möglich loszuwerden...”
(Briefe an Fet, 26. August 1875.) — „Ich muß den Roman, der mich langweilt, zu
Ende bringen.” (Briefe an Fet, 1. März 1876.)
115 (S. 75): „Beichte” (1879).
116 (S. 75): Ich fasse hier mehrere Seiten aus der „Beichte” zusammen und
behalte Tolstois Ausdrücke bei.
117 (S. 76): Vgl. „Anna Karenina”: „Und Lewin, geliebt, glücklich, Familienvater,
schaffte alle Waffen außer Greifweite, als fürchtete er, er könnte der Versuchung
erliegen, seiner Qual ein Ende zu machen.” — Dieser Geisteszustand war Tolstoi
und seinen Helden nicht allein eigentümlich. Es fiel Tolstoi auf, wie sehr die Zahl
der Selbstmorde in den besseren Kreisen Europas und besonders in Rußland im
Wachsen begriffen war. Er nimmt häufig in seinen Werken aus jener Zeit darauf
Bezug. Man könnte behaupten, daß eine große Woge von Neurasthenie über das
Europa von 1880 hingegangen sei, die Tausende von Menschen verschlungen
habe. Die damals jung waren, bewahren sich die Erinnerung daran, und für sie hat
Tolstois Stellungnahme zu jener menschlichen Krisis historischen Wert. Er hat die
heimliche Tragödie einer Generation geschrieben.
118 (S. 77): „Beichte.”
119 (S. 77): Tolstois Bildnisse aus jener Zeit verraten diesen volkstümlichen
Charakter. Ein Bild von Kramskoi (1873) — s. Titelbild dieses Buches — stellt ihn in
der Muschikbluse dar, mit vorgeneigtem Kopf und dem Aussehen eines deutschen
Christus. Das Haar beginnt sich an den Schläfen zu lichten, ein Bart umrahmt die
hohlen Wangen. — Auf einem anderen Bild aus dem Jahre 1881 hat er das
Aussehen eines Werkführers im Sonntagsstaat: die Haare kurz geschnitten, mit
vollem Backenbart; der untere Teil des Gesichts erscheint viel breiter als der
obere; gerunzelte Augenbrauen, ein mürrischer Augenausdruck, eine breite
Hundenase und ungeheure Ohren.
120 (S. 79): „Beichte.”
121 (S. 79): Es war aber nicht das erstemal. Der junge Freiwillige im Kaukasus,
der Offizier von Sewastopol, Olenin in den „Kosaken”, Fürst Andrej und Peter
Besukow in „Krieg und Frieden” hatten ähnliche Erscheinungen gehabt. Aber
Tolstoi war so von Leidenschaft erfaßt, daß er jedesmal, wenn er Gott entdeckte,
glaubte, es sei das erstemal und es habe vorher nur Nacht und Nichts um ihn
geherrscht. Er sah in seiner Vergangenheit nur Dunkel und Schande. Wir, die wir
aus seinem Tagebuche die Geschichte seines Herzens besser kennen als er selbst,
wissen, wie tief religiös dieses Herz immer, selbst in seinen Verirrungen, gewesen
ist. Er gibt es übrigens an einer Stelle der Vorrede zur „Kritik der dogmatischen
Theologie” zu, wo er sagt: „Gott! Gott! ich habe geirrt, ich habe die Wahrheit
gesucht, auch wo es nicht nötig war. Ich wußte, daß ich irrte. Ich schmeichelte
meinen bösen Leidenschaften, die ich als böse erkannt hatte, — aber ich vergaß
dich nie. Ich habe dich immer gefühlt, selbst wenn ich mich verirrte.” — Die Krisis
von 1878/79 war nur heftiger als die früheren, vielleicht unter dem Einfluß der
wiederholten Trauerfälle und des herannahenden Alters. Und das einzig Neue an
ihr lag darin, daß, während früher die Erscheinung Gottes sich verflüchtigte, ohne
Spuren zu hinterlassen, sobald die Flamme der Verzückung erloschen war, sich nun
Tolstoi, belehrt durch die frühere Erfahrung, beeilte, den „Weg zu gehen, solange
das Licht leuchtete”, und ein ganzes Lebenssystem aus seinem Glauben
abzuleiten. Auch das hatte er vielleicht schon einmal versucht (man erinnere sich
an seine „Lebensregeln”, die er als Student aufgestellt hatte), aber mit seinen
fünfzig Jahren lief er weniger Gefahr, sich durch die Leidenschaften von dem
eingeschlagenen Weg abbringen zu lassen.
122 (S. 79): Der Untertitel der „Beichte” lautet „Einführung in die Kritik der
dogmatischen Theologie und die Prüfung der christlichen Doktrin”.
123 (S. 80): „Ich, der ich Wahrheit und Liebe einander gleichstelle, war betroffen
von der Tatsache, daß die Religion selbst zerstörte, was sie aufbauen wollte.”
(„Beichte”)
124 (S. 80): „Und ich habe mich davon überzeugt, daß die Lehre der Kirche
theoretisch eine arglistige und schädliche Lüge und praktisch eine Mischung aus
schlimmstem Aberglauben und Zauberkünsten ist, worunter der Sinn der
christlichen Lehre gänzlich verschwunden ist.” (Antwort an den Heiligen Synod
vom 4.-17. April 1901.) — Siehe auch „Kirche und Staat” (1883). — Das schwerste
Verbrechen, das Tolstoi der Kirche vorwirft, ist ihre „gottlose Allianz” mit der
weltlichen Macht. Sie habe dadurch die Heiligkeit des Staates und die Heiligkeit
der Gewalt bestätigt. Es sei ein Bündnis von Räubern und Lügnern.
125 (S. 81): In dem Maße, als er älter wurde, verstärkte sich dieses Gefühl von
der Einheit der religiösen Wahrheit im Verlauf der Geschichte der Menschheit und
der Verwandtschaft Christi mit den anderen Weisen seit Buddha bis zu Kant und
Emerson derart, daß Tolstoi sich in den letzten Lebensjahren dagegen verwahrte,
„eine besondere Vorliebe für das Christentum” zu haben. In diesem Sinne ist von
ganz besonderer Wichtigkeit ein Brief, den er zwischen dem 27. Juli und dem 9.
August 1909 an den Maler Jan Styka schrieb. Seiner Gewohnheit gemäß neigt
Tolstoi, wenn er von seiner neuen Überzeugung ganz erfüllt ist, dazu, etwas gar zu
sehr seinen früheren Seelenzustand und den rein christlichen Ausgangspunkt
seiner religiösen Krisis zu vergessen: „Die Lehre Christi”, schrieb er, „ist für mich
nur eine der schönen religiösen Doktrinen, die wir aus dem ägyptischen,
jüdischen, indischen, chinesischen, griechischen Altertum übernommen haben. Die
beiden großen Prinzipien Jesu: die Liebe Gottes, d. h. die absolute Vollendung,
und die Liebe zum Nächsten, d. h. zu allen Menschen ohne irgendeine Ausnahme,
sind von allen Weisen der Welt gepredigt worden: von Krischna, Buddha, Lao Tse,
Konfuzius, Sokrates, Plato, Epiktet, Mark Aurel, und unter den modernen: von
Rousseau, Pascal, Kant, Emerson, Channing und vielen anderen. Die religiöse und
moralische Wahrheit ist überall und immer die gleiche... Ich habe keinerlei Vorliebe
Welcome to our website – the perfect destination for book lovers and
knowledge seekers. We believe that every book holds a new world,
offering opportunities for learning, discovery, and personal growth.
That’s why we are dedicated to bringing you a diverse collection of
books, ranging from classic literature and specialized publications to
self-development guides and children's books.

More than just a book-buying platform, we strive to be a bridge


connecting you with timeless cultural and intellectual values. With an
elegant, user-friendly interface and a smart search system, you can
quickly find the books that best suit your interests. Additionally,
our special promotions and home delivery services help you save time
and fully enjoy the joy of reading.

Join us on a journey of knowledge exploration, passion nurturing, and


personal growth every day!

ebookbell.com

You might also like