100% found this document useful (4 votes)
53 views44 pages

(Ebook PDF) Data Mining For Business Analytics: Concepts, Techniques, and Applications in RPDF Download

The document provides links to various eBooks on data mining and business analytics, including titles that focus on applications in R, JMP Pro, and XLMiner. It outlines the contents of a specific eBook, 'Data Mining for Business Analytics: Concepts, Techniques, and Applications in R,' detailing its chapters and topics related to business analytics and data mining processes. Additionally, it promotes other related eBooks available for download on the same website.

Uploaded by

jhefdodos
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (4 votes)
53 views44 pages

(Ebook PDF) Data Mining For Business Analytics: Concepts, Techniques, and Applications in RPDF Download

The document provides links to various eBooks on data mining and business analytics, including titles that focus on applications in R, JMP Pro, and XLMiner. It outlines the contents of a specific eBook, 'Data Mining for Business Analytics: Concepts, Techniques, and Applications in R,' detailing its chapters and topics related to business analytics and data mining processes. Additionally, it promotes other related eBooks available for download on the same website.

Uploaded by

jhefdodos
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 44

(eBook PDF) Data Mining for Business Analytics:

Concepts, Techniques, and Applications in R


download

https://ebookluna.com/product/ebook-pdf-data-mining-for-business-
analytics-concepts-techniques-and-applications-in-r/

Download more ebook from https://ebookluna.com


We believe these products will be a great fit for you. Click
the link to download now, or visit ebookluna.com
to discover even more!

(eBook PDF) Data Mining for Business Analytics: Concepts, Techniques, and
Applications with JMP Pro

https://ebookluna.com/product/ebook-pdf-data-mining-for-business-analytics-
concepts-techniques-and-applications-with-jmp-pro/

(eBook PDF) Data Mining for Business Analytics: Concepts, Techniques, and
Applications with XLMiner 3rd Edition

https://ebookluna.com/product/ebook-pdf-data-mining-for-business-analytics-
concepts-techniques-and-applications-with-xlminer-3rd-edition/

(eBook PDF) Data Mining Concepts and Techniques 3rd

https://ebookluna.com/product/ebook-pdf-data-mining-concepts-and-
techniques-3rd/

(eBook PDF) Data Mining and Predictive Analytics 2nd Edition

https://ebookluna.com/product/ebook-pdf-data-mining-and-predictive-
analytics-2nd-edition/
Highway Safety Analytics and Modeling: Techniques and Methods for Analyzing
Crash Data 1st edition - eBook PDF

https://ebookluna.com/download/highway-safety-analytics-and-modeling-
techniques-and-methods-for-analyzing-crash-data-ebook-pdf/

(eBook PDF) Introduction to Business Data Mining 1st Edition

https://ebookluna.com/product/ebook-pdf-introduction-to-business-data-
mining-1st-edition/

(eBook PDF) Handbook of Statistical Analysis and Data Mining Applications


2nd Edition

https://ebookluna.com/product/ebook-pdf-handbook-of-statistical-analysis-
and-data-mining-applications-2nd-edition/

(eBook PDF) Business Statistics in Practice Using Data, Modeling Analytics


8th

https://ebookluna.com/product/ebook-pdf-business-statistics-in-practice-
using-data-modeling-analytics-8th/

Modern Business Analytics: Practical Data Science for Decision-making -


eBook PDF

https://ebookluna.com/download/modern-business-analytics-practical-data-
science-for-decision-making-ebook-pdf/
Contents

Foreword by Gareth James xix

Foreword by Ravi Bapna xxi

Preface to the R Edition xxiii

Acknowledgments xxvii

PART I PR EL I MI N A RI ES
CHAPTER 1 Introduction 3

1.1 What Is Business Analytics? . . . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 What Is Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Data Mining and Related Terms . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Data Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Why Are There So Many Different Methods? . . . . . . . . . . . . . . . . . . . 8
1.7 Terminology and Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.8 Road Maps to This Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Order of Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

CHAPTER 2 Overview of the Data Mining Process 15

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Core Ideas in Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Association Rules and Recommendation Systems . . . . . . . . . . . . . . . . . 16
Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Data Reduction and Dimension Reduction . . . . . . . . . . . . . . . . . . . . 17
Data Exploration and Visualization . . . . . . . . . . . . . . . . . . . . . . . . 17
Supervised and Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . 18
2.3 The Steps in Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Preliminary Steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Organization of Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Predicting Home Values in the West Roxbury Neighborhood . . . . . . . . . . . 21

vii
viii CONTENTS

Loading and Looking at the Data in R . . . . . . . . . . . . . . . . . . . . . . 22


Sampling from a Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Oversampling Rare Events in Classification Tasks . . . . . . . . . . . . . . . . . 25
Preprocessing and Cleaning the Data . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Predictive Power and Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 33
Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Creation and Use of Data Partitions . . . . . . . . . . . . . . . . . . . . . . . 35
2.6 Building a Predictive Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Modeling Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Using R for Data Mining on a Local Machine . . . . . . . . . . . . . . . . . . . 43
2.8 Automating Data Mining Solutions . . . . . . . . . . . . . . . . . . . . . . . . 43
Data Mining Software: The State of the Market (by Herb Edelstein) . . . . . . . . 45
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

PART II DATA EX P LO RATI ON AND DIMENSION REDUCTION


CHAPTER 3 Data Visualization 55

3.1 Uses of Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55


Base R or ggplot? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 Data Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Example 1: Boston Housing Data . . . . . . . . . . . . . . . . . . . . . . . . 57
Example 2: Ridership on Amtrak Trains . . . . . . . . . . . . . . . . . . . . . . 59
3.3 Basic Charts: Bar Charts, Line Graphs, and Scatter Plots . . . . . . . . . . . . . 59
Distribution Plots: Boxplots and Histograms . . . . . . . . . . . . . . . . . . . 61
Heatmaps: Visualizing Correlations and Missing Values . . . . . . . . . . . . . . 64
3.4 Multidimensional Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Adding Variables: Color, Size, Shape, Multiple Panels, and Animation . . . . . . . 67
Manipulations: Rescaling, Aggregation and Hierarchies, Zooming, Filtering . . . . 70
Reference: Trend Lines and Labels . . . . . . . . . . . . . . . . . . . . . . . . 74
Scaling up to Large Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Multivariate Plot: Parallel Coordinates Plot . . . . . . . . . . . . . . . . . . . . 75
Interactive Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5 Specialized Visualizations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Visualizing Networked Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Visualizing Hierarchical Data: Treemaps . . . . . . . . . . . . . . . . . . . . . 82
Visualizing Geographical Data: Map Charts . . . . . . . . . . . . . . . . . . . . 83
3.6 Summary: Major Visualizations and Operations, by Data Mining Goal . . . . . . . 86
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Time Series Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

CHAPTER 4 Dimension Reduction 91

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2 Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
CONTENTS ix

4.3 Practical Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92


Example 1: House Prices in Boston . . . . . . . . . . . . . . . . . . . . . . . 93
4.4 Data Summaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Summary Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Aggregation and Pivot Tables . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.6 Reducing the Number of Categories in Categorical Variables . . . . . . . . . . . 99
4.7 Converting a Categorical Variable to a Numerical Variable . . . . . . . . . . . . 99
4.8 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Example 2: Breakfast Cereals . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Principal Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Normalizing the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Using Principal Components for Classification and Prediction . . . . . . . . . . . 109
4.9 Dimension Reduction Using Regression Models . . . . . . . . . . . . . . . . . . 111
4.10 Dimension Reduction Using Classification and Regression Trees . . . . . . . . . . 111
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

PART III PER F ORM AN CE EVALUATION

CHAPTER 5 Evaluating Predictive Performance 117

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117


5.2 Evaluating Predictive Performance . . . . . . . . . . . . . . . . . . . . . . . . 118
Naive Benchmark: The Average . . . . . . . . . . . . . . . . . . . . . . . . . 118
Prediction Accuracy Measures . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Comparing Training and Validation Performance . . . . . . . . . . . . . . . . . 121
Lift Chart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3 Judging Classifier Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Benchmark: The Naive Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Class Separation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
The Confusion (Classification) Matrix . . . . . . . . . . . . . . . . . . . . . . . 124
Using the Validation Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Accuracy Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Propensities and Cutoff for Classification . . . . . . . . . . . . . . . . . . . . . 127
Performance in Case of Unequal Importance of Classes . . . . . . . . . . . . . . 131
Asymmetric Misclassification Costs . . . . . . . . . . . . . . . . . . . . . . . . 133
Generalization to More Than Two Classes . . . . . . . . . . . . . . . . . . . . . 135
5.4 Judging Ranking Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Lift Charts for Binary Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Decile Lift Charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Beyond Two Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Lift Charts Incorporating Costs and Benefits . . . . . . . . . . . . . . . . . . . 139
Lift as a Function of Cutoff . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.5 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Oversampling the Training Set . . . . . . . . . . . . . . . . . . . . . . . . . . 144
x CONTENTS

Evaluating Model Performance Using a Non-oversampled Validation Set . . . . . . 144


Evaluating Model Performance if Only Oversampled Validation Set Exists . . . . . 144
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

PART IV PR ED I CT I ON AN D CLASSIFICATION METHODS


CHAPTER 6 Multiple Linear Regression 153

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153


6.2 Explanatory vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . . 154
6.3 Estimating the Regression Equation and Prediction . . . . . . . . . . . . . . . . 156
Example: Predicting the Price of Used Toyota Corolla Cars . . . . . . . . . . . . 156
6.4 Variable Selection in Linear Regression . . . . . . . . . . . . . . . . . . . . . 161
Reducing the Number of Predictors . . . . . . . . . . . . . . . . . . . . . . . 161
How to Reduce the Number of Predictors . . . . . . . . . . . . . . . . . . . . . 162
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

CHAPTER 7 k-Nearest Neighbors (kNN) 173

7.1 The k-NN Classifier (Categorical Outcome) . . . . . . . . . . . . . . . . . . . . 173


Determining Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Classification Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Example: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Choosing k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Setting the Cutoff Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
k-NN with More Than Two Classes . . . . . . . . . . . . . . . . . . . . . . . . 180
Converting Categorical Variables to Binary Dummies . . . . . . . . . . . . . . . 180
7.2 k-NN for a Numerical Outcome . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.3 Advantages and Shortcomings of k-NN Algorithms . . . . . . . . . . . . . . . . 182
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

CHAPTER 8 The Naive Bayes Classifier 187

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187


Cutoff Probability Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Example 1: Predicting Fraudulent Financial Reporting . . . . . . . . . . . . . . 188
8.2 Applying the Full (Exact) Bayesian Classifier . . . . . . . . . . . . . . . . . . . 189
Using the “Assign to the Most Probable Class” Method . . . . . . . . . . . . . . 190
Using the Cutoff Probability Method . . . . . . . . . . . . . . . . . . . . . . . 190
Practical Difficulty with the Complete (Exact) Bayes Procedure . . . . . . . . . . 190
Solution: Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
The Naive Bayes Assumption of Conditional Independence . . . . . . . . . . . . 192
Using the Cutoff Probability Method . . . . . . . . . . . . . . . . . . . . . . . 192
Example 2: Predicting Fraudulent Financial Reports, Two Predictors . . . . . . . 193
Example 3: Predicting Delayed Flights . . . . . . . . . . . . . . . . . . . . . . 194
8.3 Advantages and Shortcomings of the Naive Bayes Classifier . . . . . . . . . . . 199
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
CONTENTS xi

CHAPTER 9 Classification and Regression Trees 205

9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205


9.2 Classification Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Recursive Partitioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Example 1: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Measures of Impurity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Tree Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Classifying a New Record . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.3 Evaluating the Performance of a Classification Tree . . . . . . . . . . . . . . . . 215
Example 2: Acceptance of Personal Loan . . . . . . . . . . . . . . . . . . . . . 215
9.4 Avoiding Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
Stopping Tree Growth: Conditional Inference Trees . . . . . . . . . . . . . . . . 221
Pruning the Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Best-Pruned Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
9.5 Classification Rules from Trees . . . . . . . . . . . . . . . . . . . . . . . . . . 226
9.6 Classification Trees for More Than Two Classes . . . . . . . . . . . . . . . . . . 227
9.7 Regression Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Measuring Impurity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Evaluating Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
9.8 Improving Prediction: Random Forests and Boosted Trees . . . . . . . . . . . . 229
Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Boosted Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
9.9 Advantages and Weaknesses of a Tree . . . . . . . . . . . . . . . . . . . . . . 232
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

CHAPTER 10 Logistic Regression 237

10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237


10.2 The Logistic Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . 239
10.3 Example: Acceptance of Personal Loan . . . . . . . . . . . . . . . . . . . . . . 240
Model with a Single Predictor . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Estimating the Logistic Model from Data: Computing Parameter Estimates . . . . 243
Interpreting Results in Terms of Odds (for a Profiling Goal) . . . . . . . . . . . . 244
10.4 Evaluating Classification Performance . . . . . . . . . . . . . . . . . . . . . . 247
Variable Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
10.5 Example of Complete Analysis: Predicting Delayed Flights . . . . . . . . . . . . 250
Data Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Model-Fitting and Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 254
Model Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
Model Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
Variable Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
10.6 Appendix: Logistic Regression for Profiling . . . . . . . . . . . . . . . . . . . . 259
Appendix A: Why Linear Regression Is Problematic for a Categorical Outcome . . . 259
xii CONTENTS

Appendix B: Evaluating Explanatory Power . . . . . . . . . . . . . . . . . . . . 261


Appendix C: Logistic Regression for More Than Two Classes . . . . . . . . . . . . 264
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

CHAPTER 11 Neural Nets 271

11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271


11.2 Concept and Structure of a Neural Network . . . . . . . . . . . . . . . . . . . . 272
11.3 Fitting a Network to Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Example 1: Tiny Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Computing Output of Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Preprocessing the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Training the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
Example 2: Classifying Accident Severity . . . . . . . . . . . . . . . . . . . . . 282
Avoiding Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Using the Output for Prediction and Classification . . . . . . . . . . . . . . . . 283
11.4 Required User Input . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
11.5 Exploring the Relationship Between Predictors and Outcome . . . . . . . . . . . 287
11.6 Advantages and Weaknesses of Neural Networks . . . . . . . . . . . . . . . . . 288
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

CHAPTER 12 Discriminant Analysis 293

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293


Example 1: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
Example 2: Personal Loan Acceptance . . . . . . . . . . . . . . . . . . . . . . 294
12.2 Distance of a Record from a Class . . . . . . . . . . . . . . . . . . . . . . . . 296
12.3 Fisher’s Linear Classification Functions . . . . . . . . . . . . . . . . . . . . . . 297
12.4 Classification Performance of Discriminant Analysis . . . . . . . . . . . . . . . 300
12.5 Prior Probabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
12.6 Unequal Misclassification Costs . . . . . . . . . . . . . . . . . . . . . . . . . 302
12.7 Classifying More Than Two Classes . . . . . . . . . . . . . . . . . . . . . . . . 303
Example 3: Medical Dispatch to Accident Scenes . . . . . . . . . . . . . . . . . 303
12.8 Advantages and Weaknesses . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307

CHAPTER 13 Combining Methods: Ensembles and Uplift Modeling 311

13.1 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311


Why Ensembles Can Improve Predictive Power . . . . . . . . . . . . . . . . . . 312
Simple Averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Bagging and Boosting in R . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Advantages and Weaknesses of Ensembles . . . . . . . . . . . . . . . . . . . . 315
13.2 Uplift (Persuasion) Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A-B Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
CONTENTS xiii

Uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Gathering the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
A Simple Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Modeling Individual Uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Computing Uplift with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
Using the Results of an Uplift Model . . . . . . . . . . . . . . . . . . . . . . . 322
13.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

PART V MI N I N G RE LATI ON SH I PS AMON G RE CORDS


CHAPTER 14 Association Rules and Collaborative Filtering 329

14.1 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329


Discovering Association Rules in Transaction Databases . . . . . . . . . . . . . 330
Example 1: Synthetic Data on Purchases of Phone Faceplates . . . . . . . . . . 330
Generating Candidate Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
The Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Selecting Strong Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Data Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
The Process of Rule Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 336
Interpreting the Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
Rules and Chance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Example 2: Rules for Similar Book Purchases . . . . . . . . . . . . . . . . . . . 340
14.2 Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Data Type and Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Example 3: Netflix Prize Contest . . . . . . . . . . . . . . . . . . . . . . . . . 343
User-Based Collaborative Filtering: “People Like You” . . . . . . . . . . . . . . 344
Item-Based Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . 347
Advantages and Weaknesses of Collaborative Filtering . . . . . . . . . . . . . . 348
Collaborative Filtering vs. Association Rules . . . . . . . . . . . . . . . . . . . 349
14.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

CHAPTER 15 Cluster Analysis 357

15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357


Example: Public Utilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
15.2 Measuring Distance Between Two Records . . . . . . . . . . . . . . . . . . . . 361
Euclidean Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Normalizing Numerical Measurements . . . . . . . . . . . . . . . . . . . . . . 362
Other Distance Measures for Numerical Data . . . . . . . . . . . . . . . . . . . 362
Distance Measures for Categorical Data . . . . . . . . . . . . . . . . . . . . . . 365
Distance Measures for Mixed Data . . . . . . . . . . . . . . . . . . . . . . . . 366
15.3 Measuring Distance Between Two Clusters . . . . . . . . . . . . . . . . . . . . 366
Minimum Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
Maximum Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
xiv CONTENTS

Average Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367


Centroid Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.4 Hierarchical (Agglomerative) Clustering . . . . . . . . . . . . . . . . . . . . . 368
Single Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
Complete Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
Average Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
Centroid Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
Ward’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
Dendrograms: Displaying Clustering Process and Results . . . . . . . . . . . . . 371
Validating Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
Limitations of Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . 375
15.5 Non-Hierarchical Clustering: The k-Means Algorithm . . . . . . . . . . . . . . . 376
Choosing the Number of Clusters (k) . . . . . . . . . . . . . . . . . . . . . . . 377
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382

PART VI F O RE CA ST I NG TI ME SERIES

CHAPTER 16 Handling Time Series 387

16.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387


16.2 Descriptive vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . . 389
16.3 Popular Forecasting Methods in Business . . . . . . . . . . . . . . . . . . . . . 389
Combining Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
16.4 Time Series Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
Example: Ridership on Amtrak Trains . . . . . . . . . . . . . . . . . . . . . . . 390
16.5 Data-Partitioning and Performance Evaluation . . . . . . . . . . . . . . . . . . 395
Benchmark Performance: Naive Forecasts . . . . . . . . . . . . . . . . . . . . 395
Generating Future Forecasts . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398

CHAPTER 17 Regression-Based Forecasting 401

17.1 A Model with Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401


Linear Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
Exponential Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Polynomial Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
17.2 A Model with Seasonality . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
17.3 A Model with Trend and Seasonality . . . . . . . . . . . . . . . . . . . . . . . 411
17.4 Autocorrelation and ARIMA Models . . . . . . . . . . . . . . . . . . . . . . . . 412
Computing Autocorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
Improving Forecasts by Integrating Autocorrelation Information . . . . . . . . . 416
Evaluating Predictability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
CONTENTS xv

CHAPTER 18 Smoothing Methods 433

18.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433


18.2 Moving Average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
Centered Moving Average for Visualization . . . . . . . . . . . . . . . . . . . . 434
Trailing Moving Average for Forecasting . . . . . . . . . . . . . . . . . . . . . 435
Choosing Window Width (w) . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
18.3 Simple Exponential Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . 439
Choosing Smoothing Parameter α . . . . . . . . . . . . . . . . . . . . . . . . 440
Relation Between Moving Average and Simple Exponential Smoothing . . . . . . 440
18.4 Advanced Exponential Smoothing . . . . . . . . . . . . . . . . . . . . . . . . 442
Series with a Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
Series with a Trend and Seasonality . . . . . . . . . . . . . . . . . . . . . . . 443
Series with Seasonality (No Trend) . . . . . . . . . . . . . . . . . . . . . . . . 443
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

PART VII DATA AN ALYTI CS


CHAPTER 19 Social Network Analytics 455

19.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455


19.2 Directed vs. Undirected Networks . . . . . . . . . . . . . . . . . . . . . . . . 457
19.3 Visualizing and Analyzing Networks . . . . . . . . . . . . . . . . . . . . . . . 458
Graph Layout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Edge List . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
Adjacency Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
Using Network Data in Classification and Prediction . . . . . . . . . . . . . . . 461
19.4 Social Data Metrics and Taxonomy . . . . . . . . . . . . . . . . . . . . . . . . 462
Node-Level Centrality Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Egocentric Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Network Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
19.5 Using Network Metrics in Prediction and Classification . . . . . . . . . . . . . . 467
Link Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Entity Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
19.6 Collecting Social Network Data with R . . . . . . . . . . . . . . . . . . . . . . 471
19.7 Advantages and Disadvantages . . . . . . . . . . . . . . . . . . . . . . . . . 474
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476

CHAPTER 20 Text Mining 479

20.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479


20.2 The Tabular Representation of Text: Term-Document Matrix and “Bag-of-Words” . 480
20.3 Bag-of-Words vs. Meaning Extraction at Document Level . . . . . . . . . . . . . 481
20.4 Preprocessing the Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
Tokenization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
Text Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
xvi CONTENTS

Presence/Absence vs. Frequency . . . . . . . . . . . . . . . . . . . . . . . . . 487


Term Frequency–Inverse Document Frequency (TF-IDF) . . . . . . . . . . . . . . 487
From Terms to Concepts: Latent Semantic Indexing . . . . . . . . . . . . . . . 488
Extracting Meaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
20.5 Implementing Data Mining Methods . . . . . . . . . . . . . . . . . . . . . . . 489
20.6 Example: Online Discussions on Autos and Electronics . . . . . . . . . . . . . . 490
Importing and Labeling the Records . . . . . . . . . . . . . . . . . . . . . . . 490
Text Preprocessing in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
Producing a Concept Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
Fitting a Predictive Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
20.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495

PART VIII CASE S


CHAPTER 21 Cases 499

21.1 Charles Book Club . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499


The Book Industry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
Database Marketing at Charles . . . . . . . . . . . . . . . . . . . . . . . . . . 500
Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
21.2 German Credit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
21.3 Tayko Software Cataloger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
The Mailing Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
21.4 Political Persuasion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513
Predictive Analytics Arrives in US Politics . . . . . . . . . . . . . . . . . . . . 513
Political Targeting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
Uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
21.5 Taxi Cancellations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Business Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
21.6 Segmenting Consumers of Bath Soap . . . . . . . . . . . . . . . . . . . . . . . 518
Business Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
Key Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
CONTENTS xvii

Measuring Brand Loyalty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519


Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
21.7 Direct-Mail Fundraising . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
21.8 Catalog Cross-Selling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
21.9 Predicting Bankruptcy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
Predicting Corporate Bankruptcy . . . . . . . . . . . . . . . . . . . . . . . . . 525
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
21.10 Time Series Case: Forecasting Public Transportation Demand . . . . . . . . . . . 528
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
Problem Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
Available Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
Assignment Goal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
Tips and Suggested Steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529

References 531

Data Files Used in the Book 533

Index 535
Foreword by Gareth James

he field of statistics has existed in one form or another for 200 years, and by
T the second half of the 20th century had evolved into a well-respected and
essential academic discipline. However, its prominence expanded rapidly in the
1990s with the explosion of new, and enormous, data sources. For the first part
of this century, much of this attention was focused on biological applications,
in particular, genetics data generated as a result of the sequencing of the human
genome. However, the last decade has seen a dramatic increase in the availability
of data in the business disciplines, and a corresponding interest in business-related
statistical applications.
The impact has been profound. Ten years ago, when I was able to attract a
full class of MBA students to my new statistical learning elective, my colleagues
were astonished because our department struggled to fill most electives. Today,
we offer a Masters in Business Analytics, which is the largest specialized masters
program in the school and has application volume rivaling those of our MBA
programs. Our department’s faculty size and course offerings have increased
dramatically, yet the MBA students are still complaining that the classes are all
full. Google’s chief economist, Hal Varian, was indeed correct in 2009 when he
stated that “the sexy job in the next 10 years will be statisticians.”
This demand is driven by a simple, but undeniable, fact. Business analyt-
ics solutions have produced significant and measurable improvements in business
performance, on multiple dimensions and in numerous settings, and as a result,
there is a tremendous demand for individuals with the requisite skill set. How-
ever, training students in these skills is challenging given that, in addition to
the obvious required knowledge of statistical methods, they need to understand
business-related issues, possess strong communication skills, and be comfortable
dealing with multiple computational packages. Most statistics texts concentrate
on abstract training in classical methods, without much emphasis on practical,
let alone business, applications.
This book has by far the most comprehensive review of business analytics
methods that I have ever seen, covering everything from classical approaches
such as linear and logistic regression, through to modern methods like neural

xix
Discovering Diverse Content Through
Random Scribd Documents
venger l'objet de ses dernières amours, elle prétendit exercer
féodalement le droit de haute justice dans sa maison; elle condamna
le coupable à mort et le fit décapiter sans désemparer, sous ses yeux
affamés de sang, devant le populaire assemblé dans le carrefour, sur
la porte même de l'hôtel de Sens.

La fraise collerette.
VI

HENRI IV ET LOUIS XIII

Retour à une simplicité relative.—Les femmes-tours.—


Hautes coiffures.—Excommunication du décolletage.—Les
robes à grands ramages de fleurs.—Collets montés et
collets rabattus.—Tailles longues.—Les édits de Richelieu.
—La dame suivant l'édit.—Tailles courtes.

Il y a des siècles qui ont la vie dure, et d'autres qui meurent


avant l'âge, le XVIe siècle, de complexion sans doute particulièrement
robuste, se prolongea jusqu'à la fin du règne du Béarnais, avec ses
idées et ses mœurs, ses façons et ses modes. On verra plus tard le
XVIIe durer de même avec Louis XIV au détriment du XVIIIe, et ce
pauvre et charmant XVIIIe finir tristement avant l'âge, de mort subite
en l'année 89.

Ces années de grâce du XVIe siècle sous le sceptre du roi Henri,


sont une convalescence après les longues années de fièvre chaude;
la France, que la maladie a mise si bas, renaît, le poison qu'elle avait
dans les veines est expulsé, tout se répare, se nettoie et s'assainit.
Après les raffinements ridicules et maladifs du règne de Henri III,
le costume prend un caractère sans façon, un aspect de bonne et
simple franchise, s'il peut y avoir de la franchise dans le costume.
C'est cependant presque le même costume, mais simplifié dans les
lignes et débarrassé de ce qu'il avait de surabondant et de trop
cherché dans les détails.
Les modes sont moins élégantes, certainement, celles des
femmes comme celles des hommes; elles ont bien des ridicules
aussi, mais ce sont des ridicules naïfs. On est sorti de la prétention
excessive, de la grâce raffinée et corrompue; en allant dans la
simplicité, on est tombé dans la lourdeur et la gaucherie, pourtant
de cette lourdeur inélégante mais saine, se dégagera bientôt la
grâce cavalière du costume Louis XIII. Il ne faut cependant pas
prendre ce mot simplicité au pied de la lettre: hâtons-nous de dire
que cette simplicité n'est que très relative.
Les jours d'apparat, les dames arboraient encore la même
quantité de joailleries et de pierreries que par le passé. La reine qui
a remplacé Marguerite de Valois après le divorce,—une deuxième
alliance Médicis qui ne paraît pas avoir trop réussi au Béarnais, bien
payé déjà pour se souvenir de Catherine—la reine de la main droite
Marie de Médicis et la reine du côté cœur Gabrielle d'Estrées,
duchesse de Verneuil, et les autres belles dames, se montraient
«aux fêtes, ballets, mascarades et collations, richement parées et
magnifiquement atournées et si fort chargées de pierres et pierreries
qu'elles ne pouvaient se remuer».
La reine montra lors d'une grande occasion, une robe, «étoffée
de trente-deux mille perles et trois mille diamants,» et à son
exemple les grandes dames et les dames de moyenne étoffe
dépensaient volontiers plus que leurs revenus, en somptuosités, en
habillements de brocart, satins, damas admirables, ramagés et
passementés d'or, chargés et surchargés de clinquant et de
joailleries diverses.
Voilà une bien étrange simplicité, et pourtant quand on examine
tableaux et estampes du temps, ces documents n'en montrent pas
moins une grande différence entre les suprêmes raffinements des
modes de Henri III et l'élégance un peu mastoque du temps de
Henri IV.
Les coiffures sont plus hautes, les têtes se surchargent de
cheveux achetés chez le coiffeur, à la couleur à la mode.
Pour un temps les perruques des règnes de Louis XIV et Louis XV
apparaissent, mais sur la tête des dames: perruques brunes ou
blondes, perruques de simple filasse même, pour celles qui ne
pouvaient s'offrir mieux. Et avec les perruques la poudre aussi se
montre. C'est plutôt un empois mélangeant la pommade aux
poudres les plus diverses, depuis les fines poudres parfumées à la
violette et à l'iris, jusqu'à la poudre de chêne pourri, et à la simple
farine pour les naïves campagnardes.
Ce temps voit aussi éclore les mouches qui reparaîtront
également au XVIIIe siècle, mais ce sont d'abord des mouches larges
comme des emplâtres et d'un aspect moins séduisant que les
coquettes «assassines» de plus tard.
Les femmes du peuple et de la petite bourgeoisie ont gardé
l'ancien chaperon, coiffure modeste, pendant que les femmes de la
haute classe, coiffées en cheveux avec perles et bijoux, adoptent
pour sortir le chapeau ou la toque à petit bouquet de plumes.
Voici le portrait d'une dame à la mode:
En ces temps heureux de vivre et de respirer, après tant de
sombres années, une élégante est sanglée et comprimée dans un
corsage dur et rigide, fortement armé de baleines, une véritable
gaine descendant tout d'une pièce, sans indication de modelé, en
longue pointe sur la jupe.
Toilette de Cour Henri IV.

Il faut dire qu'on se rattrape de cette mise à la gehenne par le


décolletage du corsage, très libéralement échancré en pointe aussi,
trop libéralement même, puisque Sa Sainteté le Pape se croit obligé
d'intervenir et menace d'excommunication les belles qui continueront
à se décolleter dans des proportions exagérées.
DAME LOUIS XIII.

Cette menace d'excommunication—amende à payer seulement


là-haut—n'a pas beaucoup d'effet, et les grandes fraises, les collets
montés de magnifiques dentelles soutenues de fils d'archal,
continuent à encadrer les opulences du corsage. La fine dentelle va
si bien autour de la chair, elle fait si bien ressortir les épaules et les
épaules font si bien valoir les merveilles des points de Venise ou de
Flandre, cette délicate et si artistique orfèvrerie à l'aiguille!
La belle Gabrielle.

D'énormes manches qui ne sont pas des manches tiennent au


corsage. Ce sont des ailes ouvertes fendues dès l'épaule, descendant
très bas, garnies de boutons serrés qui ne se boutonnent pas. La
vraie manche paraît en dessous, toujours rembourrée et remontante
aux épaules, terminée par des poignets en dentelles appelés rebras.
Les jupes sont moins ballonnées que jadis, le vertugadin est plus
modeste, c'est une simple cloche lourde et tombant droit, ou plutôt
cela ressemble à la grosse caisse bariolée d'un bataillon de Suisses,
mais les hanches sont renflées en coupole et accusées de façon
grotesque par un rang de tuyaux godronnés de la même étoffe que
la robe.
Il est assez difficile aux femmes d'avoir avec cela une démarche
élégante et légère; cependant les beautés de l'époque tiennent à ces
jupes et l'idéal de la grâce est d'affecter en marchant un
dandinement de canard pour leur donner un balancement
rythmique.
Une dame élégante a sous la robe trois autres jupes qu'elle doit
montrer en se retroussant élégamment, trois autres jupes
d'ornementation et de couleurs différentes.
Dans la liste des étoffes et des couleurs à la mode, elle a de quoi
choisir, nous avons alors une série de noms aussi drolatiques que
ceux inventés plus tard par le capricieux XVIIIe siècle.
Couleur triste amie, ventre de biche, face grattée, couleur de rat,
fleur mourante, singe mourant, couleur de veuve réjouie, de temps
perdu, de trépassé revenu, Espagnol malade, péché mortel, jambon
commun, racleur de cheminée, etc.
Le temps de la régence de Marie de Médicis est une époque de
transition entre les modes du XVIe et celles du XVIIe siècles; le vrai
costume Louis XIII ne se dégagera complètement des derniers
vestiges des modes de la Renaissance que vers 1630, à l'époque des
édits réformateurs de Richelieu qui, prohibant draps et brocards d'or
et d'argent, broderies et passementeries de fils d'or, dentelles, points
coupés, forcèrent les élégants à se contenter d'étoffes et de lingeries
plus simples et induisirent les tailleurs de robes et d'habits à
chercher des formes nouvelles.
Pendant la première partie du règne, la mode se dégage
lentement de sa lourdeur, le vertugadin diminue peu à peu et le si
disgracieux renflement godronné au-dessus des hanches disparaît,
remplacé par un retroussis à grands plis de la jupe de dessus.
Le vertugadin humilié a passé la frontière, il règne en Espagne où
sous le nom de guarde infante, il prend de si colossales proportions
que l'autorité veut par des édits, comme en France, arrêter leur
développement. A l'amende s'ajoute la saisie et l'exposition publique
des objets prohibés. L'édit, sévèrement appliqué, suscita des
résistances violentes et des émeutes où le sang coula.
Le vertugadin eut la vie si longue de l'autre côté des Pyrénées
que les galants de la cour de Louis XIV le revirent avec surprise
porté par les dames de la cour espagnole lors de l'entrevue dans l'île
de la Conférence pour le mariage de Louis avec Marie-Thérèse.
En France, la recherche, la richesse et le faste, la multiplicité des
ornements, la surcharge de joaillerie se remettent à dominer dans la
mode et toutes les dames, même celles de la plus simple
bourgeoisie donnent dans l'abus des superfluités coûteuses et du
clinquant.

D'après Callot.

Comment «une galante femme en habits se comporte,» un poète


satirique va nous le dire:
Il lui faut des carcans, chaînes et bracelets,
Diamants, affiquets et montants de collets,
Pour charger un mulet, et voire davantage...
Il lui faut des rabats de la sorte que celles
Qui sont de cinq ou six villages damoiselles;
Cinq collets de dentelle haute de demi-pié
L'un sur l'autre montés...
Si les vertugadins ont diminué, les fraises ont plutôt gagné en
hauteur et développement; les grands portraits de Rubens et ensuite
ceux de Van Dick nous montrent ces fraises de la dernière période,
en demi-circonférences s'évasant derrière la tête.
Mais les estampes de Callot et d'Abraham Bosse vont nous
renseigner sur les modes parisiennes d'avant et d'après les édits de
Richelieu.
Callot qui avant 1630 a dessiné de sa merveilleuse pointe tant
d'élégants et pittoresques cavaliers en pourpoint de soie ou de
buffle, tant d'officiers en hongreline, à petites bottes et grandes
flamberges, de seigneurs bien XVIIe siècle, dans ces costumes si
charmants et d'une si jolie crânerie, portés avec tant de prestance et
de laisser-aller, a gravé aussi quelques costumes de femmes, qui,
bien que de la même époque sont encore un peu dans le style des
modes du siècle précédent.
Ces dames portent encore les robes à taille longue serrée dans le
corps piqué rigide, les manches à bourrelets avec crevés tailladés en
grande ou petite déchiquetade, de couleurs vives, les jupes relevées
sur le vertugadin rétréci.
Elles sont chaussées de souliers à pont-levis, avec attaches sur le
coup de pied, une mode nouvelle.
Les bourgeoises non plus que les dames ne vont
Nulle part maintenant, qu'avec soulier à pont,
Qui aye aux deux côtés une large ouverture
Pour faire voir leurs bas, et dessus pour parure
Un beau cordon de soie en nœud d'amour lié...
Ceci décrit suffisamment le soulier Louis XIII d'une si cavalière
élégance. Le Musée de Cluny dans sa riche collection de chaussures
en possède d'admirables, très découpés et décorés d'ornements
noirs sur le cuir fauve et d'autres plus simples avec le nœud de
rubans dit nœud d'amour.
Les découpures laissaient voir les bas de soie incarnat, couleur à
la mode; pour sortir on ajoutait à ces souliers des patins de velours
cramoisi à très hautes semelles.

Fraise Médicis.

Les gants des élégantes étaient non moins jolis, ornés de dessins
sur le dos et d'arabesques brodés sur le grand crispin emboîtant le
poignet.
FIN DU RÈGNE DE LOUIS XIII.

De vives chamarrures, de grands ramages de fleurs courent sur


toutes les robes comme ils couvrent toutes les étoffes du temps. Le
jardin des plantes, autrefois jardin du Roi, doit sa création à cette
mode; le noyau primitif fut sous Henri IV le jardin d'un horticulteur
avisé où toutes les sortes de plantes françaises ou étrangères étaient
cultivées en vue de fournir des modèles aux dessinateurs d'étoffes
ou de broderies.
Corsage Louis XIII.

Les coiffures varient. Longtemps à cause des grands collets des


fraises, elles sont restées très hautes, ondées ou frisées en bonnet
d'astrakan et ornées seulement de bijoux. Plus tard les fraises
s'abaissent tout à coup et se séparent en rabats de dentelle de point
coupé, rabattus sur l'échancrure carrée du corsage, et en collets
abaissés, sinon rabattus aussi.
La coiffure peut s'abaisser aussi avec ces fraises basses; on
forme un petit chignon dit culebutte derrière la tête et on encadre la
figure de jolies boucles tombantes ou frisées. Cette mode s'exagère
un peu, les femmes se font avec leur coiffure frisottée et les petites
mèches plaquées sur le front, une tête ronde comme une boule.
Viennent les édits de Richelieu qui veut empêcher l'or de France
de s'en aller, au détriment du commerce français, enrichir les
manufactures étrangères en achats de passementeries de soie de
Milan et de dentelles ou broderies, les édits qui prohibent ensuite les
galons et franges, parfilures et canetilles enrichies d'or et d'argent,
en ne permettant que les galons étroits de simple étoffe; le costume
va changer tout à coup,

Il faut serrer ces belles jupes


Qui brillent de clinquants divers.
On a pris les dames pour dupes,
Leurs habits n'en seront point couverts,

dit une dame dessinée par Abraham Bosse en 1634 après les édits et
la réformation du costume.
Bourgeoise Louis XIII.

Changement radical, plus de surcharge d'ornements, plus


d'étoffes à ramages, plus de fines dentelles de Venise ou de
Bruxelles. La dame suivant l'édit d'Abraham Bosse porte sur une jupe
plate, à plis tombant droit, sans le moindre soupçon de vertugade,
un corsage à basques, à taille très haute serrée par un simple ruban,
des manches larges, ouvertes sur une manche de dessous très
simple sans la moindre broderie ni garniture.
La grande fraise, le grand collet monté ou rabattu est remplacé
par un grand rabat de lingerie qui monte jusqu'au menton. Il n'y a
plus dans ce costume aucun reste des modes du XVIe siècle
définitivement trépassées.
Mais ce costume extrêmement simple, d'une sobriété qui touche
à l'austérité, restera celui des toutes petites bourgeoises, des bonnes
ménagères à qui les édits somptuaires ne causent pas grand souci ni
douleur; c'est en somme dans les grandes lignes, le costume actuel
des sœurs de Saint-Vincent de Paul, aux couleurs près.
Les belles dames vont prendre ce modeste costume d'après les
édits et le transformer bien vite et en faire un des ensembles les plus
élégants et les plus charmants que la mode ait inventés, un type
vraiment remarquable de haute distinction, juste au moment où le
costume masculin si dégagé, si cavalier des premiers temps de
Callot, va se modifier en mal, devenir lourd et guindé avec les
justaucorps à taille sous les bras et les hauts de chausses tombant
au mollet.

Fin du règne de Louis XIII.

La robe s'ouvre du haut en bas, laissant voir un devant de


corsage de satin clair orné d'aiguillettes et terminé en pointe
arrondie sur une jupe de dessous de soie ou satin mordoré. La robe
de dessus ainsi largement ouverte et assez longue, a tous ses plis
sur les côtés ou par derrière.
Les manches bouffantes sont coupées en minces bandes du haut
en bas, rattachées sur la saignée par un ruban ou simplement
ouvertes sur une riche manche de dessous et garnies sur l'ouverture
d'aiguillettes ou de nœuds de rubans.
Plus de collets montés, rien que des collets rabattus. Ces grands
collets et rabats de lingerie ont bien vite repris quelques riches
broderies, dont les pointes tombent maintenant très bas sur les
épaules et sur les bras, en même temps que de hautes manchettes
dentelées et découpées de la même broderie montent des poignets
jusqu'au coude.
Et touffes et bouffettes de rubans partout, rosettes au corsage;
guirlandes de rosettes à la ceinture, et colliers de perles tombant
dans le corsage, carcans de bijouterie serrés au cou, diamants et
pierres sur les aiguillettes et les ferrets. Voici la dame à la mode de
1635 qui s'en va promener ses riches atours à la Place Royale parmi
les galants à moustaches retroussées, qui papillonnent sous les
arcades.
Ce sera tout à l'heure le costume des héroïnes de la Fronde, des
duchesses liguées contre Mazarin, et cela deviendra en se modifiant
peu à peu le grand costume des fêtes éblouissantes de la cour de
Louis XIV.
Elégante Louis XIII.
Marion.
VII

SOUS LE ROI-SOLEIL

Les héroïnes de la Fronde.—De la Vallière à la Maintenon.—


Les robes dites transparentes.—Triomphe de la dentelle.—
Le roman de la mode.—Les Steinquerques.—La coiffure à
la Fontanges.—Le règne de Mme de Maintenon ou trente-
cinq ans de morosité.

Le règne du grand roi. Le règne des architectures étalant une


somptuosité d'apparat, une solennité majestueuse et le règne des
perruques également solennelles et majestueuses, des modes d'un
luxe écrasant, où la superbe écrase un peu l'élégance!
A LA COUR DU ROI-SOLEIL.

Le grand siècle! la grandeur poussée jusqu'au gonflement et la


splendeur jusqu'à la surcharge, la même lourde magnificence dans le
style des hôtels ou des palais, demeures des nobles seigneurs
emperruqués, dans le mobilier noble et pompeux que dans
l'habillement masculin et féminin et dans les fantaisies raffinées du
costume.
Le grand règne a un prologue légèrement agité, la Fronde, qui
donne occasion aux belles dames de faire un peu de galante
politique et de se donner une petite idée des émotions de leurs
grand'mères du temps de la Ligue. La mort a desserré la forte main
qui tenait les brides du royaume, Richelieu disparu, on peut
caracoler.
Et à l'exemple de messieurs les ducs, les héroïnes de la Fronde
ont caracolé! Ce commencement, quand le grand roi n'est encore
que le petit roi, a une jolie allure romanesque.

Mmes les Duchesses, Mme de Chevreuse, Mme de Montbazon,


Mme de Bouillon, Mme de Longueville et la duchesse de Montpensier,
Mademoiselle, la Grande Mademoiselle, petite-fille d'Henri IV, qui
aide à battre les soldats du roi à coups de canon, en attendant
qu'elle soit, à coups de canne, battue par son mari, le beau Lauzun
pris à défaut de Louis,—les belles et séduisantes rebelles aux libres
allures, aux beaux yeux et aux belles tailles sans aller jusqu'à la
casaque des gardes et la hongreline soldatesque, arborent avec
crânerie des costumes semi-militaires.
Pendant les années de troubles et d'émeutes, de guerre civile à
Paris et de cavalcades armées dans les provinces, n'assistent-elles
pas aux parades des troupes levées par les princes contre les
troupes du Roi, avec Condé ou contre Condé;—ces amazones, du
haut du perron de l'Hôtel de Ville, ne haranguent-elles pas les
Parisiens toujours en goût d'émeute, le populaire hérissé de vieilles
hallebardes et d'arquebuses ligueuses, ne passent-elles pas en revue
dans Paris un peu assiégé les forces de la Fronde, les milices
parisiennes qui traînent bruyamment ce qui reste du pittoresque
bric-à-brac guerrier du temps de M. de Guise, la Cavalerie des portes
cochères et le régiment de Corinthe de M. le Coadjuteur,—et ne
tirent-elles pas vaillamment, quand les affaires se gâtent, le canon
de la Bastille sur l'armée royale? Quel joli prétexte à modes
cavalières.
Tout est à la Fronde, les modes comme le reste. La mode pouvait
avoir quelque motif d'en vouloir au Mazarin qui renouvelait les édits
prohibitifs, ces éternels édits sans doute oubliés ou bravés aussitôt
que publiés et qu'il fallait renouveler toujours, frappant
alternativement les passementeries au profit des guipures, et les
guipures au bénéfice de passementeries.
Louis a grandi, il règne.
Mais le roi est jeune, le grand siècle songe à se divertir, il aime la
gloire, mais il aime aussi le plaisir. C'est sa première manière, plus
tard le siècle et le roi, vieillis tous deux, tout en gardant le culte de
la gloire, songeront à se repentir du plaisir.

Une Duchesse de la Fronde.


Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade

Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.

Let us accompany you on the journey of exploring knowledge and


personal growth!

ebookluna.com

You might also like