0% found this document useful (0 votes)

16 views

L5 Slides

The document describes XGBoost, an optimized gradient boosting library that provides a scalable, portable and distributed tree boosting system. XGBoost has been very successful and widely used in many machine learning competitions and applications due to its scalability, performance and accuracy. The document outlines the key algorithms and optimizations in XGBoost that contribute to its success.

Uploaded by

liuyaozhangruc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

L5 Slides

Uploaded by

liuyaozhangruc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 23

XGBoost: A Scalable Tree

Boosting System
Tianqi Chen and Carlos Guestrin, University of Washington
XGBoost

eXtreme Gradient Boosting

29 Kaggle challenges with winners in 2015
17 used XGBoost
8 of these solely used XGBoost; the others
combined XGBoost with DNNs
KDDCup 2015
Every single top 10 finisher used XGBoost
XGBoost Applications

Store sales prediction

High energy physics event classification
Web text classification
Customer behavior prediction
Motion detection
Ad click through rate prediction
Malware classification
Product categorization
Hazard risk prediction
Massive on-line course dropout rate prediction
Properties of XGBoost

Single most important factor in its success: scalability

Due to several important systems and algorithmic optimizations

1. Highly scalable end-to-end tree boosting system

2. Theoretically justified weighted quantile sketch for efficient proposal calculation
3. Novel sparsity-aware algorithm for parallel tree learning
4. Effective cache-aware block structure for out-of-core tree learning
What is “tree boosting”?

Given a dataset (n
examples, m features)

Tree ensemble uses K

additive functions to
predict output
What is “gradient boosting”?
Regularized objective function

Objective

2nd order
approx.

Remove
constants

Scoring function to
evaluate quality of
tree structure
Regularized objective function
Split-finding algorithms

Exact
Computationally demanding
Enumerate all possible splits for continuous features

Approximate
Algorithm proposes candidate splits according to percentiles of feature distributions
Maps continuous features to buckets split by candidate points
Aggregates statistics and finds best solution among proposals
Comparison of split-finding

Two variants
Global
Local
Shrinkage and column subsampling

Shrinkage
Scales newly added weights by a factor !
Reduces influence of each individual tree
Leaves space for future trees to improve model
Similar to learning rate in stochastic optimization
Column subsampling
Subsample features
Used in Random Forests
Prevents overfitting more effectively than row-sampling
Sparsity-aware split finding

Equates sparsity with missing values

Defines a “default” direction: follow
the observed paths
Compare to “dense” method
How does this work?

Features need to be in sorted order to determine splits

Concept of blocks
Compressed column (CSC) format
Each column sorted by corresponding feature value

Exact greedy algorithm: all the data in a single block

Data are sorted once before training and used subsequently in this format
Feature transformations in blocks
More on blocks

Data is stored on multiple blocks, and these blocks are stored on disk
Independent threads pre-fetch specific blocks into memory to prevent cache misses
Block Compression
Each column is compressed before being written to disk, and decompressed on-the-fly when
read from disk into a prefetched buffer
Cuts down on disk I/O
Block Sharding
Data is split across multiple disks (i.e. cluster)
Pre-fetcher is assigned to each disk to read data into memory
Cache-aware access

Exact Greedy Algorithm Approximate Algorithms

Allocate an internal buffer in each thread Choice of block size is critical
Fetch gradient statistics Small block size results in small workloads
for each thread
Perform accumulation in mini-batch
Large block size results in cache misses as
Reduces runtime overhead when number
gradient statistics do not fit in cache
of rows is large
Cache-aware access
Exact Approximate
Results: out of core
Results: distributed
Results: scalability
Demonstration

https://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html
Conclusions

Novel sparsity-aware algorithm for handling sparse data

Theoretical guarantees for weighted quantile sketching for approximate learning
Cache access patterns, data compression, and data sharding techniques
http://arxiv.org/abs/1603.02754

Xgboost Presentation
100% (3)
Xgboost Presentation
54 pages
Types of Simulation
100% (1)
Types of Simulation
2 pages
05.XGBoost
No ratings yet
05.XGBoost
6 pages
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
No ratings yet
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
112 pages
Intro To Data Science Summary
No ratings yet
Intro To Data Science Summary
17 pages
Unit 4 Introduction to Algorithm
No ratings yet
Unit 4 Introduction to Algorithm
10 pages
Python 06 MachineLearning
No ratings yet
Python 06 MachineLearning
45 pages
365 ML Infographic
No ratings yet
365 ML Infographic
1 page
CC Unit IV
No ratings yet
CC Unit IV
30 pages
Decision Tree
No ratings yet
Decision Tree
38 pages
Data Mining-Model Based Clustering
No ratings yet
Data Mining-Model Based Clustering
8 pages
ML Module 5
No ratings yet
ML Module 5
15 pages
rfp0697 Chenaemb
No ratings yet
rfp0697 Chenaemb
10 pages
ML ModuleUntitled 2
No ratings yet
ML ModuleUntitled 2
8 pages
ML - Machine Learning PDF
No ratings yet
ML - Machine Learning PDF
13 pages
Introduction To Data Science Unsupervised Learning: CS 194 Fall 2015 John Canny
No ratings yet
Introduction To Data Science Unsupervised Learning: CS 194 Fall 2015 John Canny
54 pages
Accelerated Data Science Introduction To Machine Learning Algorithms
No ratings yet
Accelerated Data Science Introduction To Machine Learning Algorithms
37 pages
12s MidI - SampleExam Print1
No ratings yet
12s MidI - SampleExam Print1
8 pages
Models
No ratings yet
Models
20 pages
XGBoost
No ratings yet
XGBoost
4 pages
Immediate download (Ebook) Data driven science and engineering by Steven Brunton, J Nathan Kutz ebooks 2024
100% (6)
Immediate download (Ebook) Data driven science and engineering by Steven Brunton, J Nathan Kutz ebooks 2024
71 pages
SPINEX-Clustering: Similarity-Based Predictions With Explainable Neighbors Exploration For Clustering Problems
No ratings yet
SPINEX-Clustering: Similarity-Based Predictions With Explainable Neighbors Exploration For Clustering Problems
54 pages
Scikit-Learn User Guide Release 0.19.dev0
100% (2)
Scikit-Learn User Guide Release 0.19.dev0
2,133 pages
Maxbox Starter60 Machine Learning
No ratings yet
Maxbox Starter60 Machine Learning
8 pages
Divorce Prediction System: Devansh Kapoor 179202050
No ratings yet
Divorce Prediction System: Devansh Kapoor 179202050
12 pages
Models
No ratings yet
Models
46 pages
TC-1 Final Answer Key
No ratings yet
TC-1 Final Answer Key
14 pages
Session 5 ppt
No ratings yet
Session 5 ppt
36 pages
Pattern Recognition
No ratings yet
Pattern Recognition
33 pages
Pattern Recognition
No ratings yet
Pattern Recognition
33 pages
CZ4032 Data Analytics & Mining Notes
No ratings yet
CZ4032 Data Analytics & Mining Notes
16 pages
6 - Into To Data Science Techniques and Clustering
No ratings yet
6 - Into To Data Science Techniques and Clustering
16 pages
Pattern Recognition 14
No ratings yet
Pattern Recognition 14
46 pages
Scikit Learn Docs
100% (1)
Scikit Learn Docs
2,201 pages
Statistical Pattern Recognition Toolbox For Matlab: User's Guide
No ratings yet
Statistical Pattern Recognition Toolbox For Matlab: User's Guide
99 pages
Recommendation Systems
No ratings yet
Recommendation Systems
27 pages
Paper 8675
No ratings yet
Paper 8675
6 pages
Lossy_Data_Compression_using_K-Means_Clustering_on_Retinal_Images_using_RStudio
No ratings yet
Lossy_Data_Compression_using_K-Means_Clustering_on_Retinal_Images_using_RStudio
5 pages
Module 1 ML Mumbai University
No ratings yet
Module 1 ML Mumbai University
47 pages
Aiml 4
No ratings yet
Aiml 4
2 pages
Awesome Big Data Algorithms
No ratings yet
Awesome Big Data Algorithms
37 pages
SRU ADA Unit-3
No ratings yet
SRU ADA Unit-3
78 pages
Aiml End 2
No ratings yet
Aiml End 2
2 pages
MLunit 2 Mynotes
No ratings yet
MLunit 2 Mynotes
15 pages
Guided Tour To Random Forest
No ratings yet
Guided Tour To Random Forest
42 pages
Extreme Gradient Boosting
No ratings yet
Extreme Gradient Boosting
8 pages
Chapter - 4
No ratings yet
Chapter - 4
14 pages
Xgboost: A Scalable Tree Boosting System: Tianqi Chen Tqchen@Cs - Washington.Edu Carlos Guestrin Guestrin@Cs - Washington.Edu
100% (1)
Xgboost: A Scalable Tree Boosting System: Tianqi Chen Tqchen@Cs - Washington.Edu Carlos Guestrin Guestrin@Cs - Washington.Edu
13 pages
21PCS512 PT 1 - Ans
No ratings yet
21PCS512 PT 1 - Ans
9 pages
Data Science Project Training Report
No ratings yet
Data Science Project Training Report
19 pages
Entropy (S) Log (P) : I 1c I I
No ratings yet
Entropy (S) Log (P) : I 1c I I
5 pages
Plagiarism
No ratings yet
Plagiarism
20 pages
Chap 8
No ratings yet
Chap 8
9 pages
XGBoost
No ratings yet
XGBoost
4 pages
Machine Learning Algorithms
No ratings yet
Machine Learning Algorithms
28 pages
5 - Clustering
No ratings yet
5 - Clustering
13 pages
Decision Tree Pruning: Fundamentals and Applications
From Everand
Decision Tree Pruning: Fundamentals and Applications
Fouad Sabry
No ratings yet
Functional Python Programming
From Everand
Functional Python Programming
Steven Lott
No ratings yet
Optimized Caching Techniques: Application for Scalable Distributed Architectures
From Everand
Optimized Caching Techniques: Application for Scalable Distributed Architectures
Peter Jones
No ratings yet
Mastering Data Structures and Algorithms in Python & Java
From Everand
Mastering Data Structures and Algorithms in Python & Java
Sachin Naha
No ratings yet
PostgreSQL 9.0 High Performance
From Everand
PostgreSQL 9.0 High Performance
Gregory Smith
4/5 (1)
Application of Wavelet Transforms To Compression of Mechanical Vibration Data
No ratings yet
Application of Wavelet Transforms To Compression of Mechanical Vibration Data
10 pages
Predication of Hotel Booking Cancellation 1
No ratings yet
Predication of Hotel Booking Cancellation 1
16 pages
Rizkya 2019 IOP Conf. Ser. Mater. Sci. Eng. 598 012071
No ratings yet
Rizkya 2019 IOP Conf. Ser. Mater. Sci. Eng. 598 012071
7 pages
Csci 231 Homework 6 - Solutions: Binary Search Trees and Hashing Clrs Chapter 11.1-11.3 and 12.1-12.3
No ratings yet
Csci 231 Homework 6 - Solutions: Binary Search Trees and Hashing Clrs Chapter 11.1-11.3 and 12.1-12.3
2 pages
Fitting A Line With Bayesian Technique
No ratings yet
Fitting A Line With Bayesian Technique
19 pages
IJETR031865
No ratings yet
IJETR031865
3 pages
AIML Brochure
No ratings yet
AIML Brochure
13 pages
Zhao Et Al (2024) - Retrieval-Augmented Generation For AI-Generated Content
No ratings yet
Zhao Et Al (2024) - Retrieval-Augmented Generation For AI-Generated Content
21 pages
mining data stream
No ratings yet
mining data stream
31 pages
Introduction To Polynomial Functions
No ratings yet
Introduction To Polynomial Functions
23 pages
Control of chaos Methods and applications in engineering
No ratings yet
Control of chaos Methods and applications in engineering
24 pages
Normal Distribution
No ratings yet
Normal Distribution
7 pages
Viterbi Decoding
No ratings yet
Viterbi Decoding
4 pages
Lec 8
No ratings yet
Lec 8
91 pages
Advanced Finite Element Methods: Bauhaus - Universität Weimar Institut Für Strukturmechanik
No ratings yet
Advanced Finite Element Methods: Bauhaus - Universität Weimar Institut Für Strukturmechanik
63 pages
DEEP LEARNING LAB MANUAL
No ratings yet
DEEP LEARNING LAB MANUAL
11 pages
Presentation For Recommendation System Project
No ratings yet
Presentation For Recommendation System Project
14 pages
White Noise
No ratings yet
White Noise
16 pages
SSL/TLS Multiple Vulnerabilities SSL 64-Bit Block Size Cipher Suites Supported (Sweet32)
No ratings yet
SSL/TLS Multiple Vulnerabilities SSL 64-Bit Block Size Cipher Suites Supported (Sweet32)
4 pages
F.Y.B.com. Statistics for Business (External)
No ratings yet
F.Y.B.com. Statistics for Business (External)
2 pages
Unit 4-Health care and Deep Learninh
No ratings yet
Unit 4-Health care and Deep Learninh
87 pages
Department of Mathematics MTL 733 (Stochastics of Finance) Tutorial Sheet No. 1
No ratings yet
Department of Mathematics MTL 733 (Stochastics of Finance) Tutorial Sheet No. 1
2 pages
8FM0-28 As Decision Mathematics 2 - Practice Paper 1
No ratings yet
8FM0-28 As Decision Mathematics 2 - Practice Paper 1
4 pages
Machine Learning
No ratings yet
Machine Learning
21 pages
Iterative Methods For Eigenvalues of Symmetric Matrices As Fixed Point Theorems
No ratings yet
Iterative Methods For Eigenvalues of Symmetric Matrices As Fixed Point Theorems
14 pages
Computional Engineering Contents Pages
No ratings yet
Computional Engineering Contents Pages
6 pages
Lecture 1
No ratings yet
Lecture 1
8 pages
Handout 9 - Sensitivity Analysis PDF
No ratings yet
Handout 9 - Sensitivity Analysis PDF
30 pages
YOLO V3 ML Project
No ratings yet
YOLO V3 ML Project
15 pages

L5 Slides

Uploaded by

L5 Slides

Uploaded by

XGBoost: A Scalable Tree

 eXtreme Gradient Boosting

 Store sales prediction

 Single most important factor in its success: scalability

1. Highly scalable end-to-end tree boosting system

 Tree ensemble uses K

 Equates sparsity with missing values

 Features need to be in sorted order to determine splits

 Exact greedy algorithm: all the data in a single block

Exact Greedy Algorithm Approximate Algorithms

 Novel sparsity-aware algorithm for handling sparse data

You might also like

eXtreme Gradient Boosting

Store sales prediction

Single most important factor in its success: scalability

Tree ensemble uses K

Equates sparsity with missing values

Features need to be in sorted order to determine splits

Exact greedy algorithm: all the data in a single block

Novel sparsity-aware algorithm for handling sparse data