Python Data Science Cheat Sheet

This document provides a summary of key machine learning concepts in Python using the scikit-learn library. It discusses loading and preparing data, fitting models using supervised and unsupervised algorithms like linear regression, KNN, SVM, k-means clustering and PCA. It also covers evaluating model performance using various metrics for classification like accuracy, confusion matrix, and regression like mean squared error and R2 score. Cross-validation techniques are mentioned to validate models.

Uploaded by

srikantkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

309 views1 page

Python Data Science Cheat Sheet

Uploaded by

srikantkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

PYTHON FOR DATA SCIENCE CHEAT SHEET Learn Python for Data Science at www.edureka.

Scikit-learn Create Your Model Evaluate Your Model’s Performance

Scikit-learn is an open source Python library that Supervised Learning Estimators Classification Metrics
implements a range of machine learning,
scikit
preprocessing, cross-validation and visualization Linear Regression Accuracy Score
algorithms using a unified interface. >>> from sklearn.linear_model import LinearRegression >>> knn.score(X_test, y_test)
#Estimator score method
>>> lr = LinearRegression(normalize=True) >>> from sklearn.metrics import accuracy_score
A Basic Example >>> accuracy_score(y_test, y_pred)
Support Vector Machines (SVM)
Classification Report #Metric scoring functions
>>> from sklearn import neighbors, datasets, preprocessing >>> from sklearn.svm import SVC
>>> svc = SVC(kernel='linear') >>> from sklearn.metrics import classification_report
>>> from sklearn.cross_validation import train_test_split >>> print(classification_report(y_test, y_pred))
>>> from sklearn.metrics import accuracy_score Naive Bayes
>>> from sklearn.naive_bayes import GaussianNB Confusion Matrix
>>> iris = datasets.load_iris() #Precision, recall,
>>> gnb = GaussianNB() >>> from sklearn.metrics import confusion_matrix f1-score and support
>>> X, y = iris.data[:, :2], iris.target
>>> print(confusion_matrix(y_test, y_pred))
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33) KNN
>>> scaler = preprocessing.StandardScaler().fit(X_train) >>> from sklearn import neighbors
>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5) Regression Metrics
>>> X_train = scaler.transform(X_train)
>>> X_test = scaler.transform(X_test) Mean Absolute Error
Unsupervised Learning Estimators
>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5) >>> from sklearn.metrics import mean_absolute_error
>>> knn.fit(X_train, y_train) K Means >>> y_true = [3, -0.5, 2]
>>> y_pred = knn.predict(X_test) >>> from sklearn.decomposition import PCA >>> mean_absolute_error(y_true, y_pred)
>>> accuracy_score(y_test, y_pred) >>> pca = PCA(n_components=0.95) Mean Squared Error
>>> from sklearn.metrics import mean_squared_error
Principal Component Analysis (PCA) >>> mean_squared_error(y_test, y_pred)
Loading The Data >>> from sklearn.cluster import KMeans R² Score
>>> k_means = KMeans(n_clusters=3, random_state=0) >>> from sklearn.metrics import r2_score
Your data needs to be numeric and stored as NumPy arrays or SciPy >>> r2_score(y_true, y_pred)
sparse matrices. Other types that are convertible to numeric arrays,
such as Pandas DataFrame, are also acceptable. Model Fitting Clustering Metrics
>>> import numpy as np Adjusted Rand Index
Supervised learning
>>> X = np.random.random((10,5)) >>> from sklearn.metrics import adjusted_rand_score
>>> lr.fit(X, Y)
>>> y = np.array(['M','M','F','F','M','F','M','M','F','F','F']) #Fit the model to the data
>>> adjusted_rand_score(y_true, y_pred)
>>> knn.fit(X_train, Y_train)
>>> X[X < 0.7] = 0
>>> svc.fit(X_train, Y_train) Homogeneity
Unsupervised Learning #Fit the model to the data >>> from sklearn.metrics import homogeneity_score
Training And Test Data >>> k_means.fit(X_train) #Fit to data, then transform it >>> homogeneity_score(y_true, y_pred)
>>> pca_model = pca.fit_transform(X_train) V-measure
>>> from sklearn.cross_validation import train_test_split >>> from sklearn.metrics import v_measure_score
>>> X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0) >>> metrics.v_measure_score(y_true, y_pred)
Prediction
Cross-Validation
Supervised Estimators #Predict labels
>>> y_pred = svc.predict(np.random.random((2,5))) #Predict labels Adjusted Rand Index
>>> y_pred = lr.predict(X_test) #Estimate probability >>> from sklearn.cross_validation import cross_val_score
>>> y_pred = knn.predict_proba(X_test)) of a label >>> print(cross_val_score(knn, X_train, y_train, cv=4))
Unsupervised Estimators >>> print(cross_val_score(lr, X, y, cv=2))
>>> y_pred = k_means.predict(X_test) #Predict labels in
clustering algos
PYTHON FOR DATA SCIENCE Tune Your Model

Scikit-learn Grid Search

Standardization Encoding Categorical Features >>> from sklearn.grid_search import GridSearchCV

>>> params = {"n_neighbors": np.arange(1,3), "metric": ["euclidean", "cityblock"]}
>>> from sklearn.preprocessing import StandardScaler >>> from sklearn.preprocessing import LabelEncoder >>> grid = GridSearchCV(estimator=knn,param_grid=params)
>>> scaler = StandardScaler().fit(X_train) >>> enc = LabelEncoder() >>> grid.fit(X_train, y_train)
>>> standardized_X = scaler.transform(X_train) >>> y = enc.fit_transform(y) >>> print(grid.best_score_)
>>> standardized_X_test = scaler.transform(X_test) >>> print(grid.best_estimator_.n_neighbors)

Normalization Imputing Missing Values Randomized Parameter Optimization

>>> from sklearn.preprocessing import Normalizer >>> from sklearn.preprocessing import Imputer
>>> scaler = Normalizer().fit(X_train) >>> from sklearn.grid_search import RandomizedSearchCV
>>> imp = Imputer(missing_values=0, strategy='mean', axis=0) >>> params = {"n_neighbors": range(1,5), "weights": ["uniform", "distance"]}
>>> normalized_X = scaler.transform(X_train) >>> imp.fit_transform(X_train)
>>> normalized_X_test = scaler.transform(X_test) >>> rsearch = RandomizedSearchCV(estimator=knn,
param_distributions=params,
cv=4,
Binarization Generating Polynomial Features n_iter=8,
>>> from sklearn.preprocessing import Binarizer >>> from sklearn.preprocessing import PolynomialFeatures random_state=5)
>>> binarizer = Binarizer(threshold=0.0).fit(X) >>> poly = PolynomialFeatures(5) >>> rsearch.fit(X_train, y_train)
>>> binary_X = binarizer.transform(X) >>> poly.fit_transform(X) >>> print(rsearch.best_score_)

Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
ML Algorithms
100% (1)
ML Algorithms
1 page
Feature Engineering in Machine Learning
No ratings yet
Feature Engineering in Machine Learning
19 pages
7 Time Series Datasets For Machine Learning
No ratings yet
7 Time Series Datasets For Machine Learning
8 pages
Machine Learning Journey Logs
No ratings yet
Machine Learning Journey Logs
15 pages
AI & ML Cheat Sheets Collection
100% (1)
AI & ML Cheat Sheets Collection
24 pages
Deep Learning Quiz: Week 1 & 2
No ratings yet
Deep Learning Quiz: Week 1 & 2
5 pages
K-Nearest Neighbor On Python Ken Ocuma
100% (2)
K-Nearest Neighbor On Python Ken Ocuma
9 pages
Top Python Cheat Sheets for Learners
100% (1)
Top Python Cheat Sheets for Learners
17 pages
Iris Dataset EDA & ML Techniques
100% (2)
Iris Dataset EDA & ML Techniques
24 pages
Scikit Learn Docs
100% (1)
Scikit Learn Docs
2,201 pages
Python DSA Course Overview
No ratings yet
Python DSA Course Overview
4 pages
Deep Learning CNN
100% (1)
Deep Learning CNN
22 pages
Modern C++ Tutorial Guide
No ratings yet
Modern C++ Tutorial Guide
92 pages
Tutorial Pytorch Best Commands
No ratings yet
Tutorial Pytorch Best Commands
8 pages
Maths of Machine Learning
No ratings yet
Maths of Machine Learning
75 pages
Comprehensive Guide to Python Programming
100% (1)
Comprehensive Guide to Python Programming
110 pages
Week 1 Deep Learning Quiz Insights
No ratings yet
Week 1 Deep Learning Quiz Insights
2 pages
Introduction to Machine Learning
100% (1)
Introduction to Machine Learning
17 pages
ENG 202: Computers and Engineering Object Oriented Programming in PYTHON
No ratings yet
ENG 202: Computers and Engineering Object Oriented Programming in PYTHON
56 pages
Comprehensive Machine Learning Guide
No ratings yet
Comprehensive Machine Learning Guide
121 pages
Machine Learning Using Python PDF
No ratings yet
Machine Learning Using Python PDF
2 pages
Scikit-learn Machine Learning Tutorial
No ratings yet
Scikit-learn Machine Learning Tutorial
17 pages
Multivariate Linear Regression Guide
No ratings yet
Multivariate Linear Regression Guide
24 pages
CUDA Image Processing Thesis
No ratings yet
CUDA Image Processing Thesis
66 pages
Keras Deep Learning Cheat Sheet
No ratings yet
Keras Deep Learning Cheat Sheet
1 page
Pandas Visualisation
No ratings yet
Pandas Visualisation
27 pages
PythonGuide V1.2.9
100% (2)
PythonGuide V1.2.9
2 pages
Machine Learning Mini-Project Report
No ratings yet
Machine Learning Mini-Project Report
26 pages
Python Programming Guide
No ratings yet
Python Programming Guide
211 pages
Feature Engineering & Selection Guide
No ratings yet
Feature Engineering & Selection Guide
32 pages
Decision Trees and Ensemble Learning
100% (1)
Decision Trees and Ensemble Learning
162 pages
Machine Learning Short Notes
100% (2)
Machine Learning Short Notes
36 pages
Numpy Complete Material
No ratings yet
Numpy Complete Material
19 pages
Greet Manual
No ratings yet
Greet Manual
121 pages
Classifying mRNA vs ncRNA Using ML
100% (1)
Classifying mRNA vs ncRNA Using ML
27 pages
Customer Data Analysis & Feature Engineering
No ratings yet
Customer Data Analysis & Feature Engineering
35 pages
Altoros Tensorflow Cheat Sheet
100% (1)
Altoros Tensorflow Cheat Sheet
1 page
Neural Networks for Tech Enthusiasts
No ratings yet
Neural Networks for Tech Enthusiasts
23 pages
Python Pandas: 12 Data Manipulation Techniques
100% (2)
Python Pandas: 12 Data Manipulation Techniques
19 pages
Machine Learning Practical Exercises
100% (1)
Machine Learning Practical Exercises
12 pages
The Matplotlib User's Guide
No ratings yet
The Matplotlib User's Guide
868 pages
AdaBoost Classifier Tutorial Python
100% (1)
AdaBoost Classifier Tutorial Python
9 pages
SciPy Data Science Guide
No ratings yet
SciPy Data Science Guide
39 pages
MIT - Applied Parallel Computing - Alan Edelman
No ratings yet
MIT - Applied Parallel Computing - Alan Edelman
187 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Scikit-Learn Classification Cheat Sheet
No ratings yet
Scikit-Learn Classification Cheat Sheet
1 page
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
1 page
Scikit-Learn Algorithm Overview
No ratings yet
Scikit-Learn Algorithm Overview
1 page
Cheat Sheet: Python For Data Science
100% (1)
Cheat Sheet: Python For Data Science
1 page
ML Functions
No ratings yet
ML Functions
12 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Advanced Scikit Learn
No ratings yet
Advanced Scikit Learn
98 pages
ML Lab Programs 2
No ratings yet
ML Lab Programs 2
16 pages
Lab Week 7
No ratings yet
Lab Week 7
3 pages
Final ML Programs 075005
No ratings yet
Final ML Programs 075005
15 pages
1
No ratings yet
1
13 pages
Python ML Lab for Beginners
No ratings yet
Python ML Lab for Beginners
10 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
34 pages
JPMC Applied AI ML Lead
No ratings yet
JPMC Applied AI ML Lead
3 pages
JD Visa
No ratings yet
JD Visa
6 pages
Lecture15 Transformer
No ratings yet
Lecture15 Transformer
26 pages
Lecture 10
No ratings yet
Lecture 10
66 pages
Optimize Your LinkedIn Profile Now
No ratings yet
Optimize Your LinkedIn Profile Now
19 pages
Pandas Cheat Sheet
85% (13)
Pandas Cheat Sheet
2 pages
Mahadashas The Speed of Light
94% (48)
Mahadashas The Speed of Light
212 pages
Golden Bracketing Optimization
No ratings yet
Golden Bracketing Optimization
5 pages
Practical Lahore Board
No ratings yet
Practical Lahore Board
22 pages
Complete Java Collection Tutorial For The Beginner
No ratings yet
Complete Java Collection Tutorial For The Beginner
10 pages
2024 Winter Question Paper
No ratings yet
2024 Winter Question Paper
4 pages
Stack Operations and C++ Implementations
No ratings yet
Stack Operations and C++ Implementations
3 pages
Advanced Digital Signal Processing
No ratings yet
Advanced Digital Signal Processing
37 pages
Collision Resolution: Ananda Gunawardena
No ratings yet
Collision Resolution: Ananda Gunawardena
22 pages
Ai-Unit Ii
No ratings yet
Ai-Unit Ii
61 pages
Queues Notes - Data Structures
No ratings yet
Queues Notes - Data Structures
4 pages
Understanding the Secant Method
No ratings yet
Understanding the Secant Method
22 pages
DAA Unit III 1
No ratings yet
DAA Unit III 1
37 pages
Java Stack Application Methods
No ratings yet
Java Stack Application Methods
54 pages
Pattern Search Algorithms Overview
No ratings yet
Pattern Search Algorithms Overview
63 pages
Solving Algorithm Recurrences
No ratings yet
Solving Algorithm Recurrences
7 pages
Bioinformatics Challenges Explored
No ratings yet
Bioinformatics Challenges Explored
2 pages
Design and Analysis of Algorithm
No ratings yet
Design and Analysis of Algorithm
48 pages
Data Structures Question Bank
No ratings yet
Data Structures Question Bank
8 pages
Complete Competitive Programming Package Basic To Intermediate Course
No ratings yet
Complete Competitive Programming Package Basic To Intermediate Course
23 pages
AI Heuristic Search & Hill Climbing
No ratings yet
AI Heuristic Search & Hill Climbing
37 pages
Matrix Operations in Python
No ratings yet
Matrix Operations in Python
31 pages
CC213
0% (1)
CC213
1 page
C#
No ratings yet
C#
6 pages
A Parallelizable Variant of HCA : Sreenivasan Ganti Visnu Srinivasan Pallavi Ramicetty
No ratings yet
A Parallelizable Variant of HCA : Sreenivasan Ganti Visnu Srinivasan Pallavi Ramicetty
7 pages
SEO-Optimized Document Title
No ratings yet
SEO-Optimized Document Title
1 page
Autonomous Maze Solving Techniques
No ratings yet
Autonomous Maze Solving Techniques
6 pages
2.4. Best First Search Technique
No ratings yet
2.4. Best First Search Technique
15 pages
Data Structures and Algorithm: Avl Tree
No ratings yet
Data Structures and Algorithm: Avl Tree
42 pages
Id Questio N A Graph Is A Set of - and Set of - A Vertices, Edges B Variables, Values C Vertices, Distances D Variable, Equation Answer A Marks 1 Unit 1
No ratings yet
Id Questio N A Graph Is A Set of - and Set of - A Vertices, Edges B Variables, Values C Vertices, Distances D Variable, Equation Answer A Marks 1 Unit 1
94 pages
Linear Queue Basics for Programmers
No ratings yet
Linear Queue Basics for Programmers
17 pages
1.3 PPT - Measure of Query Cost
100% (1)
1.3 PPT - Measure of Query Cost
42 pages