0% found this document useful (0 votes)

394 views

Regression Analysis - Cheatsheet

This document provides a cheat sheet for regression analysis techniques including data preparation steps like handling missing values and feature scaling, selecting regression models like linear regression and random forests, fitting models and evaluating performance using metrics like R-squared and mean squared error, and diagnosing and improving models with techniques like residual analysis and hyperparameter tuning. It also covers more advanced topics like ensemble methods, dealing with non-linearity, comparing and selecting models, and model interpretation.

Uploaded by

vasanth reddy nallagundu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

394 views

Regression Analysis - Cheatsheet

Uploaded by

vasanth reddy nallagundu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

# [ Regression Analysis ] [ cheatsheet ]

Data Preparation

● Load dataset: import pandas as pd; data = pd.read_csv('data.csv')

● Handle missing values: data.fillna(data.mean(), inplace=True)
● Feature selection (Correlation): correlation = data.corr()
● One-hot encoding: pd.get_dummies(data)
● Feature scaling (Standardization): from sklearn.preprocessing
import StandardScaler; scaler = StandardScaler(); scaled_data =
scaler.fit_transform(data)
● Feature scaling (Normalization): from sklearn.preprocessing import
MinMaxScaler; scaler = MinMaxScaler(); normalized_data =
scaler.fit_transform(data)
● Split dataset: from sklearn.model_selection import
train_test_split; X_train, X_test, y_train, y_test =
train_test_split(X, y, test_size=0.2)
● Polynomial feature generation: from sklearn.preprocessing import
PolynomialFeatures; poly = PolynomialFeatures(degree=3); X_poly =
poly.fit_transform(X)

Regression Model Selection

● Linear Regression: from sklearn.linear_model import

LinearRegression; model = LinearRegression()
● Ridge Regression: from sklearn.linear_model import Ridge; model =
Ridge(alpha=1.0)
● Lasso Regression: from sklearn.linear_model import Lasso; model =
Lasso(alpha=0.1)
● ElasticNet: from sklearn.linear_model import ElasticNet; model =
ElasticNet(alpha=0.1, l1_ratio=0.5)
● Logistic Regression: from sklearn.linear_model import
LogisticRegression; model = LogisticRegression()
● Polynomial Regression: # Use PolynomialFeatures in combination with
LinearRegression
● Decision Tree Regression: from sklearn.tree import
DecisionTreeRegressor; model = DecisionTreeRegressor()

By: Waleed Mousa

● Random Forest Regression: from sklearn.ensemble import
RandomForestRegressor; model = RandomForestRegressor()
● Support Vector Regression: from sklearn.svm import SVR; model =
SVR()
● K-Nearest Neighbors Regression: from sklearn.neighbors import
KNeighborsRegressor; model = KNeighborsRegressor(n_neighbors=5)

Model Fitting

● Fit model: model.fit(X_train, y_train)

● Predict values: predictions = model.predict(X_test)
● Calculate R-squared: model.score(X_test, y_test)
● Coefficient of determination: from sklearn.metrics import r2_score;
r2_score(y_test, predictions)
● Mean Squared Error (MSE): from sklearn.metrics import
mean_squared_error; mse = mean_squared_error(y_test, predictions)
● Root Mean Squared Error (RMSE): import numpy as np; rmse =
np.sqrt(mse)
● Mean Absolute Error (MAE): from sklearn.metrics import
mean_absolute_error; mae = mean_absolute_error(y_test, predictions)
● Model coefficients: coefficients = model.coef_
● Model intercept: intercept = model.intercept_
● Cross-validation: from sklearn.model_selection import
cross_val_score; scores = cross_val_score(model, X, y, cv=5)

Diagnostics and Model Evaluation

● Plot residuals: import matplotlib.pyplot as plt; residuals = y_test

- predictions; plt.scatter(y_test, residuals)
● Check for homoscedasticity: plt.scatter(predictions, residuals)
● Q-Q plot for normality of residuals: import scipy.stats as stats;
stats.probplot(residuals, dist="norm", plot=plt)
● Calculate AIC: from statsmodels.regression.linear_model import OLS;
model = OLS(y, X); result = model.fit(); result.aic
● Calculate BIC: result.bic
● Feature importance (for tree-based models): importance =
model.feature_importances_

By: Waleed Mousa

● Confusion matrix (for logistic regression): from sklearn.metrics
import confusion_matrix; cm = confusion_matrix(y_test, predictions)
● Classification report (for logistic regression): from
sklearn.metrics import classification_report; report =
classification_report(y_test, predictions)
● ROC Curve (for logistic regression): from sklearn.metrics import
roc_curve; fpr, tpr, thresholds = roc_curve(y_test,
model.predict_proba(X_test)[:,1])
● Precision-Recall Curve: from sklearn.metrics import
precision_recall_curve; precision, recall, thresholds =
precision_recall_curve(y_test, model.predict_proba(X_test)[:,1])

Advanced Techniques and Considerations

● Feature selection with RFE: from sklearn.feature_selection import

RFE; selector = RFE(model, n_features_to_select=5); selector =
selector.fit(X, y)
● Hyperparameter tuning with GridSearchCV: from
sklearn.model_selection import GridSearchCV; parameters =
{'alpha':[0.1, 1, 10]}; grid = GridSearchCV(model, parameters,
cv=5); grid.fit(X, y)
● Regularization path (for Lasso/Ridge): from sklearn.linear_model
import lasso_path; alphas, coefs, _ = lasso_path(X, y, alphas=[0.1,
1, 10])
● Learning curve: from sklearn.model_selection import learning_curve;
train_sizes, train_scores, test_scores = learning_curve(model, X,
y, cv=5)
● Validation curve: from sklearn.model_selection import
validation_curve; param_range = np.logspace(-6, -1, 5);
train_scores, test_scores = validation_curve(model, X, y,
param_name="alpha", param_range=param_range, cv=5)
● Partial dependence plots (for ensemble models): from
sklearn.inspection import plot_partial_dependence;
plot_partial_dependence(model, X, [0, 1])

Data Transformation and Interaction Effects

● Log transformation of a feature: data['log_feature'] =

np.log(data['feature'])

By: Waleed Mousa

● Square root transformation: data['sqrt_feature'] =
np.sqrt(data['feature'])
● Box-Cox transformation: from scipy.stats import boxcox;
data['boxcox_feature'], _ = boxcox(data['feature'])
● Creating interaction terms manually: data['interaction'] =
data['feature1'] * data['feature2']
● Automatic interaction terms with PolynomialFeatures: from
sklearn.preprocessing import PolynomialFeatures; poly =
PolynomialFeatures(interaction_only=True); data_interaction =
poly.fit_transform(data)

Ensemble Methods and Model Improvement

● Gradient Boosting Regression: from sklearn.ensemble import

GradientBoostingRegressor; model = GradientBoostingRegressor()
● XGBoost Regression: from xgboost import XGBRegressor; model =
XGBRegressor()
● LightGBM Regression: from lightgbm import LGBMRegressor; model =
LGBMRegressor()
● Stacking models: from sklearn.ensemble import StackingRegressor;
estimators = [('lr', LinearRegression()), ('svr', SVR())]; model =
StackingRegressor(estimators=estimators)
● Bagging with Random Forests: # Random Forests inherently use
bagging

Dealing with Non-linear Relationships

● Kernel Ridge Regression: from sklearn.kernel_ridge import

KernelRidge; model = KernelRidge(kernel='polynomial', degree=2)
● SVM with non-linear kernel: model = SVR(kernel='rbf')
● Non-linear transformation of target variable (log): y_log =
np.log(y)
● GAMs for flexible non-linear modeling: from pygam import LinearGAM,
s; gam = LinearGAM(s(0) + s(1)).fit(X, y)

Model Comparison and Selection

● Akaike Information Criterion (AIC) for model comparison: # Refer

to operation 32 for calculation method
By: Waleed Mousa
● Bayesian Information Criterion (BIC) for model comparison: # Refer
to operation 33 for calculation method
● Adjusted R-squared for model comparison: 1 - (1-model.score(X,
y))*(len(y)-1)/(len(y)-X.shape[1]-1)
● F-test to compare models: from sklearn.feature_selection import
f_regression; F, p_values = f_regression(X, y)

Advanced Diagnostics

● VIF (Variance Inflation Factor) for multicollinearity: from

statsmodels.stats.outliers_influence import
variance_inflation_factor; VIF =
[variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
● Durbin-Watson test for autocorrelation: from
statsmodels.stats.stattools import durbin_watson; dw =
durbin_watson(residuals)
● Cook's distance for influence points: from
statsmodels.stats.outliers_influence import OLSInfluence; influence
= OLSInfluence(model); cooks = influence.cooks_distance[0]
● Leverage to identify influential observations: leverage =
influence.hat_matrix_diag

Prediction and Validation

● Predict with confidence intervals: # For linear models, use

statsmodels for prediction: predictions, intervals =
model.get_prediction(X_new).summary_frame(alpha=0.05)
● Bootstrap resampling for estimating prediction uncertainty: from
sklearn.utils import resample; bootstrapped_samples =
resample(predictions, n_samples=1000)
● Permutation importance for feature evaluation: from
sklearn.inspection import permutation_importance; result =
permutation_importance(model, X_test, y_test, n_repeats=10)
● Shapley values for feature impact: import shap; explainer =
shap.TreeExplainer(model); shap_values = explainer.shap_values(X)

Post-modeling Analysis

By: Waleed Mousa

● Model summary with statsmodels: import statsmodels.api as sm; model
= sm.OLS(y, sm.add_constant(X)); results = model.fit();
print(results.summary())
● Partial dependence plots for feature effect visualization: # Refer
to operation 44 for sklearn or use 'plot_partial_dependance' from
the appropriate library for advanced models
● ICE plots for individual conditional expectations: from
pycebox.ice import ice, ice_plot; ice_df = ice(data, 'feature',
model.predict); ice_plot(ice_df)
● LIME for local interpretation: import lime; import
lime.lime_tabular; explainer =
lime.lime_tabular.LimeTabularExplainer(training_data=X_train,
feature_names=X.columns, class_names=['target'],
mode='regression'); explanation =
explainer.explain_instance(data_row=X_test.iloc[0],
predict_fn=model.predict)
● Model persistence with joblib: from joblib import dump, load;
dump(model, 'model.joblib'); model = load('model.joblib')

Handling Categorical Variables

● Ordinal encoding: from sklearn.preprocessing import OrdinalEncoder;

encoder = OrdinalEncoder(); data['encoded_feature'] =
encoder.fit_transform(data[['feature']])
● Frequency encoding: frequency = data['feature'].value_counts() /
len(data); data['freq_encoded_feature'] =
data['feature'].map(frequency)
● Target encoding: import category_encoders as ce; encoder =
ce.TargetEncoder(); data['target_encoded_feature'] =
encoder.fit_transform(data['feature'], data['target'])

Enhancing Model Performance

● Feature engineering: data['new_feature'] = data['feature1'] /

data['feature2']
● Removing outliers: from scipy import stats; data =
data[(np.abs(stats.zscore(data['feature'])) < 3)]
● Smoothing noisy data (Moving Average): data['smoothed_feature'] =
data['feature'].rolling(window=5).mean()

By: Waleed Mousa

● Dimensionality reduction (PCA): from sklearn.decomposition import
PCA; pca = PCA(n_components=2); X_pca = pca.fit_transform(X)
● Clustering as a feature (K-Means): from sklearn.cluster import
KMeans; kmeans = KMeans(n_clusters=3); data['cluster'] =
kmeans.fit_predict(data[['feature1', 'feature2']])
● Using external data for additional features: # Assume
external_data is loaded; data = pd.merge(data, external_data,
on='key')

Advanced Diagnostics and Model Analysis

● Cross-validation with multiple metrics: from

sklearn.model_selection import cross_validate; scoring = ['r2',
'neg_mean_squared_error']; results = cross_validate(model, X, y,
scoring=scoring)
● Time series cross-validation: from sklearn.model_selection import
TimeSeriesSplit; tscv = TimeSeriesSplit(); for train_index,
test_index in tscv.split(X): ...
● Spatial cross-validation (for geographical data): from
sklearn.model_selection import GroupShuffleSplit; gss =
GroupShuffleSplit(test_size=.3, n_splits=1,
random_state=42).split(X, groups=X['group'])
● Analyzing residuals for patterns: plt.plot(y_test, residuals,
marker='o', linestyle='')
● Testing for stationarity in residuals (ADF test): from
statsmodels.tsa.stattools import adfuller; adf_result =
adfuller(residuals)
● Model stability testing (bootstrap): # Refer to operation 68 for
bootstrap resampling

Advanced Prediction Techniques

● Forecasting with ARIMA (for time series): from

statsmodels.tsa.arima.model import ARIMA; model =
ARIMA(data['feature'], order=(1,1,1)); result = model.fit()
● Using Prophet for time series prediction: from fbprophet import
Prophet; m = Prophet(); m.fit(data); future =
m.make_future_dataframe(periods=365); forecast = m.predict(future)

By: Waleed Mousa

● Multi-output regression: from sklearn.multioutput import
MultiOutputRegressor; mor =
MultiOutputRegressor(model).fit(X_train, y_train_multi)
● Quantile regression for prediction intervals: import
statsmodels.formula.api as smf; model = smf.quantreg('y ~ X',
data).fit(q=0.5)

Model Interpretation and Explanation

● Advanced SHAP value interpretation: shap.summary_plot(shap_values,

X, plot_type="bar")
● ALE (Accumulated Local Effects) plots for feature effects: from
alibi.explainers import ALE, plot_ale; ale = ALE(model.predict,
feature_names=X.columns); ale_exp = ale.explain(X.values);
plot_ale(ale_exp)
● Global model explanation with Skater: from
skater.core.explanations import Interpretation; from skater.model
import InMemoryModel; interpreter = Interpretation(X_test,
feature_names=X.columns); model = InMemoryModel(model.predict,
examples=X_train); plots =
interpreter.feature_importance.plot_feature_importance(model,
ascending=False)
● Decision tree visualization for simple models: from sklearn.tree
import plot_tree; plot_tree(decision_tree_model); plt.show()
● Visualizing feature interactions with PDPBox: from pdpbox import
pdp; pdp_interact = pdp.pdp_interact(model, dataset=X,
model_features=X.columns, features=['feature1', 'feature2']);
pdp.pdp_interact_plot(pdp_interact, ['feature1', 'feature2'],
plot_type='contour')
● Visualizing SVM decision boundaries: from mlxtend.plotting import
plot_decision_regions; plot_decision_regions(X.values, y.values,
clf=svm_model, legend=2)
● Visualizing K-Means clustering boundaries: # Assume data is 2D for
visualization; plt.scatter(data[:,0], data[:,1], c=kmeans.labels_);
centers = kmeans.cluster_centers_; plt.scatter(centers[:,0],
centers[:,1], c='red', s=200, alpha=0.5);
● Visualizing embeddings with t-SNE: from sklearn.manifold import
TSNE; tsne = TSNE(n_components=2); X_tsne = tsne.fit_transform(X)

By: Waleed Mousa

● Exploring model errors: error_indices = np.where(y_test !=
predictions)[0]; wrong_predictions = X_test.iloc[error_indices]
● Visualizing regression diagnostics with Yellowbrick: from
yellowbrick.regressor import ResidualsPlot; visualizer =
ResidualsPlot(model); visualizer.fit(X_train, y_train);
visualizer.score(X_test, y_test); visualizer.show()
● Model comparison with scikit-plot: import scikitplot as skplt;
skplt.estimators.plot_learning_curve(model1, X, y);
skplt.estimators.plot_learning_curve(model2, X, y)

By: Waleed Mousa

Scan To BIM - Presentation
No ratings yet
Scan To BIM - Presentation
61 pages
Radix Shell Shaker Sort (AutoRecovered)
No ratings yet
Radix Shell Shaker Sort (AutoRecovered)
4 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
How To Train An Object Detection Model With Mmdetection - DLology
No ratings yet
How To Train An Object Detection Model With Mmdetection - DLology
7 pages
Metod Konacnih Elemenata - Deo I
100% (1)
Metod Konacnih Elemenata - Deo I
589 pages
Lecture-07 - Gauss Ellimination Methods and Cramers Rule
No ratings yet
Lecture-07 - Gauss Ellimination Methods and Cramers Rule
48 pages
UNIT - 5 Advanced Algorithm PDF
100% (1)
UNIT - 5 Advanced Algorithm PDF
31 pages
Artificial Intelligence A-Z™ 2023 Build An AI With
No ratings yet
Artificial Intelligence A-Z™ 2023 Build An AI With
19 pages
Aws Three Practical Use Cases With Databricks Ebook v5 101221
No ratings yet
Aws Three Practical Use Cases With Databricks Ebook v5 101221
34 pages
MATPLOTLIB NOTES Pandas
No ratings yet
MATPLOTLIB NOTES Pandas
17 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Terraform Cheat Sheet
No ratings yet
Terraform Cheat Sheet
2 pages
Pandas Practice Questions
No ratings yet
Pandas Practice Questions
2 pages
Weka Tutorial
No ratings yet
Weka Tutorial
2 pages
Top 60 Python Projects For All Levels of Expertise
No ratings yet
Top 60 Python Projects For All Levels of Expertise
9 pages
An Overview of Practical Time Series Forecasting Using Pytho
No ratings yet
An Overview of Practical Time Series Forecasting Using Pytho
30 pages
100 Days of ML
100% (1)
100 Days of ML
15 pages
The Python Workbook: A Brief Introduction with Exercises and Solutions 2nd Edition Ben Stephenson all chapter instant download
100% (1)
The Python Workbook: A Brief Introduction with Exercises and Solutions 2nd Edition Ben Stephenson all chapter instant download
49 pages
Python For Data Science and Machine Learning
No ratings yet
Python For Data Science and Machine Learning
3 pages
Machine Learning Megapack
No ratings yet
Machine Learning Megapack
6 pages
Python Learning Roadmap
100% (1)
Python Learning Roadmap
1 page
Bad Ideas
No ratings yet
Bad Ideas
69 pages
Poly
100% (1)
Poly
108 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
Data Analysis Projects
No ratings yet
Data Analysis Projects
4 pages
Apache Server (HTTP) Interview Questions
No ratings yet
Apache Server (HTTP) Interview Questions
4 pages
API Reference - Scikit-Learn 0.19.2 Documentation
No ratings yet
API Reference - Scikit-Learn 0.19.2 Documentation
21 pages
0802 Python Tutorial
100% (1)
0802 Python Tutorial
151 pages
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
No ratings yet
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
112 pages
Wavelet Toolbox™ User's Guide PDF
No ratings yet
Wavelet Toolbox™ User's Guide PDF
617 pages
Python: An Introduction Python: An Introduction
100% (1)
Python: An Introduction Python: An Introduction
82 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
1 - Optimize Amazon SageMaker Deployment Strategies
No ratings yet
1 - Optimize Amazon SageMaker Deployment Strategies
45 pages
Software-Defined Networking (SDN)
No ratings yet
Software-Defined Networking (SDN)
16 pages
Automl: A Perspective Where Industry Meets Academy
No ratings yet
Automl: A Perspective Where Industry Meets Academy
154 pages
Day 5 Supervised Technique-Decision Tree For Classification PDF
100% (1)
Day 5 Supervised Technique-Decision Tree For Classification PDF
58 pages
Python Specialization4
No ratings yet
Python Specialization4
3 pages
Module 2
No ratings yet
Module 2
20 pages
Altoros Tensorflow Cheat Sheet
100% (1)
Altoros Tensorflow Cheat Sheet
1 page
Academic Research Assistance 1716570959
No ratings yet
Academic Research Assistance 1716570959
13 pages
Lecture 4 - Pair RDD and DataFrame
No ratings yet
Lecture 4 - Pair RDD and DataFrame
38 pages
Python Tutorial: Release 2.0
100% (1)
Python Tutorial: Release 2.0
77 pages
Data Set Exploration in Python - v1 - Students
No ratings yet
Data Set Exploration in Python - v1 - Students
58 pages
Python Workshop March 2018
No ratings yet
Python Workshop March 2018
31 pages
Flask Restplus
No ratings yet
Flask Restplus
86 pages
Fake News Detection
No ratings yet
Fake News Detection
14 pages
Applied Coding Track
No ratings yet
Applied Coding Track
10 pages
Working With Functions
No ratings yet
Working With Functions
10 pages
A Tour of TensorFlow
No ratings yet
A Tour of TensorFlow
17 pages
IoT Quiz
No ratings yet
IoT Quiz
15 pages
Tools Machine Learning
No ratings yet
Tools Machine Learning
9 pages
27 Jupyter Notebook
No ratings yet
27 Jupyter Notebook
42 pages
K Means Clustering
100% (1)
K Means Clustering
10 pages
AL3451 Machine Learning Apr May 2024 Question Paper Download
No ratings yet
AL3451 Machine Learning Apr May 2024 Question Paper Download
3 pages
Anaconda Cheat Sheet
No ratings yet
Anaconda Cheat Sheet
3 pages
Advanced Programming With Python
No ratings yet
Advanced Programming With Python
9 pages
Netops
No ratings yet
Netops
81 pages
Advanced Programming With Python
No ratings yet
Advanced Programming With Python
37 pages
Machine Learning Introduction
No ratings yet
Machine Learning Introduction
20 pages
Pymbook Readthedocs Io en Latest
100% (1)
Pymbook Readthedocs Io en Latest
173 pages
Donald Ngandeu 1
No ratings yet
Donald Ngandeu 1
6 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
AWS MLOps Slides
No ratings yet
AWS MLOps Slides
185 pages
Helm Slides
No ratings yet
Helm Slides
28 pages
What Is The Differnce Between ML DL and AI
No ratings yet
What Is The Differnce Between ML DL and AI
7 pages
What Are ChatGPT and Its Friends
No ratings yet
What Are ChatGPT and Its Friends
25 pages
Ansible Case Study Splunk
No ratings yet
Ansible Case Study Splunk
1 page
Machine Learning in A Nutshell
No ratings yet
Machine Learning in A Nutshell
36 pages
G8 second term B
No ratings yet
G8 second term B
5 pages
Variable Selection Via Nonconcave Penalized Likelihood and Its Oracle Properties
No ratings yet
Variable Selection Via Nonconcave Penalized Likelihood and Its Oracle Properties
14 pages
Lec 4 Functions
No ratings yet
Lec 4 Functions
21 pages
The Two-Phase Simplex Method: Case 1
No ratings yet
The Two-Phase Simplex Method: Case 1
10 pages
Quiz 04 - Questions & Solutions
No ratings yet
Quiz 04 - Questions & Solutions
2 pages
Imp Questions For Ci - Update
No ratings yet
Imp Questions For Ci - Update
8 pages
Fem1d F PDF
No ratings yet
Fem1d F PDF
119 pages
Model Questions DWT
No ratings yet
Model Questions DWT
2 pages
DDA & Bresenham's Line Drawing Algorithm
No ratings yet
DDA & Bresenham's Line Drawing Algorithm
8 pages
Midterm Exam Data Analytics
No ratings yet
Midterm Exam Data Analytics
858 pages
BUDGET OF WORK-G8-1st QTR-2024-2025
No ratings yet
BUDGET OF WORK-G8-1st QTR-2024-2025
2 pages
Lecture Notes On Minimal Polynomial
No ratings yet
Lecture Notes On Minimal Polynomial
5 pages
RODRIGUEZ SAÑO TULAYLAY M6 Check in Activity 4
No ratings yet
RODRIGUEZ SAÑO TULAYLAY M6 Check in Activity 4
3 pages
Dictionaries and Sorting Doubts
No ratings yet
Dictionaries and Sorting Doubts
5 pages
CISE301 Topic8L8&9
No ratings yet
CISE301 Topic8L8&9
39 pages
Simplex 5
No ratings yet
Simplex 5
11 pages
Class 9 CH 2
No ratings yet
Class 9 CH 2
5 pages
Session 17 Lecture Slides
No ratings yet
Session 17 Lecture Slides
87 pages
Quantum Calculus (Victor Kac, Pokman Cheung) (Z Library) 1 122 Pages Pages 97
No ratings yet
Quantum Calculus (Victor Kac, Pokman Cheung) (Z Library) 1 122 Pages Pages 97
1 page
9th Math Olympiad
No ratings yet
9th Math Olympiad
2 pages
Adobe Scan 19-May-2023
No ratings yet
Adobe Scan 19-May-2023
24 pages
18-660: Numerical Methods For Engineering Design and Optimization
No ratings yet
18-660: Numerical Methods For Engineering Design and Optimization
27 pages
2Q1819 Math149 LQ1
No ratings yet
2Q1819 Math149 LQ1
2 pages
Preface
No ratings yet
Preface
4 pages
ISL: Experiment 2: Aim: Implementation of Any AI Problem Using The Uninformed Search
No ratings yet
ISL: Experiment 2: Aim: Implementation of Any AI Problem Using The Uninformed Search
12 pages

Regression Analysis - Cheatsheet

Uploaded by

Regression Analysis - Cheatsheet

Uploaded by

# [ Regression Analysis ] [ cheatsheet ]

● Load dataset: import pandas as pd; data = pd.read_csv('data.csv')

Regression Model Selection

● Linear Regression: from sklearn.linear_model import

By: Waleed Mousa

● Fit model: model.fit(X_train, y_train)

Diagnostics and Model Evaluation

● Plot residuals: import matplotlib.pyplot as plt; residuals = y_test

By: Waleed Mousa

Advanced Techniques and Considerations

● Feature selection with RFE: from sklearn.feature_selection import

Data Transformation and Interaction Effects

● Log transformation of a feature: data['log_feature'] =

By: Waleed Mousa

Ensemble Methods and Model Improvement

● Gradient Boosting Regression: from sklearn.ensemble import

Dealing with Non-linear Relationships

● Kernel Ridge Regression: from sklearn.kernel_ridge import

Model Comparison and Selection

● Akaike Information Criterion (AIC) for model comparison: # Refer

● VIF (Variance Inflation Factor) for multicollinearity: from

Prediction and Validation

● Predict with confidence intervals: # For linear models, use

By: Waleed Mousa

Handling Categorical Variables

● Ordinal encoding: from sklearn.preprocessing import OrdinalEncoder;

Enhancing Model Performance

● Feature engineering: data['new_feature'] = data['feature1'] /

By: Waleed Mousa

Advanced Diagnostics and Model Analysis

● Cross-validation with multiple metrics: from

Advanced Prediction Techniques

● Forecasting with ARIMA (for time series): from

By: Waleed Mousa

Model Interpretation and Explanation

● Advanced SHAP value interpretation: shap.summary_plot(shap_values,

By: Waleed Mousa

By: Waleed Mousa

You might also like