0% found this document useful (0 votes)

342 views8 pages

Linear Regression - Cheatsheet

This document provides a cheat sheet on linear regression, covering topics like simple and multiple linear regression, regularization techniques, model selection and evaluation, and more. It lists functions and approaches for working with linear regression in Python libraries like statsmodels and scikit-learn.

Uploaded by

Projects Fun

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

342 views8 pages

Linear Regression - Cheatsheet

Uploaded by

Projects Fun

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

# [ Linear Regression ] ( CheatSheet )

1. Basic Linear Regression with statsmodels

● Simple Linear Regression: statsmodels.api.OLS(y, X).fit()

● Summary of Regression Results: results.summary()
● Predictions: results.predict(X_new)
● Residuals: results.resid
● Regression Plot: seaborn.regplot(x, y)

2. Linear Regression with scikit-learn

● Fit Linear Model: sklearn.linear_model.LinearRegression().fit(X, y)

● Coefficients and Intercept: model.coef_, model.intercept_
● Predictions: model.predict(X_new)
● R-squared Score: model.score(X, y)
● Mean Squared Error: sklearn.metrics.mean_squared_error(y_true,
y_pred)

3. Data Preprocessing for Linear Regression

● Standard Scaling:
sklearn.preprocessing.StandardScaler().fit_transform(X)
● Polynomial Features:
sklearn.preprocessing.PolynomialFeatures(degree).fit_transform(X)
● Train-Test Split: sklearn.model_selection.train_test_split(X, y)
● Handling Missing Values: pandas.DataFrame.fillna()
● One-Hot Encoding for Categorical Variables: pandas.get_dummies()

4. Diagnostics and Model Checking

● Plotting Residuals: seaborn.residplot(x, y)

● Checking for Homoscedasticity:
statsmodels.stats.diagnostic.het_breuschpagan(residuals,
model.model.exog)
● Normality Test of Residuals: scipy.stats.shapiro(residuals)

By: Waleed Mousa

● Outliers Detection (e.g., Cook's distance):
statsmodels.stats.outliers_influence.OLSInfluence(model).cooks_dist
ance
● Cross-Validation Scores:
sklearn.model_selection.cross_val_score(model, X, y)

5. Regularization Techniques

● Ridge Regression: sklearn.linear_model.Ridge(alpha).fit(X, y)

● Lasso Regression: sklearn.linear_model.Lasso(alpha).fit(X, y)
● Elastic Net: sklearn.linear_model.ElasticNet(alpha,
l1_ratio).fit(X, y)
● Grid Search for Hyperparameter Tuning:
sklearn.model_selection.GridSearchCV()

6. Multivariate Linear Regression

● Multiple Linear Regression: statsmodels.api.OLS(y,

sm.add_constant(X)).fit()
● Partial Regression Plots:
statsmodels.graphics.regressionplots.plot_partregress(y, X,
exog_idx)

7. Advanced Linear Models

● Generalized Linear Models (GLM): statsmodels.api.GLM(y, X,

family).fit()
● Quantile Regression:
statsmodels.regression.quantile_regression.QuantReg(y, X).fit(q)
● Robust Regression: statsmodels.robust.robust_linear_model.RLM(y,
X).fit()

8. Interaction Effects and Nonlinearity

● Interaction Terms: X['interaction'] = X['feature1'] * X['feature2']

● Non-linear Transformations of Predictors: numpy.log(X),
numpy.sqrt(X)

9. Model Interpretation

By: Waleed Mousa

● Feature Importance: abs(model.coef_)
● Coefficients Interpretation: beta coefficients in results.summary()
● Effects of Categorical Variables: one-hot encoded coefficients

10. Model Selection and Evaluation

● AIC and BIC: results.aic, results.bic

● Adjusted R-squared: 1 - (1 - model.score(X, y)) * ((len(y) - 1) /
(len(y) - X.shape[1] - 1))
● F-Test for Model Significance: results.f_pvalue
● Stepwise Regression (Forward, Backward): stepwise_selection(X, y)
# Custom function

11. Prediction and Confidence Intervals

● Confidence Interval of Predictions:

results.get_prediction(X_new).conf_int()
● Prediction Interval: prediction_interval(model, X_new, alpha) #
Custom function

12. Visualization of Linear Models

● Coefficient Plot: plot_coefficients(model, feature_names) # Custom

function
● Scatter Plot with Regression Line: seaborn.lmplot(x, y, data)
● Partial Dependence Plot:
sklearn.inspection.plot_partial_dependence(model, X, features)

13. Handling Large Datasets

● Stochastic Gradient Descent for Linear Regression:

sklearn.linear_model.SGDRegressor().fit(X, y)
● Mini-Batch Gradient Descent:
sklearn.linear_model.SGDRegressor(mini_batch_size)

14. Working with Time Series

● Linear Regression with Time Series Data: Handle time-based

features and trends in data

By: Waleed Mousa

● Lag Features and Autoregression: df['lag_feature'] =
df['feature'].shift(periods)

15. Practical Challenges and Solutions

● Handling Multicollinearity: Variance Inflation Factor (VIF)

calculation
● Dealing with Non-Stationarity in Time Series: Differencing or
transformation

16. Integrating with Machine Learning Pipelines

● Using Linear Regression in Pipelines:

sklearn.pipeline.Pipeline(steps=[('scaler', StandardScaler()),
('regressor', LinearRegression())])

17. Cross-Validation and Model Selection

● K-Fold Cross-Validation:
sklearn.model_selection.cross_val_score(model, X, y, cv=5)
● Leave-One-Out Cross-Validation:
sklearn.model_selection.LeaveOneOut()
● Hyperparameter Tuning with GridSearchCV:
sklearn.model_selection.GridSearchCV(estimator, param_grid)

18. Diagnostic Plots

● Residual Plot: seaborn.residplot(x, y, lowess=True)

● Q-Q Plot for Residuals: scipy.stats.probplot(residuals, plot=plt)
● Leverage Plot:
statsmodels.graphics.regressionplots.influence_plot(model,
criterion="cooks")

19. Advanced Feature Engineering

● Feature Interaction and Polynomial Terms:

sklearn.preprocessing.PolynomialFeatures(include_bias=False).fit_tr
ansform(X)

By: Waleed Mousa

● Automatic Feature Selection:
sklearn.feature_selection.RFE(estimator, n_features_to_select)

20. Preprocessing and Feature Scaling

● Normalization (MinMax Scaling):

sklearn.preprocessing.MinMaxScaler().fit_transform(X)
● Robust Scaling (handling outliers):
sklearn.preprocessing.RobustScaler().fit_transform(X)

21. Regularization and Penalization Techniques

● LassoCV for Optimal Alpha:

sklearn.linear_model.LassoCV(alphas).fit(X, y)
● RidgeCV for Optimal Alpha:
sklearn.linear_model.RidgeCV(alphas).fit(X, y)
● ElasticNetCV for Optimal Alpha and L1 Ratio:
sklearn.linear_model.ElasticNetCV(alphas, l1_ratio).fit(X, y)

22. Assumptions of Linear Regression

● Linearity Test: Plotting observed vs. predicted values

● Independence Test: Durbin-Watson test
● Homoscedasticity Test: Breusch-Pagan test
● Normality Test for Residuals: Kolmogorov-Smirnov test

23. Working with Non-linear Data

● Transformation of Target Variable: numpy.log(y) or numpy.sqrt(y)

● Generalized Additive Models (GAMs): pygam.LinearGAM().fit(X, y)

24. Model Interpretability

● Feature Importance in Linear Models: np.abs(model.coef_)

● SHAP Values for Linear Regression: shap.LinearExplainer(model,
X).shap_values(X_new)

25. Ensemble Methods

By: Waleed Mousa

● Averaging Multiple Linear Models: Averaging predictions from
different models
● Stacking Linear Models:
sklearn.ensemble.StackingRegressor(estimators)

26. Error Metrics and Model Evaluation

● Mean Absolute Error (MAE):

sklearn.metrics.mean_absolute_error(y_true, y_pred)
● Root Mean Squared Error (RMSE):
numpy.sqrt(sklearn.metrics.mean_squared_error(y_true, y_pred))
● Mean Squared Logarithmic Error (MSLE):
sklearn.metrics.mean_squared_log_error(y_true, y_pred)

27. Time Series Regression

● Lag Features for Time Series: df['lag_feature'] =

df['feature'].shift(1)
● Rolling Window Features: df['rolling_mean'] =
df['feature'].rolling(window=5).mean()

28. Handling Sparse Data

● Sparse Matrix Handling: scipy.sparse.csr_matrix(X)

● Linear Regression with Sparse Data:
sklearn.linear_model.LinearRegression().fit(X_sparse, y)

29. Deployment and Persistence of Model

● Model Serialization with joblib: joblib.dump(model, 'model.pkl')

● Model Deserialization: model = joblib.load('model.pkl')

30. Performance Improvement

● Parallel Computing for Large Datasets: LinearRegression(n_jobs=-1)

● Batch Gradient Descent for Large Datasets: Implementing batch or
mini-batch gradient descent

By: Waleed Mousa

31. Reporting and Visualization

● Coefficient Path Plot: Plotting coefficient magnitude vs.

regularization strength
● Prediction Error Plot: Yellowbrick's PredictionError(model)

32. Extensions and Related Models

● Partial Least Squares Regression:

sklearn.cross_decomposition.PLSRegression()
● Ridge Regression with Polynomial Features: Pipeline with
PolynomialFeatures and Ridge

33. Advanced Statistical Techniques

● Quantile Regression:
statsmodels.regression.quantile_regression.QuantReg(y,
X).fit(q=0.5)
● Instrumental Variable Regression:
linearmodels.iv.IV2SLS(dependent, exog, endog, instruments)

34. Working with Categorical Variables

● Encoding and Including Categorical Variables: pandas.get_dummies()

● ANOVA for Categorical Features Impact: statsmodels.api.ols('y ~
C(categorical_feature)', data).fit()

35. Model Diagnostics and Validation

● Cross-Validation for Linear Regression:

sklearn.model_selection.cross_val_score(model, X, y, cv=5)
● Learning Curve to Diagnose Model Performance:
sklearn.model_selection.learning_curve(model, X, y)

36. Multicollinearity Handling

● Variance Inflation Factor (VIF) Calculation:

statsmodels.stats.outliers_influence.variance_inflation_factor(X,
i)

By: Waleed Mousa

37. Interaction with Domain Knowledge

● Incorporating Domain Insights into Model: Modifying features or

model based on domain expertise

By: Waleed Mousa

HTTP API v3.35 Intelbras
No ratings yet
HTTP API v3.35 Intelbras
749 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
Calibre XRC Parasitic Extraction: 2017 Mentor Graphics Corporation
No ratings yet
Calibre XRC Parasitic Extraction: 2017 Mentor Graphics Corporation
14 pages
MWF Wall Manual
100% (1)
MWF Wall Manual
198 pages
Coding Questions
No ratings yet
Coding Questions
124 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
23 pages
Exp 4 - LM
No ratings yet
Exp 4 - LM
5 pages
Linear Regression - Numpy and Sklearn
No ratings yet
Linear Regression - Numpy and Sklearn
7 pages
ML Remaining
No ratings yet
ML Remaining
17 pages
Zerox Ready
No ratings yet
Zerox Ready
21 pages
ml2020 Pythonlab02
No ratings yet
ml2020 Pythonlab02
3 pages
19BCS2059 DL1
No ratings yet
19BCS2059 DL1
4 pages
Linear Regression
No ratings yet
Linear Regression
18 pages
ML Combined
No ratings yet
ML Combined
254 pages
Supervised Learning For Data Science...
No ratings yet
Supervised Learning For Data Science...
14 pages
223A1131_ML_EXP_1
No ratings yet
223A1131_ML_EXP_1
8 pages
Machine Learning
No ratings yet
Machine Learning
10 pages
Linear Regression
No ratings yet
Linear Regression
6 pages
Linear Regression
No ratings yet
Linear Regression
11 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
30 pages
Day 3 ML
No ratings yet
Day 3 ML
4 pages
Lecture-2 Unit 2
No ratings yet
Lecture-2 Unit 2
56 pages
Aggialavura - Python Linear Regression Model
No ratings yet
Aggialavura - Python Linear Regression Model
1 page
Machine Learning With Python Algorithms
No ratings yet
Machine Learning With Python Algorithms
28 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
Practical # 10
No ratings yet
Practical # 10
5 pages
Wa0002.
No ratings yet
Wa0002.
5 pages
ML-Lab07-Building and Evaluating Multivariate Regression Models in Python
No ratings yet
ML-Lab07-Building and Evaluating Multivariate Regression Models in Python
5 pages
ML LAB
No ratings yet
ML LAB
29 pages
ML LN 3
No ratings yet
ML LN 3
44 pages
Assignment No.4 - (20-Ele-68)
No ratings yet
Assignment No.4 - (20-Ele-68)
17 pages
LAB5 Regularization
No ratings yet
LAB5 Regularization
6 pages
Regression Analysis
No ratings yet
Regression Analysis
16 pages
Cheat Sheet Linear and Logistic Regression
No ratings yet
Cheat Sheet Linear and Logistic Regression
2 pages
Simple Linear Regression: Math Behind
0% (1)
Simple Linear Regression: Math Behind
6 pages
Lab 6 - Linear Regression and Multiple Linear Regression
No ratings yet
Lab 6 - Linear Regression and Multiple Linear Regression
12 pages
CL IV Manual
No ratings yet
CL IV Manual
108 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
C1 W1 Lab02 Model Representation Soln
No ratings yet
C1 W1 Lab02 Model Representation Soln
5 pages
Linear Regression
No ratings yet
Linear Regression
15 pages
ML
No ratings yet
ML
17 pages
22UCS303 DS-Unit IV-LINEAR REGRESSION
No ratings yet
22UCS303 DS-Unit IV-LINEAR REGRESSION
19 pages
Linear Regression
No ratings yet
Linear Regression
8 pages
Unit 5
No ratings yet
Unit 5
171 pages
Ads Exp 01 B4 64
No ratings yet
Ads Exp 01 B4 64
4 pages
ICT-4202, DIP Lab Manual - 8
No ratings yet
ICT-4202, DIP Lab Manual - 8
20 pages
C1 W1 Lab02 Model Representation Soln
No ratings yet
C1 W1 Lab02 Model Representation Soln
7 pages
Regression Dataset Example
No ratings yet
Regression Dataset Example
14 pages
C1 W1 Lab02 Model Representation Soln
No ratings yet
C1 W1 Lab02 Model Representation Soln
5 pages
Data Science Record - 05
No ratings yet
Data Science Record - 05
20 pages
Linear Regression Code
No ratings yet
Linear Regression Code
5 pages
C1 W1 Lab03 Model Representation Soln-Copy1
No ratings yet
C1 W1 Lab03 Model Representation Soln-Copy1
7 pages
C1 W1 Lab02 Model Representation Soln
No ratings yet
C1 W1 Lab02 Model Representation Soln
7 pages
Dataanalysis Finals123
No ratings yet
Dataanalysis Finals123
36 pages
ML Cyber Lab
No ratings yet
ML Cyber Lab
16 pages
ML Lab Record
No ratings yet
ML Lab Record
17 pages
DS
No ratings yet
DS
31 pages
Experiment Number: 3: Aim:-Study of The Linear Regression in The Machine Learning Using The Boston Housing Dataset. 1)
No ratings yet
Experiment Number: 3: Aim:-Study of The Linear Regression in The Machine Learning Using The Boston Housing Dataset. 1)
14 pages
AI Lab9
No ratings yet
AI Lab9
5 pages
Assigment Regression
No ratings yet
Assigment Regression
9 pages
Week-7 DS Practical
No ratings yet
Week-7 DS Practical
8 pages
Steps For Simple Regression Analysis
No ratings yet
Steps For Simple Regression Analysis
2 pages
Worked Examples in Advanced Mechanics of Materials using MATLAB
From Everand
Worked Examples in Advanced Mechanics of Materials using MATLAB
Eric Okoth Ogur
No ratings yet
NEW Instructions Adding DISS Trusted Site
No ratings yet
NEW Instructions Adding DISS Trusted Site
2 pages
Project Report: ON Heart Disease Prediction Using Machine Learning
No ratings yet
Project Report: ON Heart Disease Prediction Using Machine Learning
35 pages
Zomato Phase 3 Analysis
No ratings yet
Zomato Phase 3 Analysis
9 pages
FKW15110NMI
No ratings yet
FKW15110NMI
1 page
LU Application Form
No ratings yet
LU Application Form
1 page
Assignment 1
No ratings yet
Assignment 1
2 pages
NGW 1 Full Conversion List v2.660
No ratings yet
NGW 1 Full Conversion List v2.660
2 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
The Electronic Library: Article Information
No ratings yet
The Electronic Library: Article Information
18 pages
Industrial Training Report Format - RIT
No ratings yet
Industrial Training Report Format - RIT
5 pages
Installation: Dlan® 500 Wifi
No ratings yet
Installation: Dlan® 500 Wifi
44 pages
10 KW On Grid With Elevated Structure
No ratings yet
10 KW On Grid With Elevated Structure
4 pages
Adityaaa Internship Report
No ratings yet
Adityaaa Internship Report
54 pages
2ceit6pe7 Ethical Hacking
No ratings yet
2ceit6pe7 Ethical Hacking
2 pages
Final Exam OOP-Solution Spring 25
No ratings yet
Final Exam OOP-Solution Spring 25
10 pages
PC Regen Starter User Guide
No ratings yet
PC Regen Starter User Guide
9 pages
Gershon - Połaczenia Pulsu I VR
No ratings yet
Gershon - Połaczenia Pulsu I VR
7 pages
Nirav Answer Key
No ratings yet
Nirav Answer Key
55 pages
Waveform Coding Techniques
No ratings yet
Waveform Coding Techniques
33 pages
Visual Basic Urdu PDF Book
88% (8)
Visual Basic Urdu PDF Book
48 pages
Right To Be Forgotten and Digital Privacy Suryansh Mishra
No ratings yet
Right To Be Forgotten and Digital Privacy Suryansh Mishra
14 pages
Shivank Singh Baghel - 2020
No ratings yet
Shivank Singh Baghel - 2020
2 pages
Hematology Analyzer Catalog Biolab
No ratings yet
Hematology Analyzer Catalog Biolab
4 pages
Emtech Reviewer
No ratings yet
Emtech Reviewer
7 pages
Dynamic Modeling and Optimal Control of Cone-Shaped Active Magnetic Bearing Systems
No ratings yet
Dynamic Modeling and Optimal Control of Cone-Shaped Active Magnetic Bearing Systems
11 pages
Architectural Permit
No ratings yet
Architectural Permit
3 pages
PCN Uflow Valve
No ratings yet
PCN Uflow Valve
4 pages

Linear Regression - Cheatsheet

Uploaded by

Linear Regression - Cheatsheet

Uploaded by

# [ Linear Regression ] ( CheatSheet )

1. Basic Linear Regression with statsmodels

● Simple Linear Regression: statsmodels.api.OLS(y, X).fit()

2. Linear Regression with scikit-learn

● Fit Linear Model: sklearn.linear_model.LinearRegression().fit(X, y)

3. Data Preprocessing for Linear Regression

4. Diagnostics and Model Checking

● Plotting Residuals: seaborn.residplot(x, y)

By: Waleed Mousa

● Ridge Regression: sklearn.linear_model.Ridge(alpha).fit(X, y)

6. Multivariate Linear Regression

● Multiple Linear Regression: statsmodels.api.OLS(y,

7. Advanced Linear Models

● Generalized Linear Models (GLM): statsmodels.api.GLM(y, X,

8. Interaction Effects and Nonlinearity

● Interaction Terms: X['interaction'] = X['feature1'] * X['feature2']

By: Waleed Mousa

10. Model Selection and Evaluation

● AIC and BIC: results.aic, results.bic

11. Prediction and Confidence Intervals

● Confidence Interval of Predictions:

12. Visualization of Linear Models

● Coefficient Plot: plot_coefficients(model, feature_names) # Custom

13. Handling Large Datasets

● Stochastic Gradient Descent for Linear Regression:

14. Working with Time Series

● Linear Regression with Time Series Data: Handle time-based

By: Waleed Mousa

15. Practical Challenges and Solutions

● Handling Multicollinearity: Variance Inflation Factor (VIF)

16. Integrating with Machine Learning Pipelines

● Using Linear Regression in Pipelines:

17. Cross-Validation and Model Selection

18. Diagnostic Plots

● Residual Plot: seaborn.residplot(x, y, lowess=True)

19. Advanced Feature Engineering

● Feature Interaction and Polynomial Terms:

By: Waleed Mousa

20. Preprocessing and Feature Scaling

● Normalization (MinMax Scaling):

21. Regularization and Penalization Techniques

● LassoCV for Optimal Alpha:

22. Assumptions of Linear Regression

● Linearity Test: Plotting observed vs. predicted values

23. Working with Non-linear Data

● Transformation of Target Variable: numpy.log(y) or numpy.sqrt(y)

24. Model Interpretability

● Feature Importance in Linear Models: np.abs(model.coef_)

25. Ensemble Methods

By: Waleed Mousa

26. Error Metrics and Model Evaluation

● Mean Absolute Error (MAE):

27. Time Series Regression

● Lag Features for Time Series: df['lag_feature'] =

28. Handling Sparse Data

● Sparse Matrix Handling: scipy.sparse.csr_matrix(X)

29. Deployment and Persistence of Model

● Model Serialization with joblib: joblib.dump(model, 'model.pkl')

30. Performance Improvement

● Parallel Computing for Large Datasets: LinearRegression(n_jobs=-1)

By: Waleed Mousa

● Coefficient Path Plot: Plotting coefficient magnitude vs.

32. Extensions and Related Models

● Partial Least Squares Regression:

33. Advanced Statistical Techniques

34. Working with Categorical Variables

● Encoding and Including Categorical Variables: pandas.get_dummies()

35. Model Diagnostics and Validation

● Cross-Validation for Linear Regression:

36. Multicollinearity Handling

● Variance Inflation Factor (VIF) Calculation:

By: Waleed Mousa

● Incorporating Domain Insights into Model: Modifying features or

By: Waleed Mousa

You might also like