0% found this document useful (0 votes)

2 views

Assignment1

The document outlines a machine learning workflow for predicting housing prices using a dataset with 10 features. It includes data preprocessing steps such as handling missing values, one-hot encoding categorical variables, feature engineering, and outlier removal, followed by splitting the data into training and test sets. Finally, a linear regression model is trained on polynomial features, and the mean squared error for both training and test sets is computed.

Uploaded by

Rishabh Awasthi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Assignment1

Uploaded by

Rishabh Awasthi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

20/02/2025, 12:12 Untitled1.

ipynb - Colab

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler, PolynomialFeatures
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Load the dataset

file_path = "housing.csv" # Update this if needed
df = pd.read_csv(file_path)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 longitude 20640 non-null float64
1 latitude 20640 non-null float64
2 housing_median_age 20640 non-null float64
3 total_rooms 20640 non-null float64
4 total_bedrooms 20433 non-null float64
5 population 20640 non-null float64
6 households 20640 non-null float64
7 median_income 20640 non-null float64
8 median_house_value 20640 non-null float64
9 ocean_proximity 20640 non-null object
dtypes: float64(9), object(1)
memory usage: 1.6+ MB

# Handle missing values in 'total_bedrooms' using median imputation

imputer = SimpleImputer(strategy="median")
df["total_bedrooms"] = imputer.fit_transform(df[["total_bedrooms"]])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 longitude 20640 non-null float64
1 latitude 20640 non-null float64
2 housing_median_age 20640 non-null float64
3 total_rooms 20640 non-null float64
4 total_bedrooms 20640 non-null float64
5 population 20640 non-null float64
6 households 20640 non-null float64
7 median_income 20640 non-null float64
8 median_house_value 20640 non-null float64
9 ocean_proximity 20640 non-null object
dtypes: float64(9), object(1)
memory usage: 1.6+ MB

# One-hot encode 'ocean_proximity'

encoder = OneHotEncoder(sparse_output=False, drop="first") # Fixed parameter
encoded_ocean_proximity = encoder.fit_transform(df[["ocean_proximity"]])

# Convert encoded categories to a DataFrame

encoded_df = pd.DataFrame(encoded_ocean_proximity, columns=encoder.get_feature_names_out())

# Combine numerical and categorical features

df_final = pd.concat([df.drop(columns=["ocean_proximity"]), encoded_df], axis=1)

# Feature Engineering: Creating new features

df_final["rooms_per_household"] = df_final["total_rooms"] / df_final["households"]
df_final["bedrooms_per_room"] = df_final["total_bedrooms"] / df_final["total_rooms"]
df_final["population_per_household"] = df_final["population"] / df_final["households"]

# Feature Selection: Drop weakly correlated features

correlation_matrix = df_final.corr()
correlations = correlation_matrix["median_house_value"].sort_values(ascending=False)
low_corr_features = correlations[abs(correlations) < 0.1].index.tolist()
df_optimized = df_final.drop(columns=low_corr_features)

# Remove outliers: Keep only data within 1.5 * IQR range

Q1 = df optimized.quantile(0.25)
https://colab.research.google.com/drive/1WBO5ExB0N6FFLotiWgTunr-opDpq45OO#scrollTo=N5iBhMIREy_7&printMode=true 1/3
20/02/2025, 12:12 Untitled1.ipynb - Colab
Q1 df_optimized.quantile(0.25)
Q3 = df_optimized.quantile(0.75)
IQR = Q3 - Q1
df_filtered = df_optimized[~((df_optimized < (Q1 - 1.5 * IQR)) | (df_optimized > (Q3 + 1.5 * IQR))).any(axis=1)]

# Separate features and target variable

X_opt = df_filtered.drop(columns=["median_house_value"])
y_opt = df_filtered["median_house_value"]

# Split into training (80%) and test (20%) sets

X_train_opt, X_test_opt, y_train_opt, y_test_opt = train_test_split(X_opt, y_opt, test_size=0.2)
X_train_opt.info(),X_test_opt.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10588 entries, 13355 to 3065
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 latitude 10588 non-null float64
1 housing_median_age 10588 non-null float64
2 total_rooms 10588 non-null float64
3 median_income 10588 non-null float64
4 ocean_proximity_INLAND 10588 non-null float64
5 ocean_proximity_NEAR BAY 10588 non-null float64
6 ocean_proximity_NEAR OCEAN 10588 non-null float64
7 rooms_per_household 10588 non-null float64
8 bedrooms_per_room 10588 non-null float64
dtypes: float64(9)
memory usage: 827.2 KB
<class 'pandas.core.frame.DataFrame'>
Index: 2647 entries, 7842 to 2441
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 latitude 2647 non-null float64
1 housing_median_age 2647 non-null float64
2 total_rooms 2647 non-null float64
3 median_income 2647 non-null float64
4 ocean_proximity_INLAND 2647 non-null float64
5 ocean_proximity_NEAR BAY 2647 non-null float64
6 ocean_proximity_NEAR OCEAN 2647 non-null float64
7 rooms_per_household 2647 non-null float64
8 bedrooms_per_room 2647 non-null float64
dtypes: float64(9)
memory usage: 206.8 KB
(None, None)

# Standardize numerical features

scaler = StandardScaler()
X_train_scaled_opt = scaler.fit_transform(X_train_opt)
X_test_scaled_opt = scaler.transform(X_test_opt)

# Apply Polynomial Features (degree=2)

poly = PolynomialFeatures(degree=2, include_bias=False)
X_train_poly = poly.fit_transform(X_train_scaled_opt)
X_test_poly = poly.transform(X_test_scaled_opt)

# Train the Linear Regression model on polynomial features

model = LinearRegression()
model.fit(X_train_poly, y_train_opt)

# Make predictions
y_train_poly_pred = model.predict(X_train_poly)
y_test_poly_pred = model.predict(X_test_poly)

# Compute Mean Squared Error (MSE)

train_mse_poly = mean_squared_error(y_train_opt, y_train_poly_pred)
test_mse_poly = mean_squared_error(y_test_opt, y_test_poly_pred)

# Print results
print(f"Training MSE: {train_mse_poly:.2f}")
print(f"Test MSE: {test_mse_poly:.2f}")

Training MSE: 2872509441.01

Test MSE: 2915943708.52

Start coding or generate with AI.

https://colab.research.google.com/drive/1WBO5ExB0N6FFLotiWgTunr-opDpq45OO#scrollTo=N5iBhMIREy_7&printMode=true 2/3
20/02/2025, 12:12 Untitled1.ipynb - Colab

https://colab.research.google.com/drive/1WBO5ExB0N6FFLotiWgTunr-opDpq45OO#scrollTo=N5iBhMIREy_7&printMode=true 3/3

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Multiple - Linear - Regression - AirBNB - Student - File0.2 - New (1) .Ipynb - Colaboratory
No ratings yet
Multiple - Linear - Regression - AirBNB - Student - File0.2 - New (1) .Ipynb - Colaboratory
8 pages
House Rent Prediction EDA
No ratings yet
House Rent Prediction EDA
35 pages
CH 17 Statistica
No ratings yet
CH 17 Statistica
36 pages
House Price Prediction Models
No ratings yet
House Price Prediction Models
16 pages
Setup: Chapter 2 - End-To-End Machine Learning Project
No ratings yet
Setup: Chapter 2 - End-To-End Machine Learning Project
31 pages
Tarea - Prediccion de Casas en California
No ratings yet
Tarea - Prediccion de Casas en California
5 pages
Normialization Dataset
No ratings yet
Normialization Dataset
7 pages
California Housing Price Prediction .
No ratings yet
California Housing Price Prediction .
1 page
02 End To End Machine Learning Project
No ratings yet
02 End To End Machine Learning Project
26 pages
California 1673295505
No ratings yet
California 1673295505
18 pages
1722414346054
No ratings yet
1722414346054
18 pages
Multiple - Linear - Regression - AirBNB - Solution-0.2 - New - Ipynb - Colaboratory
No ratings yet
Multiple - Linear - Regression - AirBNB - Solution-0.2 - New - Ipynb - Colaboratory
11 pages
Real Estate Valuation Data Set: Section Order
No ratings yet
Real Estate Valuation Data Set: Section Order
17 pages
Housing Prices Notebook
No ratings yet
Housing Prices Notebook
14 pages
Week 12
No ratings yet
Week 12
2 pages
Copy of Project 4 _ House Price Prediction.ipynb - Colab
No ratings yet
Copy of Project 4 _ House Price Prediction.ipynb - Colab
5 pages
Example Project California Data Anaylsis Jupyter Notebook
No ratings yet
Example Project California Data Anaylsis Jupyter Notebook
28 pages
Prac - 8 (1) - Jupyter Notebook
No ratings yet
Prac - 8 (1) - Jupyter Notebook
6 pages
Assignement 4
No ratings yet
Assignement 4
6 pages
Emllab
No ratings yet
Emllab
6 pages
a
No ratings yet
a
2 pages
Eda Project
No ratings yet
Eda Project
28 pages
Project PDF
No ratings yet
Project PDF
13 pages
Linear Regression Analysis - Polynomial Regression
No ratings yet
Linear Regression Analysis - Polynomial Regression
25 pages
Kaggle Machine Learning
No ratings yet
Kaggle Machine Learning
6 pages
Predicting Home Prices in Bangalore
No ratings yet
Predicting Home Prices in Bangalore
18 pages
P04 The Regression Pipeline - Preprocessing Ans
No ratings yet
P04 The Regression Pipeline - Preprocessing Ans
19 pages
Data Analysis With Python - Jupyter Notebook
No ratings yet
Data Analysis With Python - Jupyter Notebook
10 pages
Regression Algorithm
No ratings yet
Regression Algorithm
9 pages
vertopal.com_housing_linear
No ratings yet
vertopal.com_housing_linear
3 pages
Faseeh Chap 2 Report
No ratings yet
Faseeh Chap 2 Report
30 pages
House Price Prediction
No ratings yet
House Price Prediction
14 pages
machinelearning
No ratings yet
machinelearning
26 pages
Introduction To Machine Learning (ML) With Sklearn
No ratings yet
Introduction To Machine Learning (ML) With Sklearn
10 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
Data Science Project
No ratings yet
Data Science Project
7 pages
Ads Exp5 Code
No ratings yet
Ads Exp5 Code
2 pages
DMV - 3 - Jupyter Notebook
No ratings yet
DMV - 3 - Jupyter Notebook
2 pages
Data Science Record_05
No ratings yet
Data Science Record_05
20 pages
ML LAB34
No ratings yet
ML LAB34
29 pages
Machine Learning Life Cycle Report
No ratings yet
Machine Learning Life Cycle Report
2 pages
Assigment1 - Manuel Tapia
No ratings yet
Assigment1 - Manuel Tapia
3 pages
DL_1
No ratings yet
DL_1
11 pages
Import As Import As From Import: "Mean Squared Errors: "
No ratings yet
Import As Import As From Import: "Mean Squared Errors: "
1 page
T2_summary_VHA
No ratings yet
T2_summary_VHA
14 pages
Capstone Project Report
No ratings yet
Capstone Project Report
187 pages
f3683849-7ca6-4854-8f96-af11b6e837ec
No ratings yet
f3683849-7ca6-4854-8f96-af11b6e837ec
20 pages
Data Analysis Advance House Price Prediction 1682585529
No ratings yet
Data Analysis Advance House Price Prediction 1682585529
73 pages
Untitled6.Ipynb - Colab
No ratings yet
Untitled6.Ipynb - Colab
6 pages
Evan Marie Carr - Python and SKlearn
No ratings yet
Evan Marie Carr - Python and SKlearn
32 pages
Boston Housing Solutions
No ratings yet
Boston Housing Solutions
3 pages
1684918425867
No ratings yet
1684918425867
14 pages
MDS372_LAB4_2448001
No ratings yet
MDS372_LAB4_2448001
17 pages
Ex 1
No ratings yet
Ex 1
119 pages
USA Real Estate Price Prediction Using Decision Tree Regressor, and AdaBoost Regressor
No ratings yet
USA Real Estate Price Prediction Using Decision Tree Regressor, and AdaBoost Regressor
14 pages
Eda On Housing Data
No ratings yet
Eda On Housing Data
7 pages
ML File 211173
No ratings yet
ML File 211173
19 pages
Chirag HOusing Price Pred
No ratings yet
Chirag HOusing Price Pred
12 pages
Document From Jahnavi
No ratings yet
Document From Jahnavi
20 pages
exp_3_ml
No ratings yet
exp_3_ml
3 pages
Examination Paper: Instruction To Candidates
No ratings yet
Examination Paper: Instruction To Candidates
3 pages
Operations Management 4
No ratings yet
Operations Management 4
17 pages
Linear Regression in Scikit-Learn (Sklearn) - An Introduction - Datagy
No ratings yet
Linear Regression in Scikit-Learn (Sklearn) - An Introduction - Datagy
22 pages
Interview Questions Set 1
No ratings yet
Interview Questions Set 1
3 pages
Spss 18 P 4
No ratings yet
Spss 18 P 4
21 pages
Bayesian Statistics: Thomas Bayes
No ratings yet
Bayesian Statistics: Thomas Bayes
22 pages
Unit 5: Test of Significance/Hypothesis Testing (Topics 20, 22, 23)
No ratings yet
Unit 5: Test of Significance/Hypothesis Testing (Topics 20, 22, 23)
24 pages
Jurnal - Indikator Sikap Wajib Pajak
No ratings yet
Jurnal - Indikator Sikap Wajib Pajak
10 pages
Introduction To Econometrics, 5 Edition: Chapter 3: Multiple Regression Analysis
No ratings yet
Introduction To Econometrics, 5 Edition: Chapter 3: Multiple Regression Analysis
16 pages
2K Factorial Experiments
No ratings yet
2K Factorial Experiments
45 pages
Vicky patil_Practical_9 - Colab
No ratings yet
Vicky patil_Practical_9 - Colab
4 pages
ST3001 - Week 4-1
No ratings yet
ST3001 - Week 4-1
12 pages
MATH 233 Syllabus-Revised
No ratings yet
MATH 233 Syllabus-Revised
3 pages
Data Analysis
100% (1)
Data Analysis
34 pages
AP Statistics Study Guide / Cheat Sheet
No ratings yet
AP Statistics Study Guide / Cheat Sheet
38 pages
Appliedeconometrics PDF
No ratings yet
Appliedeconometrics PDF
286 pages
Final - Econ3005 - 2022spring - Combined 2
No ratings yet
Final - Econ3005 - 2022spring - Combined 2
11 pages
Handout Time Series For Sem II 2020 PDF
No ratings yet
Handout Time Series For Sem II 2020 PDF
24 pages
L04-Statistical Testing
No ratings yet
L04-Statistical Testing
23 pages
MLSlides1 Selected Shared
No ratings yet
MLSlides1 Selected Shared
21 pages
Kimia Komputasi
No ratings yet
Kimia Komputasi
4 pages
Time Series Econometrics TSE48M1 Assignment: Due 25 June 2021 100 MARKS
No ratings yet
Time Series Econometrics TSE48M1 Assignment: Due 25 June 2021 100 MARKS
3 pages
One-Sample Estimation Problems: Nguyễn Thị Thu Thủy
No ratings yet
One-Sample Estimation Problems: Nguyễn Thị Thu Thủy
50 pages
MMW M6 CHECK-IN-ACTIVITY3 Sheet1
No ratings yet
MMW M6 CHECK-IN-ACTIVITY3 Sheet1
1 page
FINAL EXAM IN STAT
No ratings yet
FINAL EXAM IN STAT
5 pages
Topic 5
No ratings yet
Topic 5
11 pages
Assignment 5 - Engineering Statistics - Spring 2019
No ratings yet
Assignment 5 - Engineering Statistics - Spring 2019
5 pages
Time Series ARIMA Models PDF
No ratings yet
Time Series ARIMA Models PDF
22 pages
Binary Logistic Regression With PASW: Karl L. Wuensch Dept of Psychology East Carolina University
No ratings yet
Binary Logistic Regression With PASW: Karl L. Wuensch Dept of Psychology East Carolina University
81 pages