4. Data Analytics I

The document outlines a laboratory exercise for a Data Science and Big Data Analytics course, focusing on linear regression using the California housing dataset. It details steps including loading the dataset, exploratory data analysis, data preprocessing, splitting the data, feature scaling, training the model, and evaluating its performance. The evaluation metrics include Mean Absolute Error, Mean Squared Error, Root Mean Squared Error, and R-Squared.

Uploaded by

Chirag Patekar

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

4. Data Analytics I

Uploaded by

Chirag Patekar

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Third Year Engineering (2019 Pattern)

Course Code: 310256

Course Name: Data Science and Big Data Analytics Laboratory
Group A
4) Data Analytics I
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error,
r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import fetch_california_housing

# Load the dataset (using sklearn since Kaggle may require API authentication)
boston = fetch_california_housing()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target # Target variable

# Step 2: Exploratory Data Analysis

print("\nDataset Information:")
print(df.info())
print("\nDataset Summary Statistics:")
print(df.describe())
# Step 3: Data Preprocessing
# Checking for missing values
print("\nMissing Values in Dataset:")
print(df.isnull().sum())

# Step 4: Splitting Data into Training and Testing Sets

X = df.drop(columns=['PRICE']) # Features
y = df['PRICE'] # Target variable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Standardizing features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Step 5: Train Linear Regression Model

model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Step 6: Evaluate Model Performance

y_pred = model.predict(X_test_scaled)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)
print(f"\nModel Performance:")
print(f"Mean Absolute Error (MAE): {mae}")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"R-Squared (R²): {r2}")

Explanation of Each Step:

1. Loading the Dataset

o Used sklearn.datasets. fetch_california_housing() to get the Boston
Housing data.
o Converted it into a Pandas DataFrame.
2. Exploratory Data Analysis (EDA)
o Displayed dataset info and summary statistics using .info()
and .describe().
3. Data Preprocessing
o Checked for missing values using .isnull().sum().
4. Splitting the Dataset
o Split the data into 80% training and 20% testing using
train_test_split().
5. Feature Scaling
o Standardized the data using StandardScaler().
6. Training the Linear Regression Model
o Fit a LinearRegression() model to the training data.
7. Model Evaluation
OUTPUT-

cz4041 Project Final Report Nyc Taxi Fare Prediction
0% (1)
cz4041 Project Final Report Nyc Taxi Fare Prediction
18 pages
Rubric For Simulation Activity
50% (2)
Rubric For Simulation Activity
3 pages
Legendary Og
No ratings yet
Legendary Og
1 page
House Price Prediction: Project Description
No ratings yet
House Price Prediction: Project Description
11 pages
Train
No ratings yet
Train
17 pages
5. Data Analytics II
No ratings yet
5. Data Analytics II
4 pages
Some Exercises
No ratings yet
Some Exercises
9 pages
1. Data Wrangling 1
No ratings yet
1. Data Wrangling 1
4 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
Python
No ratings yet
Python
4 pages
External
No ratings yet
External
11 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
3 Month AI Architect Learning Program
No ratings yet
3 Month AI Architect Learning Program
3 pages
Car-price-prediction (1)
No ratings yet
Car-price-prediction (1)
42 pages
Stat Lab
No ratings yet
Stat Lab
24 pages
UNITIV.BtechIot
No ratings yet
UNITIV.BtechIot
43 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
MBAN Assignment
No ratings yet
MBAN Assignment
2 pages
Advance Python
No ratings yet
Advance Python
5 pages
BCSL606 MACHINE LEARNING LAB
No ratings yet
BCSL606 MACHINE LEARNING LAB
33 pages
ML lab manual
No ratings yet
ML lab manual
25 pages
ML Lab Manual
No ratings yet
ML Lab Manual
24 pages
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
No ratings yet
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
5 pages
CP4252 Machine Learning Lab Manual
No ratings yet
CP4252 Machine Learning Lab Manual
26 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Machine learning lab manual
No ratings yet
Machine learning lab manual
22 pages
1Data Preprocessing
No ratings yet
1Data Preprocessing
4 pages
Final ML File
No ratings yet
Final ML File
34 pages
Major Project
No ratings yet
Major Project
17 pages
analysis-on-weight-capacity
No ratings yet
analysis-on-weight-capacity
4 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
T2_summary_VHA
No ratings yet
T2_summary_VHA
14 pages
Articles Xgboost Classification With Smote-Enn Algorithm
No ratings yet
Articles Xgboost Classification With Smote-Enn Algorithm
11 pages
Lecture02. ML Pipeline (Chapter 2)
No ratings yet
Lecture02. ML Pipeline (Chapter 2)
50 pages
Docu 4
No ratings yet
Docu 4
3 pages
sahil_ml
No ratings yet
sahil_ml
21 pages
BCSL606 MACHINE LEARNING LAB FINAL DRAFT
No ratings yet
BCSL606 MACHINE LEARNING LAB FINAL DRAFT
32 pages
ml_labmanual (3)
No ratings yet
ml_labmanual (3)
33 pages
lab ML
No ratings yet
lab ML
26 pages
S-9
No ratings yet
S-9
18 pages
Coding Question
No ratings yet
Coding Question
6 pages
ml record
No ratings yet
ml record
21 pages
Ml-Exp-3 - Jupyter Notebook
No ratings yet
Ml-Exp-3 - Jupyter Notebook
6 pages
Machine Learning Lab Manual (1)
No ratings yet
Machine Learning Lab Manual (1)
33 pages
pandas__prac
No ratings yet
pandas__prac
4 pages
Lab08 ML
No ratings yet
Lab08 ML
6 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
33 pages
Machine Learning Life Cycle Report
No ratings yet
Machine Learning Life Cycle Report
2 pages
Faisal Nadeem (SAP# 30601)
No ratings yet
Faisal Nadeem (SAP# 30601)
7 pages
Copy of Project 4 _ House Price Prediction.ipynb - Colab
No ratings yet
Copy of Project 4 _ House Price Prediction.ipynb - Colab
5 pages
ML LAB
No ratings yet
ML LAB
23 pages
som
No ratings yet
som
19 pages
ML Practical 205160694034
No ratings yet
ML Practical 205160694034
33 pages
SL-III Lab Manual
No ratings yet
SL-III Lab Manual
74 pages
Machine Learning Laboratory Manual
No ratings yet
Machine Learning Laboratory Manual
11 pages
Document From Jahnavi
No ratings yet
Document From Jahnavi
20 pages
ML JOURNAL
No ratings yet
ML JOURNAL
53 pages
221421601049 - MLA Lab Record [2024]
No ratings yet
221421601049 - MLA Lab Record [2024]
47 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
23 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
45-Vibrating Screens PDF
100% (2)
45-Vibrating Screens PDF
12 pages
104 E Lift Shaft System
No ratings yet
104 E Lift Shaft System
6 pages
Nintendo Gameboy Architecture and Design: Mitchell Cook and George Day
No ratings yet
Nintendo Gameboy Architecture and Design: Mitchell Cook and George Day
14 pages
C-Port Sleepers
No ratings yet
C-Port Sleepers
4 pages
Download Complete Managing Managed Care Psychotherapy and Medication Management in the Modern Era 1st Edition Robert Langs PDF for All Chapters
100% (7)
Download Complete Managing Managed Care Psychotherapy and Medication Management in the Modern Era 1st Edition Robert Langs PDF for All Chapters
77 pages
Smit.pdf
No ratings yet
Smit.pdf
14 pages
Written Work No. 1 Quarter 1: Math 3
100% (1)
Written Work No. 1 Quarter 1: Math 3
4 pages
Kundli
No ratings yet
Kundli
40 pages
Robowars: 1. Problem Statement
No ratings yet
Robowars: 1. Problem Statement
6 pages
Class Xii Informatics Practices
No ratings yet
Class Xii Informatics Practices
5 pages
Half Bridge Driver With IR2153 IGBT PDF
No ratings yet
Half Bridge Driver With IR2153 IGBT PDF
4 pages
June 2019 Paper Mark Scheme
No ratings yet
June 2019 Paper Mark Scheme
20 pages
Grade 11 - Aquaculture Summative Test # 1
No ratings yet
Grade 11 - Aquaculture Summative Test # 1
5 pages
JNKI SOP 010 Visual Examination Procedure
No ratings yet
JNKI SOP 010 Visual Examination Procedure
17 pages
Furuno Installation Manual
71% (7)
Furuno Installation Manual
35 pages
Sexual Objectification in Rap Songs
No ratings yet
Sexual Objectification in Rap Songs
8 pages
Mathematics: Unit Question
No ratings yet
Mathematics: Unit Question
6 pages
School of Professional Advancement
No ratings yet
School of Professional Advancement
3 pages
Indian Institute of Technology, Bombay. Lecture-3. An Overview of Surface Plasmon Resonanace (SPR)
No ratings yet
Indian Institute of Technology, Bombay. Lecture-3. An Overview of Surface Plasmon Resonanace (SPR)
32 pages
Forest and Wildlife Resources Class 6 Next Topper SST
100% (1)
Forest and Wildlife Resources Class 6 Next Topper SST
16 pages
Teaching Philosophy Lbs 400
No ratings yet
Teaching Philosophy Lbs 400
4 pages
NX Import Pax Files
No ratings yet
NX Import Pax Files
4 pages
Ral Communication Mix
No ratings yet
Ral Communication Mix
26 pages
Smoking Mindfulness
No ratings yet
Smoking Mindfulness
9 pages
Comparison of Rayleigh and Rician Fading Channel Under Frequency PDF
No ratings yet
Comparison of Rayleigh and Rician Fading Channel Under Frequency PDF
4 pages
job-172952141240258
No ratings yet
job-172952141240258
11 pages
Graph Theory and Algorithms Assignment 1: ×M Matrix. Consider A Graph G Whose Vertices Are The Entries
No ratings yet
Graph Theory and Algorithms Assignment 1: ×M Matrix. Consider A Graph G Whose Vertices Are The Entries
2 pages
Zigbee: A Review: Gurpreet Singh, Raghav Bhardwaj, Karamjeet Singh, Sahil Mehla
No ratings yet
Zigbee: A Review: Gurpreet Singh, Raghav Bhardwaj, Karamjeet Singh, Sahil Mehla
4 pages

4. Data Analytics I

Uploaded by

4. Data Analytics I

Uploaded by

Third Year Engineering (2019 Pattern)

Course Code: 310256

# Step 2: Exploratory Data Analysis

# Step 4: Splitting Data into Training and Testing Sets

# Step 5: Train Linear Regression Model

# Step 6: Evaluate Model Performance

Explanation of Each Step:

1. Loading the Dataset

You might also like