0% found this document useful (0 votes)

17 views2 pages

DMV - 3 - Jupyter Notebook

Uploaded by

Anushka Jadhav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views2 pages

DMV - 3 - Jupyter Notebook

Uploaded by

Anushka Jadhav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

10/6/24, 7:24 PM DMV_3 - Jupyter Notebook

In [1]: import pandas as pd

In [2]: df = pd.read_csv('Housing.csv')

In [3]: df.columns = df.columns.str.strip()

df.columns = df.columns.str.replace(' ', '_')
df.columns = df.columns.str.replace('[^A-Za-z0-9_]', '', regex=True)

In [4]: df.head()

Out[4]:
price area bedrooms bathrooms stories mainroad guestroom basement hotwaterheating airconditioning parking prefarea furnishingstatus

0 13300000 7420 4 2 3 yes no no no yes 2 yes furnished

1 12250000 8960 4 4 4 yes no no no yes 3 no furnished

2 12250000 9960 3 2 2 yes no yes no no 2 yes semi-furnished

3 12215000 7500 4 2 2 yes no yes no yes 3 yes furnished

4 11410000 7420 4 1 2 yes yes yes no yes 2 no furnished

In [5]: df.tail()

Out[5]:
price area bedrooms bathrooms stories mainroad guestroom basement hotwaterheating airconditioning parking prefarea furnishingstatus

540 1820000 3000 2 1 1 yes no yes no no 2 no unfurnished

541 1767150 2400 3 1 1 no no no no no 0 no semi-furnished

542 1750000 3620 2 1 1 yes no no no no 0 no unfurnished

543 1750000 2910 3 1 1 no no no no no 0 no furnished

544 1750000 3850 3 1 2 yes no no no no 0 no unfurnished

In [6]: df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545 entries, 0 to 544
Data columns (total 13 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 price 545 non-null int64
1 area 545 non-null int64
2 bedrooms 545 non-null int64
3 bathrooms 545 non-null int64
4 stories 545 non-null int64
5 mainroad 545 non-null object
6 guestroom 545 non-null object
7 basement 545 non-null object
8 hotwaterheating 545 non-null object
9 airconditioning 545 non-null object
10 parking 545 non-null int64
11 prefarea 545 non-null object
12 furnishingstatus 545 non-null object
dtypes: int64(6), object(7)
memory usage: 55.5+ KB

In [7]: df.describe()

Out[7]:
price area bedrooms bathrooms stories parking

count 5.450000e+02 545.000000 545.000000 545.000000 545.000000 545.000000

mean 4.766729e+06 5150.541284 2.965138 1.286239 1.805505 0.693578

std 1.870440e+06 2170.141023 0.738064 0.502470 0.867492 0.861586

min 1.750000e+06 1650.000000 1.000000 1.000000 1.000000 0.000000

25% 3.430000e+06 3600.000000 2.000000 1.000000 1.000000 0.000000

50% 4.340000e+06 4600.000000 3.000000 1.000000 2.000000 0.000000

75% 5.740000e+06 6360.000000 3.000000 2.000000 2.000000 1.000000

max 1.330000e+07 16200.000000 6.000000 4.000000 4.000000 3.000000

In [8]: df.shape

Out[8]: (545, 13)

localhost:8888/notebooks/BE_PRACTICALS/DMV_3.ipynb 1/2
10/6/24, 7:24 PM DMV_3 - Jupyter Notebook

In [9]: df.columns

Out[9]: Index(['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'mainroad',

'guestroom', 'basement', 'hotwaterheating', 'airconditioning',
'parking', 'prefarea', 'furnishingstatus'],
dtype='object')

In [10]: df.isnull().sum()

Out[10]: price 0
area 0
bedrooms 0
bathrooms 0
stories 0
mainroad 0
guestroom 0
basement 0
hotwaterheating 0
airconditioning 0
parking 0
prefarea 0
furnishingstatus 0
dtype: int64

In [16]: Categorical_Column = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'aircondtioning', 'prefarea', 'furnishing_statu

In [19]: filtered_data = df[df['price'] > 100000]

print("Filtered data: ", filtered_data.head())

Filtered data: price area bedrooms bathrooms stories mainroad guestroom basement \
0 13300000 7420 4 2 3 yes no no
1 12250000 8960 4 4 4 yes no no
2 12250000 9960 3 2 2 yes no yes
3 12215000 7500 4 2 2 yes no yes
4 11410000 7420 4 1 2 yes yes yes

hotwaterheating airconditioning parking prefarea furnishingstatus

0 no yes 2 yes furnished
1 no yes 3 no furnished
2 no no 2 yes semi-furnished
3 no yes 3 yes furnished
4 no yes 2 no furnished

In [21]: categorical_cols = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus

df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

In [23]: Q1 = df['price'].quantile(0.25)
Q3 = df['price'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

data_no_outliers = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
print("Data after removing outliers:\n", data_no_outliers.describe())

Data after removing outliers:

price area bedrooms bathrooms stories \
count 5.300000e+02 530.000000 530.000000 530.000000 530.000000
mean 4.600663e+06 5061.518868 2.943396 1.260377 1.788679
std 1.596119e+06 2075.449479 0.730515 0.464359 0.861190
min 1.750000e+06 1650.000000 1.000000 1.000000 1.000000
25% 3.430000e+06 3547.500000 2.000000 1.000000 1.000000
50% 4.270000e+06 4500.000000 3.000000 1.000000 2.000000
75% 5.600000e+06 6315.750000 3.000000 1.000000 2.000000
max 9.100000e+06 15600.000000 6.000000 3.000000 4.000000

parking
count 530.000000
mean 0.664151
std 0.843320
min 0.000000
25% 0.000000
50% 0.000000
75% 1.000000
max 3.000000

In [ ]:

localhost:8888/notebooks/BE_PRACTICALS/DMV_3.ipynb 2/2

Multiple - Linear - Regression - AirBNB - Student - File0.2 - New (1) .Ipynb - Colaboratory
No ratings yet
Multiple - Linear - Regression - AirBNB - Student - File0.2 - New (1) .Ipynb - Colaboratory
8 pages
House Rent Prediction EDA
No ratings yet
House Rent Prediction EDA
35 pages
Eda On Housing Data
No ratings yet
Eda On Housing Data
7 pages
Exp 10
No ratings yet
Exp 10
1 page
R Prerequisite1
No ratings yet
R Prerequisite1
4 pages
House Price Prediction: # Importing Necessary Libraries
No ratings yet
House Price Prediction: # Importing Necessary Libraries
18 pages
BCA 5th Sem Lab (ML)
No ratings yet
BCA 5th Sem Lab (ML)
20 pages
Housing Linear
No ratings yet
Housing Linear
3 pages
Machine Learning
No ratings yet
Machine Learning
11 pages
Data Science Project
No ratings yet
Data Science Project
7 pages
Housing Case Study Using RFE (MLR) PDF
No ratings yet
Housing Case Study Using RFE (MLR) PDF
38 pages
Housing
No ratings yet
Housing
10 pages
Multiple Linear Regression Housing Case Study PDF
No ratings yet
Multiple Linear Regression Housing Case Study PDF
151 pages
Eda Project
No ratings yet
Eda Project
28 pages
House - Price - Prediction
No ratings yet
House - Price - Prediction
16 pages
Capstone Project Report
No ratings yet
Capstone Project Report
187 pages
IE0005 Exercise Solutions 2-6
No ratings yet
IE0005 Exercise Solutions 2-6
84 pages
Exercise2 Solution
No ratings yet
Exercise2 Solution
15 pages
IndianHouses 1695069727
No ratings yet
IndianHouses 1695069727
7 pages
Housing Prices Notebook
No ratings yet
Housing Prices Notebook
14 pages
Assignement 4
No ratings yet
Assignement 4
6 pages
Housing
No ratings yet
Housing
14 pages
Housing Main
No ratings yet
Housing Main
23 pages
Multiple - Linear - Regression - AirBNB - Solution-0.2 - New - Ipynb - Colaboratory
No ratings yet
Multiple - Linear - Regression - AirBNB - Solution-0.2 - New - Ipynb - Colaboratory
11 pages
House Price Prediction Models
No ratings yet
House Price Prediction Models
16 pages
Ex 1
No ratings yet
Ex 1
119 pages
00 Data Wrangling
No ratings yet
00 Data Wrangling
10 pages
Week 12
No ratings yet
Week 12
2 pages
Predicting Home Prices in Bangalore
No ratings yet
Predicting Home Prices in Bangalore
18 pages
Assigment1 - Manuel Tapia
No ratings yet
Assigment1 - Manuel Tapia
3 pages
Real Estate Price Prediction Model
No ratings yet
Real Estate Price Prediction Model
33 pages
COMM1110 Assese Property Data (1) Histogram
No ratings yet
COMM1110 Assese Property Data (1) Histogram
134 pages
Air BNB Data Analysis
No ratings yet
Air BNB Data Analysis
12 pages
Pract1.printdsbdapdf 2
No ratings yet
Pract1.printdsbdapdf 2
7 pages
House Price Prediction
No ratings yet
House Price Prediction
14 pages
Assignment-2: Pandas PD Numpy NP Seaborn Sns Matplotlib - Pyplot PLT
No ratings yet
Assignment-2: Pandas PD Numpy NP Seaborn Sns Matplotlib - Pyplot PLT
14 pages
Housing Prices Linear Regression
No ratings yet
Housing Prices Linear Regression
3 pages
Statisitics Project 4
No ratings yet
Statisitics Project 4
13 pages
Real Estate Project
No ratings yet
Real Estate Project
14 pages
Quantam - Learning - Colaboratory
No ratings yet
Quantam - Learning - Colaboratory
13 pages
Linear Regression - House Price Prediction
100% (2)
Linear Regression - House Price Prediction
174 pages
CSV File
No ratings yet
CSV File
7 pages
Deep Learning - House Price Prediction
No ratings yet
Deep Learning - House Price Prediction
17 pages
Kaggle House Prices Advanced Regression Techniques
No ratings yet
Kaggle House Prices Advanced Regression Techniques
87 pages
Airbnb Project
No ratings yet
Airbnb Project
3,882 pages
Use The Method Value - Counts To Count The Number O...
No ratings yet
Use The Method Value - Counts To Count The Number O...
3 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
House 2
No ratings yet
House 2
11 pages
House Price Prediction
No ratings yet
House Price Prediction
1 page
Delhi House Price Prediction 1692019997
No ratings yet
Delhi House Price Prediction 1692019997
34 pages
DL 1
No ratings yet
DL 1
11 pages
Q 1
No ratings yet
Q 1
2 pages
Kaggle Machine Learning
No ratings yet
Kaggle Machine Learning
6 pages
Final DA LAB1 Merged
No ratings yet
Final DA LAB1 Merged
48 pages
ML Lab34
No ratings yet
ML Lab34
29 pages
W1D5 - EDA Airbnb - Part1 - Loading To Cleaning - Solutions
No ratings yet
W1D5 - EDA Airbnb - Part1 - Loading To Cleaning - Solutions
26 pages
Assignment 1
No ratings yet
Assignment 1
3 pages
Data Cleaning On Melbourne Housing
No ratings yet
Data Cleaning On Melbourne Housing
16 pages
Introduction To Machine Learning (ML) With Sklearn
No ratings yet
Introduction To Machine Learning (ML) With Sklearn
10 pages
Updated Placement Report Final Modified
No ratings yet
Updated Placement Report Final Modified
457 pages
DMV - 1 - Jupyter Notebook
No ratings yet
DMV - 1 - Jupyter Notebook
4 pages
DMV - 6 - Jupyter Notebook
No ratings yet
DMV - 6 - Jupyter Notebook
6 pages
Clustering - With - Elbow - Plot - ML - 4 - Jupyter Notebook
No ratings yet
Clustering - With - Elbow - Plot - ML - 4 - Jupyter Notebook
6 pages
Ensmble - Learning - ML - 5 - Jupyter Notebook
No ratings yet
Ensmble - Learning - ML - 5 - Jupyter Notebook
7 pages
Gym Lighting Guidelines Rev 1
No ratings yet
Gym Lighting Guidelines Rev 1
10 pages
OROA - Eichholtz Magazine 2022
No ratings yet
OROA - Eichholtz Magazine 2022
98 pages
P2408 - Sec 1 (26m ROW) .
No ratings yet
P2408 - Sec 1 (26m ROW) .
32 pages
Picture: Item No. Description Price
No ratings yet
Picture: Item No. Description Price
124 pages
The Bedroom: English Vocabulary
No ratings yet
The Bedroom: English Vocabulary
2 pages
Labour Productivity - Plaster
No ratings yet
Labour Productivity - Plaster
1 page
Light MRP
No ratings yet
Light MRP
11 pages
Luminette Data Sheet
No ratings yet
Luminette Data Sheet
2 pages
Basic Concept of Architectural Interiors and Its Definition-1
No ratings yet
Basic Concept of Architectural Interiors and Its Definition-1
22 pages
Lighting Terminologies
No ratings yet
Lighting Terminologies
10 pages
Loft Design System
No ratings yet
Loft Design System
39 pages
BROCHURE - Imperium Penthouse 052721
No ratings yet
BROCHURE - Imperium Penthouse 052721
20 pages
Katalog Lemari Baju Besi TMR P.sonny
No ratings yet
Katalog Lemari Baju Besi TMR P.sonny
5 pages
Mini Mart 1
No ratings yet
Mini Mart 1
7 pages
Tid Master Profile - 23
No ratings yet
Tid Master Profile - 23
16 pages
Hele 5
No ratings yet
Hele 5
3 pages
SBS5312 1718 04-Indoor Lighting Design
No ratings yet
SBS5312 1718 04-Indoor Lighting Design
54 pages
SL Coustom Duty Rates
No ratings yet
SL Coustom Duty Rates
8 pages
Maple Wood - Ceiling Layout
No ratings yet
Maple Wood - Ceiling Layout
1 page
Bataan Heroes Colleg1
No ratings yet
Bataan Heroes Colleg1
6 pages
Luxmate Emotion
No ratings yet
Luxmate Emotion
23 pages
House There Be Picture Dictionaries 56906
No ratings yet
House There Be Picture Dictionaries 56906
4 pages
Admin & Tourism Center 1
No ratings yet
Admin & Tourism Center 1
1 page
Illumination 1
No ratings yet
Illumination 1
14 pages
Sterner Circa-Lite Series Spec Sheet 1969
No ratings yet
Sterner Circa-Lite Series Spec Sheet 1969
3 pages
Diploma Training Nekzad
No ratings yet
Diploma Training Nekzad
25 pages
DIN EN 13272 1 2019 en
No ratings yet
DIN EN 13272 1 2019 en
30 pages
Balcony
No ratings yet
Balcony
1 page
Catalogo Tecnolite
No ratings yet
Catalogo Tecnolite
149 pages
Plant: Tan Thang Cement Plant: Status: Issued For
No ratings yet
Plant: Tan Thang Cement Plant: Status: Issued For
19 pages

DMV - 3 - Jupyter Notebook

Uploaded by

DMV - 3 - Jupyter Notebook

Uploaded by

10/6/24, 7:24 PM DMV_3 - Jupyter Notebook

In [1]: import pandas as pd

In [3]: df.columns = df.columns.str.strip()

0 13300000 7420 4 2 3 yes no no no yes 2 yes furnished

1 12250000 8960 4 4 4 yes no no no yes 3 no furnished

2 12250000 9960 3 2 2 yes no yes no no 2 yes semi-furnished

3 12215000 7500 4 2 2 yes no yes no yes 3 yes furnished

4 11410000 7420 4 1 2 yes yes yes no yes 2 no furnished

540 1820000 3000 2 1 1 yes no yes no no 2 no unfurnished

541 1767150 2400 3 1 1 no no no no no 0 no semi-furnished

542 1750000 3620 2 1 1 yes no no no no 0 no unfurnished

543 1750000 2910 3 1 1 no no no no no 0 no furnished

544 1750000 3850 3 1 2 yes no no no no 0 no unfurnished

count 5.450000e+02 545.000000 545.000000 545.000000 545.000000 545.000000

mean 4.766729e+06 5150.541284 2.965138 1.286239 1.805505 0.693578

std 1.870440e+06 2170.141023 0.738064 0.502470 0.867492 0.861586

min 1.750000e+06 1650.000000 1.000000 1.000000 1.000000 0.000000

25% 3.430000e+06 3600.000000 2.000000 1.000000 1.000000 0.000000

50% 4.340000e+06 4600.000000 3.000000 1.000000 2.000000 0.000000

75% 5.740000e+06 6360.000000 3.000000 2.000000 2.000000 1.000000

max 1.330000e+07 16200.000000 6.000000 4.000000 4.000000 3.000000

Out[8]: (545, 13)

Out[9]: Index(['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'mainroad',

In [16]: Categorical_Column = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'aircondtioning', 'prefarea', 'furnishing_statu

In [19]: filtered_data = df[df['price'] > 100000]

hotwaterheating airconditioning parking prefarea furnishingstatus

In [21]: categorical_cols = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus

Data after removing outliers:

You might also like