0% found this document useful (0 votes)

10 views5 pages

Experiment 2

The document details a data processing workflow using Python's pandas and scikit-learn libraries, focusing on a dataset containing information about individuals' country, age, salary, and purchase behavior. It includes steps for handling missing values, encoding categorical variables, and scaling numerical features. The final output consists of transformed training and test datasets ready for machine learning applications.

Uploaded by

INDU

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views5 pages

Experiment 2

Uploaded by

INDU

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

In [20]: import pandas as pd

dataset = pd.read_csv(r"C:\Users\ECSLAB 5\Downloads\Data1.csv - Sheet1.csv")

dataset

Out[20]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [21]: df = dataset.copy()
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values
print(X)

[['France' 44.0 72000.0]

['Spain' 27.0 48000.0]
['Germany' 30.0 54000.0]
['Spain' 38.0 61000.0]
['Germany' 40.0 nan]
['France' 35.0 58000.0]
['Spain' nan 52000.0]
['France' 48.0 79000.0]
['Germany' 50.0 83000.0]
['France' 37.0 67000.0]]

In [22]: print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']

In [23]: df.isnull().sum()

Out[23]: Country 0
Age 1
Salary 1
Purchased 0
dtype: int64

In [24]: df1 = df.copy()

print("Before:",df1.shape)
df1.dropna(inplace=True)
print("After:",df1.shape)
Before: (10, 4)
After: (8, 4)

In [26]: df2 = df.copy()

df2['Age']=df2['Age'].fillna(df2.Age.mean())
df2['Salary']=df2['Salary'].fillna(df2.Salary.mean())
df2

Out[26]: Country Age Salary Purchased

0 France 44.000000 72000.000000 No

1 Spain 27.000000 48000.000000 Yes

2 Germany 30.000000 54000.000000 No

3 Spain 38.000000 61000.000000 No

4 Germany 40.000000 63777.777778 Yes

5 France 35.000000 58000.000000 Yes

6 Spain 38.777778 52000.000000 No

7 France 48.000000 79000.000000 Yes

8 Germany 50.000000 83000.000000 No

9 France 37.000000 67000.000000 Yes

In [28]: X

Out[28]: array([['France', 44.0, 72000.0],

['Spain', 27.0, 48000.0],
['Germany', 30.0, 54000.0],
['Spain', 38.0, 61000.0],
['Germany', 40.0, nan],
['France', 35.0, 58000.0],
['Spain', nan, 52000.0],
['France', 48.0, 79000.0],
['Germany', 50.0, 83000.0],
['France', 37.0, 67000.0]], dtype=object)

In [30]: from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])
print(X)

[['France' 44.0 72000.0]

['Spain' 27.0 48000.0]
['Germany' 30.0 54000.0]
['Spain' 38.0 61000.0]
['Germany' 40.0 63777.77777777778]
['France' 35.0 58000.0]
['Spain' 38.77777777777778 52000.0]
['France' 48.0 79000.0]
['Germany' 50.0 83000.0]
['France' 37.0 67000.0]]

In [32]: from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
df

Out[32]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [33]: print(X)

[[1.0 0.0 0.0 44.0 72000.0]

[0.0 0.0 1.0 27.0 48000.0]
[0.0 1.0 0.0 30.0 54000.0]
[0.0 0.0 1.0 38.0 61000.0]
[0.0 1.0 0.0 40.0 63777.77777777778]
[1.0 0.0 0.0 35.0 58000.0]
[0.0 0.0 1.0 38.77777777777778 52000.0]
[1.0 0.0 0.0 48.0 79000.0]
[0.0 1.0 0.0 50.0 83000.0]
[1.0 0.0 0.0 37.0 67000.0]]

In [34]: df2
Out[34]: Country Age Salary Purchased

0 France 44.000000 72000.000000 No

1 Spain 27.000000 48000.000000 Yes

2 Germany 30.000000 54000.000000 No

3 Spain 38.000000 61000.000000 No

4 Germany 40.000000 63777.777778 Yes

5 France 35.000000 58000.000000 Yes

6 Spain 38.777778 52000.000000 No

7 France 48.000000 79000.000000 Yes

8 Germany 50.000000 83000.000000 No

9 France 37.000000 67000.000000 Yes

In [35]: pd.get_dummies(df2)

Out[35]: Age Salary Country_France Country_Germany Country_Spain Purchase

0 44.000000 72000.000000 True False False

1 27.000000 48000.000000 False False True

2 30.000000 54000.000000 False True False

3 38.000000 61000.000000 False False True

4 40.000000 63777.777778 False True False

5 35.000000 58000.000000 True False False

6 38.777778 52000.000000 False False True

7 48.000000 79000.000000 True False False

8 50.000000 83000.000000 False True False

9 37.000000 67000.000000 True False False

 

In [37]: from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(y)
print(y)

[0 1 0 0 1 1 0 1 0 1]

In [38]: from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, rando
print(X_train)
[[0.0 0.0 1.0 38.77777777777778 52000.0]
[0.0 1.0 0.0 40.0 63777.77777777778]
[1.0 0.0 0.0 44.0 72000.0]
[0.0 0.0 1.0 38.0 61000.0]
[0.0 0.0 1.0 27.0 48000.0]
[1.0 0.0 0.0 48.0 79000.0]
[0.0 1.0 0.0 50.0 83000.0]
[1.0 0.0 0.0 35.0 58000.0]]

In [39]: print(X_test)
print(y_train)
print(y_test)

[[0.0 1.0 0.0 30.0 54000.0]

[1.0 0.0 0.0 37.0 67000.0]]
[0 1 0 0 1 1 0 1]
[0 1]

In [40]: from sklearn.preprocessing import MinMaxScaler

mm = MinMaxScaler()
X_train[:, 3:] = mm.fit_transform(X_train[:, 3:])
X_test[:, 3:] = mm.transform(X_test[:, 3:])
print(X_train[:, 3:])

[[0.5120772946859904 0.11428571428571432]
[0.5652173913043479 0.45079365079365075]
[0.7391304347826089 0.6857142857142855]
[0.4782608695652175 0.37142857142857144]
[0.0 0.0]
[0.9130434782608696 0.8857142857142857]
[1.0 1.0]
[0.34782608695652173 0.2857142857142856]]

In [41]: print(X_test[:, 3:])

[[0.1304347826086958 0.17142857142857149]
[0.43478260869565233 0.5428571428571427]]

In [42]: from sklearn.preprocessing import StandardScaler

sta = StandardScaler()
X_train[:, 3:] = sta.fit_transform(X_train[:, 3:])
X_test[:, 3:] = sta.transform(X_test[:, 3:])
print(X_train[:, 3:])

[[-0.19159184384578537 -1.0781259408412425]
[-0.014117293757057581 -0.07013167641635436]
[0.5667085065333245 0.6335624327104541]
[-0.3045301939022482 -0.3078661727429788]
[-1.9018011447007983 -1.4204636155515822]
[1.1475343068237058 1.2326533634535486]
[1.4379472069688963 1.5749910381638883]
[-0.740149544120035 -0.5646194287757338]]

In [43]: print(X_test[:, 3:])

[[-1.4661817944830116 -0.9069571034860727]
[-0.4497366439748436 0.20564033932252992]]

In [ ]:

S 8401 PDF
No ratings yet
S 8401 PDF
110 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
12 Pandas
100% (1)
12 Pandas
21 pages
Pyhtonpractice Questions
No ratings yet
Pyhtonpractice Questions
5 pages
One Hot Encoding
No ratings yet
One Hot Encoding
12 pages
Programs of Python Pandas
No ratings yet
Programs of Python Pandas
15 pages
Opentext™ Vendor Invoice Management For Sap Solutions: Installation Guide
No ratings yet
Opentext™ Vendor Invoice Management For Sap Solutions: Installation Guide
290 pages
Manual of Diamond LCD Chess Game Time
100% (1)
Manual of Diamond LCD Chess Game Time
1 page
LAS WEEK 1 - Grade 10 ICT
No ratings yet
LAS WEEK 1 - Grade 10 ICT
4 pages
q8, q9, q10 Question and Answers
No ratings yet
q8, q9, q10 Question and Answers
16 pages
Day 18-9-2023 - Jupyter Notebook
No ratings yet
Day 18-9-2023 - Jupyter Notebook
8 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
17 pages
Machine Learning Program
No ratings yet
Machine Learning Program
12 pages
13-9-23 Data Pre-Processing - Jupyter Notebook
No ratings yet
13-9-23 Data Pre-Processing - Jupyter Notebook
6 pages
Set B
No ratings yet
Set B
8 pages
Fds Assign 3
No ratings yet
Fds Assign 3
4 pages
Lab Record IP
No ratings yet
Lab Record IP
13 pages
Practical 3
No ratings yet
Practical 3
8 pages
Suryadatta National School Class 12 CBSE Informatics Practices Practicals List
No ratings yet
Suryadatta National School Class 12 CBSE Informatics Practices Practicals List
19 pages
Cheat Sheet
No ratings yet
Cheat Sheet
15 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Ferramentas de Preprocessamento ML
No ratings yet
Ferramentas de Preprocessamento ML
2 pages
Dataframe
No ratings yet
Dataframe
19 pages
Practical File Ip
No ratings yet
Practical File Ip
27 pages
#Group: B (ML) : Numpy NP Pandas PD
No ratings yet
#Group: B (ML) : Numpy NP Pandas PD
9 pages
Heather Goodwin: 12235 Conveyor Court Bristow, VA 20136 C: 703-402-8921
No ratings yet
Heather Goodwin: 12235 Conveyor Court Bristow, VA 20136 C: 703-402-8921
4 pages
Pandas Part-2
No ratings yet
Pandas Part-2
9 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
ML Lab-1
No ratings yet
ML Lab-1
5 pages
Five Year Dataset
No ratings yet
Five Year Dataset
15 pages
Answers Practical File
No ratings yet
Answers Practical File
19 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
AD3301 - Data - Transformation - Ipynb - Colaboratory
No ratings yet
AD3301 - Data - Transformation - Ipynb - Colaboratory
27 pages
Python Slips
No ratings yet
Python Slips
9 pages
DMT Function
No ratings yet
DMT Function
10 pages
Pandas Py
No ratings yet
Pandas Py
20 pages
Prg7a - Jupyter Notebook
No ratings yet
Prg7a - Jupyter Notebook
12 pages
Week 5 LAB
No ratings yet
Week 5 LAB
23 pages
10) Merging Dataframes: # Detecting Duplicates
No ratings yet
10) Merging Dataframes: # Detecting Duplicates
7 pages
Lab File
No ratings yet
Lab File
96 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
ML
No ratings yet
ML
23 pages
Functionapplicationp PDF
No ratings yet
Functionapplicationp PDF
6 pages
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
No ratings yet
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
23 pages
Customer Segmentation With K-Means Clustering and Visualization - Colab
No ratings yet
Customer Segmentation With K-Means Clustering and Visualization - Colab
3 pages
Collaborative Review Task M2 1
No ratings yet
Collaborative Review Task M2 1
19 pages
PDF&Rendition 1
No ratings yet
PDF&Rendition 1
47 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
ML Practical 4D
No ratings yet
ML Practical 4D
11 pages
Pandas & Mysql
No ratings yet
Pandas & Mysql
20 pages
Acknowledgement
No ratings yet
Acknowledgement
25 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Python Pandas-DataFrames Complete - Jupyter Notebook
No ratings yet
Python Pandas-DataFrames Complete - Jupyter Notebook
34 pages
Pandas Notes
No ratings yet
Pandas Notes
47 pages
Assignment 7
No ratings yet
Assignment 7
1 page
WEBINTEL GUIDED LAB ACTIVITY Introduction To Pandas
No ratings yet
WEBINTEL GUIDED LAB ACTIVITY Introduction To Pandas
1 page
12 Pandas
No ratings yet
12 Pandas
14 pages
Solution
No ratings yet
Solution
8 pages
ATJ209X Program Guide v1.4
No ratings yet
ATJ209X Program Guide v1.4
137 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Numpy Boolean Indexing: Filter
No ratings yet
Numpy Boolean Indexing: Filter
39 pages
Exp 3
No ratings yet
Exp 3
10 pages
Pds
No ratings yet
Pds
3 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Customs Procedures Code (CPC)
No ratings yet
Customs Procedures Code (CPC)
17 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Data Analysis and Decision Making: A Case Study of Re-Accommodating Passengers For An Airline Company
No ratings yet
Data Analysis and Decision Making: A Case Study of Re-Accommodating Passengers For An Airline Company
16 pages
Control Theory Quiz
No ratings yet
Control Theory Quiz
28 pages
Calculating Devices FV
No ratings yet
Calculating Devices FV
13 pages
Think Like Programmers
No ratings yet
Think Like Programmers
6 pages
Domain PR Check List3!!! (8647)
No ratings yet
Domain PR Check List3!!! (8647)
304 pages
Charotar University of Science and Technology
No ratings yet
Charotar University of Science and Technology
39 pages
Firewall Ufw
No ratings yet
Firewall Ufw
10 pages
EE3706 - Chapter 6 - Capacitors and Inductors
No ratings yet
EE3706 - Chapter 6 - Capacitors and Inductors
27 pages
SUN2000-115kTL-M2 Datasheet
No ratings yet
SUN2000-115kTL-M2 Datasheet
2 pages
Software Development: Cansat Program
No ratings yet
Software Development: Cansat Program
22 pages
DBMS Lab Program-6
No ratings yet
DBMS Lab Program-6
4 pages
The Customers Will Be Able To Search For The Different Flower Bouquet Shops That Are Available Near To Their Places So That They Will Be Able To Order Online
No ratings yet
The Customers Will Be Able To Search For The Different Flower Bouquet Shops That Are Available Near To Their Places So That They Will Be Able To Order Online
32 pages
Non Traditional Machining Processes
No ratings yet
Non Traditional Machining Processes
108 pages
2nd Chapter
No ratings yet
2nd Chapter
55 pages
Data Structure Program
No ratings yet
Data Structure Program
9 pages
Logic Analyzer Fundamentals
No ratings yet
Logic Analyzer Fundamentals
32 pages
Excel Cad
No ratings yet
Excel Cad
8 pages
Inverse Laplace
No ratings yet
Inverse Laplace
25 pages
Impurity Measures in Decision Trees (Machine Learning) Impurity Measures
No ratings yet
Impurity Measures in Decision Trees (Machine Learning) Impurity Measures
39 pages
Inverse Laplace
No ratings yet
Inverse Laplace
25 pages
ACURIL XL Local Org Comm Invit. (Eng)
No ratings yet
ACURIL XL Local Org Comm Invit. (Eng)
2 pages
Programming Fundamentals PDF
No ratings yet
Programming Fundamentals PDF
56 pages
Diploma Maths
No ratings yet
Diploma Maths
39 pages
Constructor CPP Unit8
No ratings yet
Constructor CPP Unit8
28 pages
Fourier Series
No ratings yet
Fourier Series
3 pages
Implementation of An Image Search Engine - 1
No ratings yet
Implementation of An Image Search Engine - 1
31 pages
Inte 423 Exam Draft
No ratings yet
Inte 423 Exam Draft
3 pages
End-Of-Term Test Higher A
No ratings yet
End-Of-Term Test Higher A
4 pages
School Education and Sports Department
No ratings yet
School Education and Sports Department
1 page
Develop Snakes & Ladders Game Complete Guide with Code & Design
From Everand
Develop Snakes & Ladders Game Complete Guide with Code & Design
Anurag Pandey
No ratings yet
Develop Snake & Ladder Game in an Hour (Complete Guide with Code & Design)
From Everand
Develop Snake & Ladder Game in an Hour (Complete Guide with Code & Design)
Anurag Pandey
No ratings yet

Experiment 2

Uploaded by

Experiment 2

Uploaded by

In [20]: import pandas as pd

dataset = pd.read_csv(r"C:\Users\ECSLAB 5\Downloads\Data1.csv - Sheet1.csv")

Out[20]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

[['France' 44.0 72000.0]

In [24]: df1 = df.copy()

In [26]: df2 = df.copy()

Out[26]: Country Age Salary Purchased

0 France 44.000000 72000.000000 No

1 Spain 27.000000 48000.000000 Yes

2 Germany 30.000000 54000.000000 No

3 Spain 38.000000 61000.000000 No

4 Germany 40.000000 63777.777778 Yes

5 France 35.000000 58000.000000 Yes

6 Spain 38.777778 52000.000000 No

7 France 48.000000 79000.000000 Yes

8 Germany 50.000000 83000.000000 No

9 France 37.000000 67000.000000 Yes

Out[28]: array([['France', 44.0, 72000.0],

In [30]: from sklearn.impute import SimpleImputer

[['France' 44.0 72000.0]

In [32]: from sklearn.compose import ColumnTransformer

Out[32]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

[[1.0 0.0 0.0 44.0 72000.0]

0 France 44.000000 72000.000000 No

1 Spain 27.000000 48000.000000 Yes

2 Germany 30.000000 54000.000000 No

3 Spain 38.000000 61000.000000 No

4 Germany 40.000000 63777.777778 Yes

5 France 35.000000 58000.000000 Yes

6 Spain 38.777778 52000.000000 No

7 France 48.000000 79000.000000 Yes

8 Germany 50.000000 83000.000000 No

9 France 37.000000 67000.000000 Yes

Out[35]: Age Salary Country_France Country_Germany Country_Spain Purchase

0 44.000000 72000.000000 True False False

1 27.000000 48000.000000 False False True

2 30.000000 54000.000000 False True False

3 38.000000 61000.000000 False False True

4 40.000000 63777.777778 False True False

5 35.000000 58000.000000 True False False

6 38.777778 52000.000000 False False True

7 48.000000 79000.000000 True False False

8 50.000000 83000.000000 False True False

9 37.000000 67000.000000 True False False

In [37]: from sklearn.preprocessing import LabelEncoder

In [38]: from sklearn.model_selection import train_test_split

[[0.0 1.0 0.0 30.0 54000.0]

In [40]: from sklearn.preprocessing import MinMaxScaler

In [41]: print(X_test[:, 3:])

In [42]: from sklearn.preprocessing import StandardScaler

In [43]: print(X_test[:, 3:])

You might also like