0% found this document useful (0 votes)

28 views6 pages

13-9-23 Data Pre-Processing - Jupyter Notebook

Uploaded by

Vidisha Arvind

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views6 pages

13-9-23 Data Pre-Processing - Jupyter Notebook

Uploaded by

Vidisha Arvind

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

In [1]:

1 import pandas as pd
2 import matplotlib.pyplot as plt

In [35]:

1 # Read the dataset

2 data=pd.read_csv("Datanew1.csv")
3 data

Out[35]:

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 NaN

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

10 France 44.0 72000.0 No

11 Spain 27.0 48000.0 Yes

12 Germany 30.0 54000.0 NaN

13 NaN 38.0 61000.0 No

14 Germany 40.0 NaN Yes

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

In [4]:

1 type(data)
2

Out[4]:

pandas.core.frame.DataFrame
In [5]:

1 # Operations on Data Frame

2
3 # head()---top 5 rows
4
5 data.head()

Out[5]:

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

In [6]:

1 data.head(2)

Out[6]:

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

In [7]:

1 # tail()- last 5 rows

2
3
4 data.tail()

Out[7]:

Country Age Salary Buy

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

In [8]:

1 # check the shape of the dataset

2
3 data.shape

Out[8]:

(20, 4)

In [36]:

1 # display the columns name

2
3 data.columns

Out[36]:

Index(['Country', 'Age', 'Salary', 'Buy'], dtype='object')

In [37]:

1 data.columns=['Country', 'AGE', 'Salary', 'Buy']

In [38]:

1 data

Out[38]:

Country AGE Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 NaN

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

10 France 44.0 72000.0 No

11 Spain 27.0 48000.0 Yes

12 Germany 30.0 54000.0 NaN

13 NaN 38.0 61000.0 No

14 Germany 40.0 NaN Yes

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

In [39]:

1 data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Country 18 non-null object
1 AGE 18 non-null float64
2 Salary 18 non-null float64
3 Buy 16 non-null object
dtypes: float64(2), object(2)
memory usage: 768.0+ bytes
In [41]:

1 data.index

Out[41]:

RangeIndex(start=0, stop=20, step=1)

In [42]:

1 data.T

Out[42]:

0 1 2 3 4 5 6 7 8 9

Country France Spain Germany NaN Germany France Spain France Germany France

AGE 44 27 30 38 40 35 NaN 48 50 37

Salary 72000 48000 54000 61000 NaN 58000 52000 79000 83000 67000

Buy No Yes NaN No Yes Yes No NaN No Yes

performing the data frame operations

head(), tail(), shape, columns, index, T, info()

mean(), median(), mode(), std(), min(), max()

In [44]:

1 # check the presence of missing value

2
3 data.isnull().sum()

Out[44]:

Country 2
AGE 2
Salary 2
Buy 4
dtype: int64
In [45]:

1 data.isna().sum()

Out[45]:

Country 2
AGE 2
Salary 2
Buy 4
dtype: int64

In [ ]:

Pandas Complete Notes
No ratings yet
Pandas Complete Notes
105 pages
NCAT Asphalt Content Tester Manual
100% (3)
NCAT Asphalt Content Tester Manual
118 pages
Continental GPEC2 Locked
100% (5)
Continental GPEC2 Locked
3 pages
Viagens As Terras Goianas - Oscar Leal
100% (1)
Viagens As Terras Goianas - Oscar Leal
285 pages
B "Hello, World!" Print (B (2:5) ) Llo
No ratings yet
B "Hello, World!" Print (B (2:5) ) Llo
52 pages
12 Pandas
100% (1)
12 Pandas
21 pages
Apache Refresh Final Bulletin
No ratings yet
Apache Refresh Final Bulletin
7 pages
Research: Motives of Vinyl Use (Author: Robert Arndt)
100% (1)
Research: Motives of Vinyl Use (Author: Robert Arndt)
30 pages
Top 50 Angularjs Interview Questions and Answers
No ratings yet
Top 50 Angularjs Interview Questions and Answers
83 pages
Pitot Static System
No ratings yet
Pitot Static System
5 pages
Pandas Python For Data Science
100% (1)
Pandas Python For Data Science
1 page
PowerShell 2.0
No ratings yet
PowerShell 2.0
159 pages
Pandas Commands
No ratings yet
Pandas Commands
3 pages
Spec For Rim Seal Fire Protection System
No ratings yet
Spec For Rim Seal Fire Protection System
5 pages
Battery Energy Storage Capacity Estimation For Microgrids Using Digital Twin Concept
No ratings yet
Battery Energy Storage Capacity Estimation For Microgrids Using Digital Twin Concept
18 pages
Mb200 Manu
No ratings yet
Mb200 Manu
22 pages
MARINE Cables
No ratings yet
MARINE Cables
117 pages
Study On Nokia
No ratings yet
Study On Nokia
44 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
17 pages
WA State AG & WA Bar Assoc Complaint Against Getty Images and Timothy McCormack
No ratings yet
WA State AG & WA Bar Assoc Complaint Against Getty Images and Timothy McCormack
27 pages
Inter-Process Communication
No ratings yet
Inter-Process Communication
37 pages
Practical File Ip
No ratings yet
Practical File Ip
27 pages
Dataframe
No ratings yet
Dataframe
19 pages
Pyhon Solution
No ratings yet
Pyhon Solution
45 pages
Task 6
No ratings yet
Task 6
14 pages
Pandas
No ratings yet
Pandas
44 pages
Python Lab
No ratings yet
Python Lab
8 pages
GR12 Record Programs 6TH Onwards
No ratings yet
GR12 Record Programs 6TH Onwards
18 pages
NTPC Ad2013
No ratings yet
NTPC Ad2013
4 pages
Stockhausen2003 PDF
No ratings yet
Stockhausen2003 PDF
16 pages
Ip Practical
No ratings yet
Ip Practical
23 pages
06 Principles of Rockets
No ratings yet
06 Principles of Rockets
19 pages
Python Pandas-DataFrames Complete - Jupyter Notebook
No ratings yet
Python Pandas-DataFrames Complete - Jupyter Notebook
34 pages
Valves To Drop and Cause Damage PS53785
No ratings yet
Valves To Drop and Cause Damage PS53785
12 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
Projet Swift
No ratings yet
Projet Swift
12 pages
Observation: Import As Import As Import As Import As
No ratings yet
Observation: Import As Import As Import As Import As
31 pages
Set B
No ratings yet
Set B
8 pages
Jupyter Notebook Viewer1
No ratings yet
Jupyter Notebook Viewer1
17 pages
10cm Corona
No ratings yet
10cm Corona
7 pages
Short Notes On Pandas
No ratings yet
Short Notes On Pandas
21 pages
Care & Cleaning - Stainless Steel PDF
No ratings yet
Care & Cleaning - Stainless Steel PDF
7 pages
Five Year Dataset
No ratings yet
Five Year Dataset
15 pages
Pandas Part-2
No ratings yet
Pandas Part-2
9 pages
Machine Learning Program
No ratings yet
Machine Learning Program
12 pages
Xii Record (Dataframe & CSV)
No ratings yet
Xii Record (Dataframe & CSV)
11 pages
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
No ratings yet
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
23 pages
Cheat Sheet
No ratings yet
Cheat Sheet
15 pages
12 Pandas
No ratings yet
12 Pandas
14 pages
Table of Musical Notes Note HZ
No ratings yet
Table of Musical Notes Note HZ
6 pages
Ip Project New
No ratings yet
Ip Project New
13 pages
10) Merging Dataframes: # Detecting Duplicates
No ratings yet
10) Merging Dataframes: # Detecting Duplicates
7 pages
1 Import and Handling Data - Jupyter Notebook
No ratings yet
1 Import and Handling Data - Jupyter Notebook
9 pages
Space Frame Structures
No ratings yet
Space Frame Structures
10 pages
Penerapan Model Problem Based Learning (PBL) Disertai Metode
No ratings yet
Penerapan Model Problem Based Learning (PBL) Disertai Metode
7 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Day 18-9-2023 - Jupyter Notebook
No ratings yet
Day 18-9-2023 - Jupyter Notebook
8 pages
Pyhtonpractice Questions
No ratings yet
Pyhtonpractice Questions
5 pages
Cheat Python
No ratings yet
Cheat Python
8 pages
Nam Dinh
No ratings yet
Nam Dinh
7 pages
lab2-IDA - Ipynb - Colaboratory
No ratings yet
lab2-IDA - Ipynb - Colaboratory
6 pages
Pandas - Cheat - Sheet
No ratings yet
Pandas - Cheat - Sheet
6 pages
DA Basics
No ratings yet
DA Basics
6 pages
Experiment 2
No ratings yet
Experiment 2
5 pages
Day08-Pandas-Tutorial: Pandas - by Punith V T
No ratings yet
Day08-Pandas-Tutorial: Pandas - by Punith V T
8 pages
Product Line Up TSP Business: Emergency Genset Oil & Gas Industrial Equipment
No ratings yet
Product Line Up TSP Business: Emergency Genset Oil & Gas Industrial Equipment
2 pages
EDA Diwali Sale Analysis Project
No ratings yet
EDA Diwali Sale Analysis Project
11 pages
Multi Index
No ratings yet
Multi Index
5 pages
Chapter Iv
No ratings yet
Chapter Iv
4 pages
The Ab Breather Mount: Sampling Range 0 - 125 Psi (0 - 0.86 Mpa)
No ratings yet
The Ab Breather Mount: Sampling Range 0 - 125 Psi (0 - 0.86 Mpa)
1 page
Pandas Notes
No ratings yet
Pandas Notes
47 pages
Pandas
No ratings yet
Pandas
20 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Pandas Python For Data Science
No ratings yet
Pandas Python For Data Science
1 page
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
Module 05.0 - PA - Pandas - DataFrame - Select - Data
No ratings yet
Module 05.0 - PA - Pandas - DataFrame - Select - Data
3 pages
Attribute of Dataframe
No ratings yet
Attribute of Dataframe
2 pages
To Be Certified and Stamped by The SIC: A. Applicant'S Information
No ratings yet
To Be Certified and Stamped by The SIC: A. Applicant'S Information
1 page
Danby Dpa085b1gb Specification Sheet
No ratings yet
Danby Dpa085b1gb Specification Sheet
1 page
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Python Cheatsy
No ratings yet
Python Cheatsy
1 page
Pandaspythonfordatascience
No ratings yet
Pandaspythonfordatascience
1 page
WEBINTEL GUIDED LAB ACTIVITY Introduction To Pandas
No ratings yet
WEBINTEL GUIDED LAB ACTIVITY Introduction To Pandas
1 page
Data Smart: Using Data Science to Transform Information into Insight
From Everand
Data Smart: Using Data Science to Transform Information into Insight
John W. Foreman
4.5/5 (20)
Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection
From Everand
Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection
Bart Baesens
No ratings yet
Develop Snakes & Ladders Game Complete Guide with Code & Design
From Everand
Develop Snakes & Ladders Game Complete Guide with Code & Design
Anurag Pandey
No ratings yet
Simple Electronics with GPIO Zero: Take Control of the Real World With your Raspberry Pi
From Everand
Simple Electronics with GPIO Zero: Take Control of the Real World With your Raspberry Pi
Phil King
5/5 (1)
Develop Snake & Ladder Game in an Hour (Complete Guide with Code & Design)
From Everand
Develop Snake & Ladder Game in an Hour (Complete Guide with Code & Design)
Anurag Pandey
No ratings yet
The Smart Math Tricks Secrets to Solving Math Fast and Easy
From Everand
The Smart Math Tricks Secrets to Solving Math Fast and Easy
Leonardo Cruz
No ratings yet

13-9-23 Data Pre-Processing - Jupyter Notebook

Uploaded by

13-9-23 Data Pre-Processing - Jupyter Notebook

Uploaded by

In [1]:

1 # Read the dataset

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 NaN

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

10 France 44.0 72000.0 No

11 Spain 27.0 48000.0 Yes

12 Germany 30.0 54000.0 NaN

13 NaN 38.0 61000.0 No

14 Germany 40.0 NaN Yes

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

1 # Operations on Data Frame

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

Country Age Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

1 # tail()- last 5 rows

Country Age Salary Buy

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

1 # check the shape of the dataset

1 # display the columns name

Index(['Country', 'Age', 'Salary', 'Buy'], dtype='object')

1 data.columns=['Country', 'AGE', 'Salary', 'Buy']

Country AGE Salary Buy

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 NaN

3 NaN 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 NaN

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

10 France 44.0 72000.0 No

11 Spain 27.0 48000.0 Yes

12 Germany 30.0 54000.0 NaN

13 NaN 38.0 61000.0 No

14 Germany 40.0 NaN Yes

15 France 35.0 58000.0 Yes

16 Spain NaN 52000.0 No

17 France 48.0 79000.0 NaN

18 Germany 50.0 83000.0 No

19 France 37.0 67000.0 Yes

RangeIndex(start=0, stop=20, step=1)

Buy No Yes NaN No Yes Yes No NaN No Yes

performing the data frame operations

head(), tail(), shape, columns, index, T, info()

mean(), median(), mode(), std(), min(), max()

1 # check the presence of missing value

You might also like