0% found this document useful (0 votes)

40 views19 pages

Python Data Analysis with Numpy & Pandas

The document provides an overview of Numpy and Pandas, two essential Python libraries for numerical computing and data manipulation, respectively. It covers key features, data loading, cleaning, preprocessing, encoding categorical data, and scaling techniques. The summary emphasizes the importance of these libraries in data analysis and machine learning workflows.

Uploaded by

er saroya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

40 views19 pages

Python Data Analysis with Numpy & Pandas

Uploaded by

er saroya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Python Libraries: Numpy and Pandas

NIELIT Chandigarh/Ropar

"In God we trust, all others must bring data." – W. Edwards Deming
Numpy
Numpy
Definition: A library for numerical computing in Python.
Key Features:
• Support for multi-dimensional arrays.
• Mathematical functions for fast operations.
Example:
import numpy as np
# Create a 1D array OUTPUT:
data = [Link]([1, 2, 3, 4])
print(data)
# Perform operations
print([Link]()) # Mean value
print(data + 5) # Element-wise addition

NIELIT CHANDIGARH 2
Pandas
Definition: A library for data manipulation and analysis.
• Key Features:
• DataFrames: 2D labeled data structures.
• Easy handling of missing data.
• Integration with CSV, Excel, and databases.
Example: Output:
import pandas as pd
# Create a DataFrame
data = {'Name': [‘Raju', ‘Priya'], 'Age': [25, 30]}
df = [Link](data)
print(df)
# Inspect DataFrame
print([Link]()) # First few rows
print([Link]()) # Summary statistics

NIELIT CHANDIGARH 3
Loading and Inspecting Datasets
Loading CSV Files
# Load a dataset
import pandas as pd
data = pd.read_csv('./[Link]')
print(data)

Inspecting Data
• View First 5 Rows: [Link]()
• Shape of Data: [Link]
• Column Names: [Link]
• Basic Statistics: [Link]()

NIELIT CHANDIGARH 4
Loading and Inspecting Datasets
• Loading a CSV file:
data = pd.read_csv('./[Link]’) # Replace '[Link]' with your file path

Inspecting Data:
• View first few rows:
print([Link]())
• Summary of data:
print([Link]())
• Descriptive statistics:
print([Link]())
• Check for null values:
print([Link]().sum())

NIELIT CHANDIGARH 5
Data Cleaning and Preprocessing
1. Always check your data for missing
Handling Missing Values values before using dropna():
Why: print([Link]().sum())
2. Use inplace=False if you want to keep
• Missing values can distort analysis and results.
the original DataFrame intact.
• Missing data can skew analysis and lead to incorrect conclusions.
Methods:

• Fill Missing Values:

[Link](value=0, inplace=True) # Fill missing values with 0
print(df)
data['ColumnName'].fillna(value, inplace=True)
Example: data['Age'].fillna(25, inplace=True)
# Replaces all NaN values in the 'Age' column with 25.

NIELIT CHANDIGARH 6
Data Cleaning and Preprocessing
import pandas as pd
# Load the dataset
df = pd.read_csv('./[Link]’)
# Fill missing values with 0 (create a new modified DataFrame)
df = [Link](value=0)
# Print the DataFrame
print(df)
• If you prefer to modify the DataFrame in place, you can use:
[Link](value=0, inplace=True)
print(df)

NIELIT CHANDIGARH 7
Data Cleaning and Preprocessing
import pandas as pd

# Create the DataFrame

df = [Link]({'Name': ["Ajay", "Vishal", "Raj"],
'Age': [24, None, 19]})

# Modify the DataFrame directly

[Link](0, inplace=True)

# Print the DataFrame

print(df)

NIELIT CHANDIGARH 8
Data Cleaning and Preprocessing
Handle Missing Values
◦ Drop Missing Values: Remove rows or columns with missing data.
• Drop Rows or Columns

[Link](inplace=True)

◦ Drop columns with missing values

data = [Link](axis=1)

NIELIT CHANDIGARH 9
Data Cleaning and Preprocessing
• Parameters:
1. axis (default = 0):
1. Specifies whether to drop rows or columns.
1. axis=0: Drop rows with missing values.
2. axis=1: Drop columns with missing values.
Example:
[Link](axis=1, inplace=True) # Drops columns with NaN values.
2. how (default = 'any'):
• Defines the condition to drop rows or columns:
• 'any': Drops rows/columns if any value is missing.
• 'all': Drops rows/columns only if all values are missing.
Example:
[Link](how='all', inplace=True) # Drops rows where all values are NaN.

NIELIT CHANDIGARH 10
Data Cleaning and Preprocessing
3. thresh:
• Requires a minimum number of non-NaN values to retain the row/column.
Example:
[Link](thresh=3, inplace=True) # Keeps rows with at least 3 non-NaN values.
4. subset:
• Allows specifying columns to check for missing values instead of the entire
DataFrame.
Example:
[Link](subset=['Column1', 'Column2'], inplace=True) # Drops rows based on NaNs in
specified columns.
5. inplace (default = False):
◦ If True, makes changes directly to the original DataFrame.
◦ If False, returns a new DataFrame with rows/columns dropped.

NIELIT CHANDIGARH 11
Data Cleaning and Preprocessing
• Handle Missing Values
Fill Missing Values
◦ With a constant value:

data['ColumnName'] = data['ColumnName'].fillna('Value’)

◦ With the mean, median, or mode:

data['ColumnName'] = data['ColumnName'].fillna(data['ColumnName'].mean())

data['ColumnName'] = data['ColumnName'].fillna(data['ColumnName'].median())

data['ColumnName'] = data['ColumnName'].fillna(data['ColumnName'].mode()[0])

NIELIT CHANDIGARH 12
Encoding Categorical Data
• Why: Machine learning models work with numerical data.
• Categorical data must be converted into numeric values for most
machine learning models. There are two common encoding
techniques:
• How:
1. Label Encoding (Simple Integer Mapping):
2. One-Hot Encoding
1. Label Encoding
• Assigns a unique integer to each category.
• Suitable for ordinal (ranked) categories.

NIELIT CHANDIGARH 13
Encoding Categorical Data
EXAMPLE:
from [Link] import LabelEncoder
import pandas as pd

# Sample Data
data = {'Name': ['Ajay', 'Vishal', 'Raj'], 'Gender': ['Male', 'Male', 'Female']}
df = [Link](data)
OUTPUT: (Here, Male is encoded
as 1, and Female as 0.)
# Encode Gender
encoder = LabelEncoder()
df['Gender'] = encoder.fit_transform(df['Gender'])

print(df)

NIELIT CHANDIGARH 14
Encoding Categorical Data
2. One-Hot Encoding
• Creates binary columns for each category.
• Suitable for nominal (unordered) categories.
• Example:
# One-hot encoding using pandas
df = [Link]({'Name': ['Ajay', 'Vishal', 'Raj'],
'Department': ['IT', 'HR', 'Finance']})
df_encoded = pd.get_dummies(df, columns=['Department'])

print(df_encoded)

NIELIT CHANDIGARH 15
Scaling Data
• Why: Models converge faster and perform better when data is scaled.
• Scaling ensures all features are in a similar range, which helps improve model performance.
1. Min-Max Scaling: Scales data to a fixed range, typically [0, 1].
• Formula:

from [Link] import MinMaxScaler

# Sample Data
df = [Link]({'Age': [24, 19, 30], 'Salary': [50000, 40000, 70000]})
# Scale data Output:

scaler = MinMaxScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])
print(df)

NIELIT CHANDIGARH 16
Scaling Data
2. Standard ScalingStandardizes data to have a mean of 0 and a
standard deviation of 1.
Formula:

from [Link] import StandardScaler

# Sample Data
df = [Link]({'Age': [24, 19, 30], 'Salary': [50000, 40000,
70000]} Output:

# Scale data
scaler = StandardScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])
print(df)

NIELIT CHANDIGARH 17
Summary
• Numpy and Pandas are essential Python libraries for data analysis.
• Loading and inspecting datasets is the first step in any data science
workflow.
• Data cleaning ensures quality, while preprocessing prepares data for
machine learning.
Encoding Categorical Data:
• Label Encoding: Use for ordinal data.
• One-Hot Encoding: Use for nominal data.
Scaling Data:
• Min-Max Scaling: Scales between a range (e.g., [0, 1]).
• Standard Scaling: Standardizes to a mean of 0 and a standard deviation of 1.

NIELIT CHANDIGARH 18
Thank You! ☺

NIELIT CHANDIGARH 19

Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
DHP Unit - 4 Part2
No ratings yet
DHP Unit - 4 Part2
16 pages
IntroToPython Unit 5
No ratings yet
IntroToPython Unit 5
42 pages
Pandas
No ratings yet
Pandas
30 pages
Data Preparation Techniques in Python
No ratings yet
Data Preparation Techniques in Python
9 pages
Advance Python Unit 4
No ratings yet
Advance Python Unit 4
13 pages
Chapter 1
No ratings yet
Chapter 1
7 pages
Data Handling for Data Scientists
No ratings yet
Data Handling for Data Scientists
163 pages
More On Pandas
No ratings yet
More On Pandas
51 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Python For Data Analysis Jan 28
No ratings yet
Python For Data Analysis Jan 28
105 pages
Converting Categorical to Quantitative in Python
No ratings yet
Converting Categorical to Quantitative in Python
5 pages
AI Student HandbookXII 2025-26!8!20
No ratings yet
AI Student HandbookXII 2025-26!8!20
13 pages
Pandas
No ratings yet
Pandas
35 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
Python in Research
No ratings yet
Python in Research
18 pages
Python Data Science: Pandas & ML Basics
100% (1)
Python Data Science: Pandas & ML Basics
41 pages
Pandas
No ratings yet
Pandas
5 pages
Pandas: Import
100% (1)
Pandas: Import
13 pages
Justenoughpython Pandas 220915 175329
No ratings yet
Justenoughpython Pandas 220915 175329
64 pages
Lab-4, Data Wrangling With Python
No ratings yet
Lab-4, Data Wrangling With Python
11 pages
Exp3 Python
No ratings yet
Exp3 Python
15 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Asfasdas
No ratings yet
Asfasdas
36 pages
FDS Exp4
No ratings yet
FDS Exp4
5 pages
Prac 7
No ratings yet
Prac 7
5 pages
Unit6 - Working With Data
No ratings yet
Unit6 - Working With Data
29 pages
Pandas DataFrame Basics Guide
No ratings yet
Pandas DataFrame Basics Guide
32 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Data Analysis with Pandas Overview
No ratings yet
Data Analysis with Pandas Overview
49 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Pandas
No ratings yet
Pandas
13 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Lab 9
No ratings yet
Lab 9
9 pages
CSE445 NSU Week - 3
No ratings yet
CSE445 NSU Week - 3
48 pages
Unit IV
No ratings yet
Unit IV
49 pages
Python Libraries for Data Analysis
No ratings yet
Python Libraries for Data Analysis
4 pages
ML Practical 03
No ratings yet
ML Practical 03
20 pages
Python Libraries for Data Science
No ratings yet
Python Libraries for Data Science
96 pages
FDS Notes Unit-4
No ratings yet
FDS Notes Unit-4
30 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Python Data Management Guide
No ratings yet
Python Data Management Guide
55 pages
Unit 4 Fod
100% (1)
Unit 4 Fod
21 pages
EDA Unit2
No ratings yet
EDA Unit2
99 pages
Pandas 1
No ratings yet
Pandas 1
50 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
02 Python Basics
No ratings yet
02 Python Basics
52 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
Python For ML
No ratings yet
Python For ML
41 pages
Pandas Programs
No ratings yet
Pandas Programs
2 pages
Pandas (Assignment 3)
No ratings yet
Pandas (Assignment 3)
24 pages
Lecture 4 Data Pre-Processing
No ratings yet
Lecture 4 Data Pre-Processing
43 pages
Python Programming. A Step-by-Step Guide For Absolute Beginners
91% (46)
Python Programming. A Step-by-Step Guide For Absolute Beginners
181 pages
HTML Basics and Coding Notes
No ratings yet
HTML Basics and Coding Notes
22 pages
Python Notes For Professionals
100% (18)
Python Notes For Professionals
814 pages
The Python Bible
97% (33)
The Python Bible
506 pages
Python Pandas Tutorial
96% (28)
Python Pandas Tutorial
178 pages
Python Notes PDF
100% (1)
Python Notes PDF
7 pages
Introduction To HTML
No ratings yet
Introduction To HTML
103 pages
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
100% (19)
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
208 pages
Python 3 Cheat Sheet
94% (51)
Python 3 Cheat Sheet
2 pages
EBOOK - Python Crash Course For Data Analysis
100% (12)
EBOOK - Python Crash Course For Data Analysis
168 pages
Root A. Python For Data Analytics. A Beginners Guide For Learning 2019
100% (9)
Root A. Python For Data Analytics. A Beginners Guide For Learning 2019
167 pages
100 Skills To Better Python
100% (10)
100 Skills To Better Python
80 pages
18 Pandas
No ratings yet
18 Pandas
33 pages
Data Analysis With PANDAS: Cheat Sheet
86% (7)
Data Analysis With PANDAS: Cheat Sheet
4 pages
Python in Excel (2024)
100% (14)
Python in Excel (2024)
607 pages
Learn Python Visually
100% (10)
Learn Python Visually
134 pages
Beginners Python Cheat Sheet
89% (9)
Beginners Python Cheat Sheet
28 pages
Python Full Notes - Working
100% (5)
Python Full Notes - Working
645 pages
Practical Projects
100% (32)
Practical Projects
478 pages
Actc HTML Notes
No ratings yet
Actc HTML Notes
48 pages
Analytics Python Programming
92% (13)
Analytics Python Programming
203 pages
Complete HTML Notes 1681809769
No ratings yet
Complete HTML Notes 1681809769
27 pages
Python For Data Science - Cheat Sheets
100% (4)
Python For Data Science - Cheat Sheets
10 pages
Data Visualization With Python PDF
93% (15)
Data Visualization With Python PDF
662 pages
Python Data Science Cheat Sheet
97% (33)
Python Data Science Cheat Sheet
11 pages
Python Programming for Beginners_ From Basics to AI Integrations. 5-Minute Illustrated Tutorials, Coding Hacks, Hands-On Exercises & Case Studies to Master Python in 7 Days and Get Paid More by Prince
100% (15)
Python Programming for Beginners_ From Basics to AI Integrations. 5-Minute Illustrated Tutorials, Coding Hacks, Hands-On Exercises & Case Studies to Master Python in 7 Days and Get Paid More by Prince
244 pages
Learn Python in A Day
93% (15)
Learn Python in A Day
141 pages
201 Python Programming Exercises For All
100% (3)
201 Python Programming Exercises For All
425 pages
Module1-Cheat-Sheet-LINE PLOT
No ratings yet
Module1-Cheat-Sheet-LINE PLOT
3 pages
Python Cheat Sheet: Ata Tructures
100% (12)
Python Cheat Sheet: Ata Tructures
2 pages
Boolean Logic Simplification Guide
No ratings yet
Boolean Logic Simplification Guide
33 pages
Law of Indices
No ratings yet
Law of Indices
3 pages
Rotman Algebra in Geometry REU Course
No ratings yet
Rotman Algebra in Geometry REU Course
1 page
Cantab Unit 2 Measurement PDF
No ratings yet
Cantab Unit 2 Measurement PDF
5 pages
Idk 2
No ratings yet
Idk 2
3 pages
FPGA-Based Secure Key Exchange
No ratings yet
FPGA-Based Secure Key Exchange
47 pages
ITSIMM CH 1 PDF
67% (3)
ITSIMM CH 1 PDF
74 pages
Business Research for Managers
No ratings yet
Business Research for Managers
27 pages
Source Coding
No ratings yet
Source Coding
8 pages
Lecture 1 Course Overview
No ratings yet
Lecture 1 Course Overview
41 pages
Introduction to Complex Manifolds 1st Edition John M. Lee ebook newest digital file
100% (1)
Introduction to Complex Manifolds 1st Edition John M. Lee ebook newest digital file
109 pages
INSEAN E779a Propeller CFD Database
No ratings yet
INSEAN E779a Propeller CFD Database
5 pages
Transformation Homework Ks3
100% (1)
Transformation Homework Ks3
7 pages
Elmasri 6e - ISM 15
No ratings yet
Elmasri 6e - ISM 15
11 pages
Dilutions Problems
No ratings yet
Dilutions Problems
4 pages
Classification of Trusses and Stability
No ratings yet
Classification of Trusses and Stability
52 pages
CSM 300 Properties
No ratings yet
CSM 300 Properties
2 pages
DSP Exam Pattern and Topics Overview
100% (1)
DSP Exam Pattern and Topics Overview
2 pages
Chapter 6 - Budgeting
No ratings yet
Chapter 6 - Budgeting
72 pages
Settlement of Piled Foundations Using Equivalent Raft Approach
No ratings yet
Settlement of Piled Foundations Using Equivalent Raft Approach
17 pages
Case Problem 2 Distribution Systems Design
No ratings yet
Case Problem 2 Distribution Systems Design
6 pages
Mud Loss Behavior in Fractured Formation With High Temperature and Pressure
No ratings yet
Mud Loss Behavior in Fractured Formation With High Temperature and Pressure
15 pages
PANEL
No ratings yet
PANEL
37 pages
Forestry Measurement Essentials
No ratings yet
Forestry Measurement Essentials
37 pages
B.Tech CSE AICTE Syllabus (Unit Wise)
No ratings yet
B.Tech CSE AICTE Syllabus (Unit Wise)
152 pages
Chapter 4 Solutions Solution Manual Introductory Econometrics For Finance
100% (2)
Chapter 4 Solutions Solution Manual Introductory Econometrics For Finance
5 pages
Mathematical Behavior of Partial Differential Equations
No ratings yet
Mathematical Behavior of Partial Differential Equations
23 pages
Group Technology for Engineers
No ratings yet
Group Technology for Engineers
115 pages
42459
No ratings yet
42459
11 pages
Canon's Strategic Challenges and History
100% (1)
Canon's Strategic Challenges and History
5 pages

Python Data Analysis with Numpy & Pandas

Uploaded by

Python Data Analysis with Numpy & Pandas

Uploaded by

Python Libraries: Numpy and Pandas

• Fill Missing Values:

# Create the DataFrame

# Modify the DataFrame directly

# Print the DataFrame

◦ Drop columns with missing values

◦ With the mean, median, or mode:

from [Link] import MinMaxScaler

from [Link] import StandardScaler

You might also like