0% found this document useful (0 votes)

15 views8 pages

Understanding df.isnull().sum() in Pandas

The document provides a comprehensive guide on data manipulation using Python's pandas library, covering key operations such as importing data, selecting columns, filtering, sorting, handling missing data, and creating new columns. It also explains methods for finding and analyzing missing values (NaN) in datasets, including checking for missing values, counting them, and identifying rows with missing data. Additionally, it discusses techniques for finding unique values and checking data uniqueness within a DataFrame.

Uploaded by

abiramithiyagarajan6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views8 pages

Understanding df.isnull().sum() in Pandas

Uploaded by

abiramithiyagarajan6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

CODE EXPLANATIONFOR DATA IMPULATION

It looks like you meant "data manipulation" instead of "data impulation." Data manipulation
refers to modifying, organizing, or analyzing data using programming languages like Python,
SQL, or R. Below are some key concepts with code explanations in Python using pandas, a
popular data manipulation library.

1. Importing Data
Before manipulating data, you need to import it.
import pandas as pd

# Load a CSV file

df = pd.read_csv('[Link]')

# Display the first 5 rows

print([Link]())

2. Selecting Specific Columns

You can select a single or multiple columns from a DataFrame.
# Select a single column
df['column_name']

# Select multiple columns

df[['column1', 'column2']]

3. Filtering Data
Filtering allows you to extract rows that meet specific conditions.
# Select rows where the value in 'age' column is greater than 30
df_filtered = df[df['age'] > 30]

4. Sorting Data
Sorting helps in organizing the data based on one or more columns.
# Sort by a single column
df_sorted = df.sort_values(by='age', ascending=True)

# Sort by multiple columnsdf_sorted = df.sort_values(by=['age', 'salary'],

ascending=[True, False])

5. Handling Missing Data

Missing data can be handled by filling or dropping missing values.
# Drop rows with missing values
df_cleaned = [Link]()
# Fill missing values with a specific value
df_filled = [Link](0)

# Fill missing values with column mean

df['column_name'].fillna(df['column_name'].mean(), inplace=True)

6. Creating New Columns

New columns can be derived from existing ones.
# Create a new column based on existing columns
df['total_salary'] = df['base_salary'] + df['bonus']

7. Grouping Data
Grouping helps in aggregating data based on categorical values.
# Group by a column and calculate mean
df_grouped = [Link]('department')['salary'].mean()

8. Merging & Joining DataFrames

Combining data from multiple sources.
# Merge two DataFrames on a common column
df_merged = [Link](df1, df2, on='employee_id', how='inner')

9. Pivot Tables
Summarizing data in a tabular format.
df_pivot = df.pivot_table(values='sales', index='region', columns='month',
aggfunc='sum')

10. Applying Functions

Using apply() to apply custom functions to rows or columns.
# Define a function
def convert_to_upper(text):
return [Link]()

# Apply function to a column

df['name'] = df['name'].apply(convert_to_upper)

CODE EXPLANATION’S FOR DATA MISSING VALUE FINDINGS

Handling Missing Data in Pandas
Missing values can cause issues in data analysis. In pandas, missing values are usually
represented as NaN (Not a Number). Below are different ways to find missing values in a dataset
1. Checking for Missing Values:
To check if a dataset has missing values, use isnull() or notnull().
Import pandas as pd
# Sample data with missing values
Data = {‘Name’: [‘Alice’, ‘Bob’, ‘Charlie’, None, ‘Eve’],
‘Age’: [25, 30, None, 35, 40],
‘Salary’: [50000, 60000, 55000, None, 70000]}
Df = [Link](data)
# Check for missing values in the DataFrame
Print([Link]())
# Summary count of missing values in each column
Print([Link]().sum())
# Check for non-missing values
Print([Link]())
Explanation:
[Link]() returns a Boolean DataFrame, showing True where values are missing.
[Link]().sum() gives the count of missing values per column.
[Link]() is the inverse, showing True for non-missing values.

2. Finding Rows with Missing Values

To identify rows that contain at least one missing value:
# Filter rows where at least one column has a missing value
Missing_rows = df[[Link]().any(axis=1)]
Print(missing_rows)
Explanation:
[Link]().any(axis=1) checks if any column in a row has NaN.
Df[condition] selects only those rows.

3. Finding the Percentage of Missing Values

To get the percentage of missing values per column:

# Calculate percentage of missing values
Missing_percentage = ([Link]().sum() / len(df)) * 100
Print(missing_percentage)
Explanation:

[Link]().sum() gives the number of missing values per column.

Dividing by len(df) and multiplying by 100 gives the percentage.
4. Finding Total Missing Values in the DataFrame
To get the total number of missing values in the entire dataset:
# Total missing values in the DataFrame
Total_missing = [Link]().sum().sum()
Print(“Total missing values:”, total_missing)
Explanation:

The first .sum() calculates missing values per column.

The second .sum() gives the total across the entire Data.

CODE OF DATA EMPTINESS FINDING

Finding Unique Values in a Dataset (Pandas)

Uniqueness in data helps identify distinct values in a column, which is useful for tasks like data
cleaning, categorization, and analysis.
1. Finding Unique Values in a Column
You can use .unique() to get distinct values in a specific column.
Import pandas as pd
# Sample dataData = {‘Category’: [‘A’, ‘B’, ‘A’, ‘C’, ‘B’, ‘C’, ‘A’],
‘Values’: [10, 20, 10, 30, 20, 30, 40]}

Df = [Link](data)
# Get unique values in the ‘Category’ column
Unique_categories = df[‘Category’].unique()
Print(unique_categories)
Explanation:
Df[‘Category’].unique() returns a NumPy array of unique values.
Output:
[‘A’ ‘B’ ‘C’]

2. Counting Unique Values in a Column

To count how many unique values exist in a column, use .nunique().
# Count unique values in the ‘Category’ column
Unique_count = df[‘Category’].nunique()
Print(unique_count)
Output:
3
3. Counting Frequency of Unique Values
To get the count of each unique value, use .value_counts().
# Count occurrences of each unique value
Value_counts = df[‘Category’].value_counts()
Print(value_counts)

Output:

A 3
B 2
C 2
Name: Category, dtype: int64
Explanation:
Df[‘Category’].value_counts() returns a Series with counts of each unique value.

4. Finding Unique Pairs in Multiple Columns

If you want to find unique combinations across multiple columns:
# Get unique rows based on ‘Category’ and ‘Values’
Unique_pairs = df[[‘Category’, ‘Values’]].drop_duplicates()
Print(unique_pairs)
Explanation:
.drop_duplicates() removes duplicate rows, keeping only unique ones.

5. Checking If All Values in a Column Are Unique

To check whether all values in a column are unique:
Is_unique = df[‘Values’].is_unique
Print(is_unique)
Output:

False
Explanation:
.is_unique returns True if all values in the column are distinct, otherwise False.
CODE EXPLAINTIONS FOR NaN FINDINGS

Finding NaN (Missing) Values in Pandas

In pandas, missing values are represented as NaN (Not a Number). Below are different ways to
find and analyze NaN values in a DataFrame.
1. Checking for NaN Values
To check if a dataset contains NaN values, use .isnull() or .isna().
Import pandas as pd
Import numpy as np

# Sample data with NaN values

Data = {‘Name’: [‘Alice’, ‘Bob’, [Link], ‘David’, ‘Eve’],
‘Age’: [25, [Link], 30, 35, 40],
‘Salary’: [50000, 60000, [Link], 70000, [Link]]}

Df = [Link](data)

# Check for NaN values in the entire DataFrame

Print([Link]())
# Equivalent to isnull()
Print([Link]())
Explanation:
[Link]() returns a Boolean DataFrame, where True means the value is NaN.
[Link]() does the same as .isnull(), they are interchangeable.
2. Counting NaN Values Per Column
To find the number of missing values in each column:
# Count NaN values per column
Print([Link]().sum())
Output:
Name 1
Age 1
Salary 2
Dtype: int64
Explanation:
[Link]().sum() counts NaN values for each column.
[Link] Total NaN Values in the DataFrame
To count all missing values in the entire dataset:
# Total number of NaN values
Print([Link]().sum().sum())
Output:
4
Explanation:
The first .sum() counts NaNs per column.
The second .sum() gives the total NaNs across all columns.

[Link] Rows with NaN Values

To get only the rows containing at least one NaN value:
# Get rows where at least one column has NaN
Print(df[[Link]().any(axis=1)])
Explanation:
[Link]().any(axis=1) checks if any column in a row has NaN.
Df[condition] selects those rows.

[Link] Rows Where All Values Are NaN

To check for rows where all columns are NaN:
# Get rows where all values are NaN
Print(df[[Link]().all(axis=1)])
Explanation:[Link]().all(axis=1) checks if all columns in a row are NaN.
[Link] Columns That Contain NaN
To list columns that have missing values:
# List columns with NaN values
Columns_with_nan = [Link][[Link]().any()].tolist()
Print(columns_with_nan)
Output:
[‘Name’, ‘Age’, ‘Salary’]
Explanation:
[Link]().any() checks for NaNs in each column.
.columns[…] extracts column names where True.

[Link] If a DataFrame Has Any NaN Values

To quickly check if there are any NaN values in the DataFrame:
# Check if any NaN exists in DataFrame
Print([Link]().[Link]())
Output:
True
Explanation:
[Link]().values converts to a NumPy array of True/False.
.any() returns True if at least one NaN existing

Pandas
No ratings yet
Pandas
4 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Unit 5 Python
No ratings yet
Unit 5 Python
30 pages
Lab2!17!07-2025 - Demonstrate Various Data Pre-Processing Techniques For A Given Dataset.
No ratings yet
Lab2!17!07-2025 - Demonstrate Various Data Pre-Processing Techniques For A Given Dataset.
17 pages
DSBDA Practical 2 Tutorial
No ratings yet
DSBDA Practical 2 Tutorial
14 pages
Handling Missing Data in Pandas by Jaume Boguñá
No ratings yet
Handling Missing Data in Pandas by Jaume Boguñá
17 pages
Dealing With Missing Values
No ratings yet
Dealing With Missing Values
19 pages
Wa0061.
No ratings yet
Wa0061.
3 pages
Essential DataFrame Functions
No ratings yet
Essential DataFrame Functions
7 pages
Module 3
No ratings yet
Module 3
20 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
Unit2 Part2 Da
No ratings yet
Unit2 Part2 Da
45 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Pandas - Dataframe - Handling Missing Nan Values
No ratings yet
Pandas - Dataframe - Handling Missing Nan Values
16 pages
Dev Lab Record
No ratings yet
Dev Lab Record
21 pages
Create A Pandas Series From A Dictionary of Values and An Ndarray
No ratings yet
Create A Pandas Series From A Dictionary of Values and An Ndarray
15 pages
Introduction to Pandas DataFrames
100% (1)
Introduction to Pandas DataFrames
21 pages
Pandas: Data Cleaning Essentials
No ratings yet
Pandas: Data Cleaning Essentials
6 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Document (4) - 1
No ratings yet
Document (4) - 1
15 pages
Pandas
No ratings yet
Pandas
30 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
ML Practical 03
No ratings yet
ML Practical 03
20 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Ass-2 Ds
No ratings yet
Ass-2 Ds
29 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Practice 1
No ratings yet
Practice 1
45 pages
Pandas Cheat Sheet for Data Manipulation
No ratings yet
Pandas Cheat Sheet for Data Manipulation
1 page
Chai Time Data Science Lab 7 Guide
No ratings yet
Chai Time Data Science Lab 7 Guide
5 pages
Lec 4
No ratings yet
Lec 4
9 pages
Pandas Introduction: What Is Python Pandas Used For?
No ratings yet
Pandas Introduction: What Is Python Pandas Used For?
28 pages
Lab File
No ratings yet
Lab File
96 pages
LP II Practical
No ratings yet
LP II Practical
5 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Python Pandas: 12 Data Manipulation Techniques
100% (2)
Python Pandas: 12 Data Manipulation Techniques
19 pages
AI Practical 2025
No ratings yet
AI Practical 2025
14 pages
IntroToPython Unit 5
No ratings yet
IntroToPython Unit 5
42 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
DA Cheat Codes
No ratings yet
DA Cheat Codes
2 pages
How To Deal With Missing Values
No ratings yet
How To Deal With Missing Values
3 pages
cdp201 10 11 2023
No ratings yet
cdp201 10 11 2023
17 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Exp3 Python
No ratings yet
Exp3 Python
15 pages
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
No ratings yet
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
10 pages
Data Mining - Week - 4
No ratings yet
Data Mining - Week - 4
8 pages
Data Cleaning
No ratings yet
Data Cleaning
40 pages
Data Handling Part Ii
No ratings yet
Data Handling Part Ii
41 pages
Pandas
No ratings yet
Pandas
35 pages
Pandas Module (Part-I)
No ratings yet
Pandas Module (Part-I)
36 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Lab Session 07: Perform Following Operations Using Pandas
No ratings yet
Lab Session 07: Perform Following Operations Using Pandas
4 pages
Essential Steps in Data Cleaning
No ratings yet
Essential Steps in Data Cleaning
17 pages
Pandas Merged
No ratings yet
Pandas Merged
2 pages
Working with Missing Values in Data Analysis
No ratings yet
Working with Missing Values in Data Analysis
5 pages
Understanding Process Sigma Level
No ratings yet
Understanding Process Sigma Level
11 pages
To 220
No ratings yet
To 220
3 pages
Syllabus 3 Exam Reports
No ratings yet
Syllabus 3 Exam Reports
115 pages
Superior Drummer 2 Manual
No ratings yet
Superior Drummer 2 Manual
38 pages
Split Local Artificial Boundary Conditions For The Two-Dimensional Sine-Gordon Equation On
No ratings yet
Split Local Artificial Boundary Conditions For The Two-Dimensional Sine-Gordon Equation On
23 pages
BTSDSB2018
No ratings yet
BTSDSB2018
21 pages
Carbohydrate Fermentation
No ratings yet
Carbohydrate Fermentation
23 pages
Electrical Concepts: Why SF6 Gas Used in HV/EHV Circuit Breaker?
No ratings yet
Electrical Concepts: Why SF6 Gas Used in HV/EHV Circuit Breaker?
3 pages
Lab QC: Mastering Westgard Sigma Rules
No ratings yet
Lab QC: Mastering Westgard Sigma Rules
5 pages
Understanding Numbers in Math Class IV
No ratings yet
Understanding Numbers in Math Class IV
23 pages
Energy-Efficient Wireless Design
No ratings yet
Energy-Efficient Wireless Design
1 page
CH 22 - RATIO and PROPORTION
No ratings yet
CH 22 - RATIO and PROPORTION
3 pages
Grade 8 - Phy - Circuits 1
No ratings yet
Grade 8 - Phy - Circuits 1
3 pages
3000 Evolution User Manual Eng
No ratings yet
3000 Evolution User Manual Eng
51 pages
OLSS Hydraulic System Overview
100% (2)
OLSS Hydraulic System Overview
90 pages
Understanding Emotive Meaning in Ethics
No ratings yet
Understanding Emotive Meaning in Ethics
2 pages
PHIL 101 Exam 3 Study Guide
No ratings yet
PHIL 101 Exam 3 Study Guide
3 pages
A-Level Further Mathematics PDF
No ratings yet
A-Level Further Mathematics PDF
20 pages
Grinding Machine - Lab Report1
No ratings yet
Grinding Machine - Lab Report1
7 pages
JAVA Sem-5
No ratings yet
JAVA Sem-5
23 pages
وصف مواد تخصص الهندسة الكهربائية باللغة العربية
No ratings yet
وصف مواد تخصص الهندسة الكهربائية باللغة العربية
23 pages
Cambridge International AS & A Level: Computer Science 9618/11
No ratings yet
Cambridge International AS & A Level: Computer Science 9618/11
10 pages
Tascam DM 24 Manual de Usuario
100% (1)
Tascam DM 24 Manual de Usuario
12 pages
MAC1105 College Algebra All Formulas List Academic Systems
No ratings yet
MAC1105 College Algebra All Formulas List Academic Systems
5 pages
13.2.6 - Exact Equations and Integrating Factors
No ratings yet
13.2.6 - Exact Equations and Integrating Factors
17 pages
Tutorial Questions - Ground Improvement
No ratings yet
Tutorial Questions - Ground Improvement
3 pages
CSPC2005
No ratings yet
CSPC2005
2 pages
Hexaware Dbms
No ratings yet
Hexaware Dbms
85 pages
Combined Adv No 12-2023
No ratings yet
Combined Adv No 12-2023
19 pages
RFP Testing Equipments
No ratings yet
RFP Testing Equipments
22 pages

Understanding df.isnull().sum() in Pandas

Uploaded by

Understanding df.isnull().sum() in Pandas

Uploaded by

CODE EXPLANATIONFOR DATA IMPULATION

# Load a CSV file

# Display the first 5 rows

2. Selecting Specific Columns

# Select multiple columns

# Sort by multiple columnsdf_sorted = df.sort_values(by=['age', 'salary'],

5. Handling Missing Data

# Fill missing values with column mean

6. Creating New Columns

8. Merging & Joining DataFrames

10. Applying Functions

# Apply function to a column

CODE EXPLANATION’S FOR DATA MISSING VALUE FINDINGS

2. Finding Rows with Missing Values

3. Finding the Percentage of Missing Values

To get the percentage of missing values per column:

[Link]().sum() gives the number of missing values per column.

The first .sum() calculates missing values per column.

CODE OF DATA EMPTINESS FINDING

Finding Unique Values in a Dataset (Pandas)

2. Counting Unique Values in a Column

4. Finding Unique Pairs in Multiple Columns

5. Checking If All Values in a Column Are Unique

Finding NaN (Missing) Values in Pandas

# Sample data with NaN values

# Check for NaN values in the entire DataFrame

[Link] Rows with NaN Values

[Link] Rows Where All Values Are NaN

[Link] If a DataFrame Has Any NaN Values

You might also like