0% found this document useful (0 votes)

6 views4 pages

ADS Exp2

The document outlines the importance of data preprocessing, specifically focusing on data imputation techniques to handle missing values in datasets. It describes three common imputation methods: mean, median, and mode, along with their applications in various fields such as healthcare, finance, and marketing. A Python program is provided to demonstrate the implementation of these techniques using a sample dataset.

Uploaded by

om29khatri

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views4 pages

ADS Exp2

Uploaded by

om29khatri

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Roll no:

Date:
EXPERIMENT NO.:02

Aim: Data Preprocessing using Data Imputation.

Theory:
Data preprocessing is an important step in data science transforming raw data into a clean
structured format for analysis. It involves tasks like handling missing values, normalizing data and
encoding variables. Mastering preprocessing in Python ensures reliable insights for accurate predictions
and effective decision-making. Pre-processing refers to the transformations applied to data before feeding
it to the algorithm.
Data imputation is the process of replacing missing or incomplete data in a dataset with
substituted values to ensure the dataset remains useful for analysis or modeling. Missing data can occur
due to errors during data collection, system failures, or other reasons, and handling it appropriately is
crucial to maintain the integrity of data analysis.

There are three common techniques for imputation based on statistical measures:

1. Mean Imputation:

Missing values are replaced with the average of the non-missing values in the column.
○ Best for numerical data without outliers.
○ Example: For a column [2, 4, NaN, 6], mean = (2+4+6)/3 = 4, so replace NaN with 4.
2. Median Imputation:
Missing values are replaced with the median of the non-missing values.
○ Suitable for numerical data with outliers, as the median is less affected by extreme values.
○ Example: For a column [1, 2, NaN, 100], median = 2, so replace NaN with 2.
3. Mode Imputation:
Missing values are replaced with the most frequently occurring value (mode) in the column.
○ Works well for categorical data or numerical data with repeated values.
○ Example: For a column [A, B, NaN, A, C], mode = A, so replace NaN with A.

Applications of Data Imputation:

1. Healthcare: Fill missing patient info (e.g., age, blood pressure) for disease prediction.
2. E-commerce: Handle gaps in sales, ratings, or user data for recommendations.
3. Finance: Impute missing stock prices or credit scores for financial models.
4. Education: Replace missing test scores or attendance for performance analysis.
5. Marketing: Fill gaps in customer demographics for targeted ads.
6. Real Estate: Address missing property details for price prediction.
7. Social Media: Handle incomplete engagement data (e.g., likes, shares) for trend analysis.
8. Logistics: Fill gaps in vehicle mileage or delivery times for optimization.
9. Big Data: Clean large datasets for analytics and trend prediction.
Program:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer

# Load the dataset from the specified path

file_path = r"C:\Users\RGIT\Desktop\A806\Diabetes Missing Data.csv"
df = pd.read_csv(file_path)

# Show the first few rows of the dataset to understand its structure
print("Original Dataset:")
print(df.head())

# Introduce missing values randomly (10% of data will be missing for demonstration)
np.random.seed(42)
missing_mask = np.random.rand(*df.shape) < 0.1 # 10% missing data
df_missing = df.copy()
df_missing = df_missing.mask(missing_mask)

# Show the data with missing values

print("\nData with Missing Values:")
print(df_missing.head())

# Separate numeric and non-numeric columns

numeric_cols = df_missing.select_dtypes(include=[np.number]).columns
non_numeric_cols = df_missing.select_dtypes(exclude=[np.number]).columns

# Impute missing values for numeric columns using Mean, Median, and Mode
# 1. Mean Imputation
mean_imputer = SimpleImputer(strategy='mean')
df_mean_imputed=pd.DataFrame(mean_imputer.fit_transform(df_missing[numeric_cols]),
columns=numeric_cols)
df_mean_imputed[non_numeric_cols] = df_missing[non_numeric_cols].reset_index(drop=True)

# 2. Median Imputation
median_imputer = SimpleImputer(strategy='median')
df_median_imputed=pd.DataFrame(median_imputer.fit_transform(df_missing[numeric_cols]),
columns=numeric_cols)
df_median_imputed[non_numeric_cols] = df_missing[non_numeric_cols].reset_index(drop=True)

# 3. Mode Imputation
mode_imputer = SimpleImputer(strategy='most_frequent')
df_mode_imputed=pd.DataFrame(mode_imputer.fit_transform(df_missing[numeric_cols]),
columns=numeric_cols)
df_mode_imputed[non_numeric_cols] = df_missing[non_numeric_cols].reset_index(drop=True)

# Visualize the data after imputation

plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.title("Data with Missing Values")
df_missing[numeric_cols].plot(kind='line', marker='o', ax=plt.gca())
plt.legend(loc='upper left')
plt.xlabel("Index")
plt.ylabel("Feature Values")

plt.subplot(1, 2, 2)
plt.title("Data After Imputation (Mean, Median, Mode)")
plt.plot(df_mean_imputed[numeric_cols], marker='o', label='Mean Imputation')
plt.plot(df_median_imputed[numeric_cols], marker='x', label='Median Imputation')
plt.plot(df_mode_imputed[numeric_cols], marker='^', label='Mode Imputation')
plt.legend(loc='upper left')
plt.xlabel("Index")
plt.ylabel("Imputed Feature Values")
plt.tight_layout()
plt.show()
# Show the imputed datasets
print("\nMean Imputed Data (First 5 Rows):")
print(df_mean_imputed.head())

print("\nMedian Imputed Data (First 5 Rows):")

print(df_median_imputed.head())

print("\nMode Imputed Data (First 5 Rows):")

print(df_mode_imputed.head())

Output:
Conclusion: Imputation fills missing data to ensure completeness, consistency, and better analysis,
improving model performance across various fields.

(Ebook PDF) Real World Research 4th Editionpdf Download
100% (4)
(Ebook PDF) Real World Research 4th Editionpdf Download
44 pages
Fidelangeli Galli
No ratings yet
Fidelangeli Galli
46 pages
Essbase Security Implementation
100% (1)
Essbase Security Implementation
36 pages
Data Cleaning - Project Work
No ratings yet
Data Cleaning - Project Work
10 pages
Handling Missing Values in Python
No ratings yet
Handling Missing Values in Python
9 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
ADS EXP Assignments
No ratings yet
ADS EXP Assignments
38 pages
Missing Values
No ratings yet
Missing Values
3 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
47 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
Da Program Upto 6
No ratings yet
Da Program Upto 6
20 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
Day 19 - Numpy
No ratings yet
Day 19 - Numpy
5 pages
Slides On DataII
No ratings yet
Slides On DataII
26 pages
Unit 3
No ratings yet
Unit 3
30 pages
The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
No ratings yet
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
10 pages
DWM Exp 7
No ratings yet
DWM Exp 7
4 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
DA Lab
No ratings yet
DA Lab
27 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
6 pages
MLC Practical
No ratings yet
MLC Practical
51 pages
Missing Data
No ratings yet
Missing Data
14 pages
Chapter3 DS
No ratings yet
Chapter3 DS
17 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Pandas
No ratings yet
Pandas
4 pages
Lab 3 DWM
No ratings yet
Lab 3 DWM
5 pages
Ads Exp2
No ratings yet
Ads Exp2
3 pages
Missing Data Handling
No ratings yet
Missing Data Handling
19 pages
3 - Missing Values-1
No ratings yet
3 - Missing Values-1
9 pages
FDS Unit 2
No ratings yet
FDS Unit 2
8 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
DMML Lab Report 03
No ratings yet
DMML Lab Report 03
9 pages
Data Preprocessing in Python
No ratings yet
Data Preprocessing in Python
3 pages
Lecture 4 New Data Pre Processing
No ratings yet
Lecture 4 New Data Pre Processing
41 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
Machine Learning Based Missing Data Imputation
No ratings yet
Machine Learning Based Missing Data Imputation
13 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
5-Demonstrate Missing Value Analysis Using Sample Data.-06!01!2025
No ratings yet
5-Demonstrate Missing Value Analysis Using Sample Data.-06!01!2025
2 pages
01 Dealing With Missing Data The Art and Science of Imputation
No ratings yet
01 Dealing With Missing Data The Art and Science of Imputation
26 pages
Handling Missing Values
No ratings yet
Handling Missing Values
4 pages
ML Lab Record
No ratings yet
ML Lab Record
38 pages
Missing Data
No ratings yet
Missing Data
25 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Centraltendencywhattoconsider 1
No ratings yet
Centraltendencywhattoconsider 1
6 pages
Avinash DA 6
No ratings yet
Avinash DA 6
3 pages
Imputation
No ratings yet
Imputation
3 pages
Pdfcrowd
No ratings yet
Pdfcrowd
4 pages
Unit - 3 - R Programming
No ratings yet
Unit - 3 - R Programming
16 pages
Dealing With Missing Values
No ratings yet
Dealing With Missing Values
19 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Data Science with R: Beginner to Expert
From Everand
Data Science with R: Beginner to Expert
Narayana Nemani
No ratings yet
IT Specialist: Data Analytics Certification Prep - 500 Exam Questions and Explanations
From Everand
IT Specialist: Data Analytics Certification Prep - 500 Exam Questions and Explanations
Steve Brown
No ratings yet
Annual Report 2021
No ratings yet
Annual Report 2021
76 pages
Revised Capstone Project Format
No ratings yet
Revised Capstone Project Format
7 pages
State Polytechnic of Jember: The Exercises of File System Chapter 10
No ratings yet
State Polytechnic of Jember: The Exercises of File System Chapter 10
15 pages
Parves Internship Report (GrowAI) - 1
No ratings yet
Parves Internship Report (GrowAI) - 1
24 pages
Statistics and Data: Week 6 (3 Hours)
No ratings yet
Statistics and Data: Week 6 (3 Hours)
6 pages
Syllabus CS 24 25 4Y
No ratings yet
Syllabus CS 24 25 4Y
25 pages
Tesi ALBERTO FERRARIO
No ratings yet
Tesi ALBERTO FERRARIO
120 pages
HEADER
No ratings yet
HEADER
8 pages
It Practical File
No ratings yet
It Practical File
18 pages
1 Different Patterns in The Evolution of Digital and Non-Digital Ventures'
No ratings yet
1 Different Patterns in The Evolution of Digital and Non-Digital Ventures'
9 pages
Comparative Education Chapter 1
No ratings yet
Comparative Education Chapter 1
19 pages
OSI Model
No ratings yet
OSI Model
59 pages
Advanced Data Base
No ratings yet
Advanced Data Base
15 pages
IT446 Test Bank
No ratings yet
IT446 Test Bank
57 pages
SIP Guidebook (For Binding)
75% (4)
SIP Guidebook (For Binding)
152 pages
AWR Analysis
No ratings yet
AWR Analysis
20 pages
Introduction To QGIS in Creating Map
No ratings yet
Introduction To QGIS in Creating Map
3 pages
End-to-End Data Analytics Project
No ratings yet
End-to-End Data Analytics Project
18 pages
Pretest III
No ratings yet
Pretest III
4 pages
Global Perspectives Learning Objectives Only 0838 - tcm142-592526
No ratings yet
Global Perspectives Learning Objectives Only 0838 - tcm142-592526
10 pages
Data Visualization - Day 1 - in Class Exercises - Connecting To Data - Solution Final
No ratings yet
Data Visualization - Day 1 - in Class Exercises - Connecting To Data - Solution Final
36 pages
Wa0005.
No ratings yet
Wa0005.
84 pages
Data Struture and Alghorithem
No ratings yet
Data Struture and Alghorithem
46 pages
Pubcookies - CDR Ver
No ratings yet
Pubcookies - CDR Ver
125 pages
UNIT - IV Interacting With Database CO:-4 Develop A Program Using Database MCQ Question Bank
No ratings yet
UNIT - IV Interacting With Database CO:-4 Develop A Program Using Database MCQ Question Bank
35 pages
IDL Cheatsheet PDF
100% (1)
IDL Cheatsheet PDF
4 pages
Hive
No ratings yet
Hive
13 pages

ADS Exp2

Uploaded by

ADS Exp2

Uploaded by

Roll no:

Aim: Data Preprocessing using Data Imputation.

1.​ Mean Imputation:

Applications of Data Imputation:

# Load the dataset from the specified path

# Show the data with missing values

# Separate numeric and non-numeric columns

# Visualize the data after imputation

print("\nMedian Imputed Data (First 5 Rows):")

print("\nMode Imputed Data (First 5 Rows):")

You might also like

1. Mean Imputation: