0% found this document useful (0 votes)

6 views6 pages

Exp-2 ML

The document outlines the importance of data preprocessing in data analysis and machine learning, detailing various techniques such as data cleaning, transformation, feature selection, integration, and reduction. It emphasizes the need to handle missing values, outliers, and duplicates to improve model performance and accuracy. The document also includes code examples demonstrating these preprocessing techniques using Python and libraries like pandas and scikit-learn.

Uploaded by

Rishit Goel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views6 pages

Exp-2 ML

Uploaded by

Rishit Goel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

EXPERIMENT-2

AIM: To study and apply different data preprocessing techniques.

THEORY:

Data preprocessing is a crucial step in the data analysis and machine learning pipeline. Raw data often contains
missing values, inconsistencies, noise, and irrelevant information, which can negatively impact model performance.
Poor data quality can lead to inaccurate predictions, biased insights, and inefficiencies in analysis. Preprocessing
helps transform raw data into a suitable format for analysis, ensuring better accuracy, efficiency, and robustness of
the model. By cleaning, transforming, and reducing data complexity, preprocessing significantly improves model
training and prediction.

Steps in Data Preprocessing -

1. Data Cleaning

Data cleaning involves handling missing values, duplicate entries, and inconsistencies in the dataset. Since
real-world data is rarely perfect, addressing these issues is essential for meaningful analysis.

a) Handling Missing Values - Missing data can arise due to various reasons such as human errors, equipment
malfunctions, or incomplete data collection. Some common techniques to handle missing values include:

● Removing Missing Data: If a small number of records have missing values, they can be removed to
maintain data integrity.
● Imputation: Filling in missing values using statistical methods such as mean, median, or mode
replacement.
● Using Algorithms That Handle Missing Data: Some machine learning algorithms, like decision trees,
can work with missing values directly.

b) Detecting and Handling Outliers - Outliers are extreme values that differ significantly from the majority of data
points and may skew the results. Techniques to detect and handle outliers include:

● Statistical Methods: Z-score, Interquartile Range (IQR), and Boxplots.

● Transformations: Logarithmic or square root transformations to normalize the data.
● Trimming or Capping: Removing or limiting the impact of extreme values.

c) Removing Duplicates - Duplicate records can arise due to data entry errors, merging datasets, or repeated data
extraction. Identifying and removing duplicate entries ensures that the dataset remains clean and does not introduce
bias.

2. Data Transformation - Data transformation involves modifying the data to improve its quality and compatibility
with the analysis or machine learning model.

a) Normalization - Normalization rescales the features so they fall within a specific range, such as [0,1] or [-1,1].
This helps improve the performance of distance-based algorithms like k-Nearest Neighbors (k-NN) and Neural
Networks.
b) Standardization - Standardization transforms features so they have a mean of zero and a standard deviation of
one. This is useful for algorithms such as Support Vector Machines (SVM) and Principal Component Analysis
(PCA), which assume normally distributed data.

3. Feature Selection & Extraction - Feature selection and extraction help improve the efficiency and accuracy of
machine learning models by reducing irrelevant or redundant data.

a) Feature Selection - Feature selection involves selecting only the most relevant features for analysis, reducing
dimensionality and improving model performance. Techniques include:

● Correlation Matrix: Identifies and removes highly correlated features.

● Variance Threshold: Eliminates features with low variance.
● Chi-Square Test: Identifies important categorical features.

b) Feature Extraction - Feature extraction transforms existing features into new dimensions, making the data more
informative while reducing complexity. Examples include:

● Principal Component Analysis (PCA): Reduces dimensionality by selecting the most important feature
combinations.
● Linear Discriminant Analysis (LDA): Maximizes class separability in classification problems.

4. Data Integration - Data integration involves combining multiple data sources into a unified dataset. It ensures
consistency in format, resolves redundancy, and improves data quality. Common challenges in data integration
include:

● Schema Integration: Aligning different database structures.

● Entity Resolution: Identifying and merging records referring to the same entity.
● Data Cleaning During Merging: Handling missing values and inconsistencies across datasets.

5. Data Reduction - Data reduction helps in reducing the volume of data while preserving important information,
which improves computational efficiency and model performance.

a) Dimensionality Reduction - Reducing the number of features while retaining significant information helps
mitigate the curse of dimensionality and enhances model generalization. Techniques include:

● PCA (Principal Component Analysis): Reduces correlated features into uncorrelated principal
components.
● LDA (Linear Discriminant Analysis): Reduces dimensions while maximizing class separability.

b) Sampling Techniques - Sampling helps create smaller, representative datasets for faster processing and reduced
storage requirements. Common sampling methods include:

● Random Sampling: Selecting a subset of data points randomly.

● Stratified Sampling: Ensuring that all data classes are proportionally represented.
CODE:
import pandas as pd

import numpy as np

def remove_outliers(df, columns, method='zscore', threshold=3):

'''

Removes outliers from specified columns using Z-score or IQR method.

'''

if method == 'zscore':

for col in columns:

mean = df[col].mean()

std = df[col].std()

df = df[(df[col] - mean).abs() <= (threshold * std)]

elif method == 'iqr':

for col in columns:

Q1 = df[col].quantile(0.25)

Q3 = df[col].quantile(0.75)

IQR = Q3 - Q1

df = df[(df[col] >= (Q1 - 1.5 * IQR)) & (df[col] <= (Q3 + 1.5 * IQR))]

return df

def remove_duplicates(df):

'''

Removes duplicate rows from the dataset.

'''

return df.drop_duplicates()

def handle_missing_data(df, method='mean', columns=None):

'''

Handles missing values in the dataset using mean, median, mode, or drop method.

'''

if method == 'drop':

df = df.dropna()

else:

if columns is None:

columns = df.columns

for col in columns:

if method == 'mean':

df[col] = df[col].fillna(df[col].mean())
elif method == 'median':

df[col] = df[col].fillna(df[col].median())

elif method == 'mode':

df[col] = df[col].fillna(df[col].mode()[0])

return df

# Creating new dataset

data = {

'X': [10, 20, 30, 40, 50, 60, 700, 80, 90, 100, 110, 120, 800],

'Y': [5, 10, np.nan, 15, 20, 25, np.nan, 30, 35, 40, 45, 50, 55],

'Z': ['cat', 'dog', 'cat', 'dog', 'fish', 'cat', 'dog', 'dog', 'fish', 'cat', 'dog', 'fish', 'fish'],

'W': [2, 4, 6, 8, 10, 12, 2, 4, 6, 8, 10, 12, 2],

'V': [500, 1000, 1500, 500, 1000, 1500, 500, 1000, 1500, 500, 1000, 1500, 500]

df = pd.DataFrame(data)

print("Original Dataset:\n", df)

# Removing outliers from column 'X'

df = remove_outliers(df, columns=['X'], method='zscore')

print("\nAfter Removing Outliers:\n", df)

# Shuffling the data

df = df.sample(frac=1, random_state=42).reset_index(drop=True)

print("\nAfter Shuffling Data:\n", df)

# Removing duplicates

df = remove_duplicates(df)

print("\nAfter Removing Duplicates:\n", df)

# Handling missing data in column 'Y'

df = handle_missing_data(df, method='mean', columns=['Y'])

print("\nAfter Handling Missing Data:\n", df)

# Dimensionality Reduction (Example using PCA)

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler

# Selecting numerical columns for PCA

numerical_columns = ['X', 'Y', 'W', 'V']

df_numeric = df[numerical_columns]

# Standardizing the data

scaler = StandardScaler()

df_scaled = scaler.fit_transform(df_numeric)

# Applying PCA

pca = PCA(n_components=2)

df_pca = pca.fit_transform(df_scaled)

print("\nAfter Dimensionality Reduction (PCA):\n", df_pca)

# Feature Selection (Example using Correlation Matrix)

corr_matrix = df.corr()

print("\nFeature Correlation Matrix:\n", corr_matrix)

OUTPUT:
Conclusion -

Data preprocessing is an essential step in the data science workflow. It ensures that data is clean, well-structured,
and suitable for analysis. By handling missing values, detecting outliers, selecting relevant features, and reducing
data complexity, preprocessing enhances the accuracy, efficiency, and robustness of analytical models. Properly
preprocessed data leads to better insights, improved decision-making, and higher-performing machine learning
models.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
(Feature Engineering) (Extended-Cheatsheet)
No ratings yet
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Exp 2
No ratings yet
Exp 2
6 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
Practical 1 ML - Removed
No ratings yet
Practical 1 ML - Removed
5 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
ML Notes
No ratings yet
ML Notes
44 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Dsbda Lab - 2.1 - 1736750718198
No ratings yet
Dsbda Lab - 2.1 - 1736750718198
9 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
PMA Unit-2 PDF
No ratings yet
PMA Unit-2 PDF
19 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
Day-4 DS Practicals
No ratings yet
Day-4 DS Practicals
5 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
Eda Indepth
No ratings yet
Eda Indepth
19 pages
Data Cleaning Approaches in Machine Learning Algorithms
No ratings yet
Data Cleaning Approaches in Machine Learning Algorithms
8 pages
Assignment 2 Documentation
No ratings yet
Assignment 2 Documentation
15 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
ML 8 Program
No ratings yet
ML 8 Program
5 pages
Bi Ut2 Answers
No ratings yet
Bi Ut2 Answers
23 pages
ML Ex2
No ratings yet
ML Ex2
7 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Da Program Upto 6
No ratings yet
Da Program Upto 6
20 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Chương
No ratings yet
Chương
12 pages
Lab2
No ratings yet
Lab2
8 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
DA Programs
No ratings yet
DA Programs
44 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
24 pages
Dsi237 Group 2
No ratings yet
Dsi237 Group 2
27 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Okay
No ratings yet
Okay
1 page
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
No ratings yet
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
20 pages
Data Minig Lab Manual
No ratings yet
Data Minig Lab Manual
58 pages
Data Mining
No ratings yet
Data Mining
7 pages
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
Prectical Exam Date Sheet Students
No ratings yet
Prectical Exam Date Sheet Students
1 page
Pink and Green Floral Indian Wedding Invitation Mobile Video - pdf-1
No ratings yet
Pink and Green Floral Indian Wedding Invitation Mobile Video - pdf-1
9 pages
ML Tools
No ratings yet
ML Tools
2 pages
File 0110
No ratings yet
File 0110
2 pages
Programming Fundamental
No ratings yet
Programming Fundamental
1 page
5 6062319421743959338
No ratings yet
5 6062319421743959338
1 page
Common Names (W)
No ratings yet
Common Names (W)
8 pages
Physics (P-1) Question Paper-25
No ratings yet
Physics (P-1) Question Paper-25
10 pages
(@DTUAlertBot) File0120
No ratings yet
(@DTUAlertBot) File0120
1 page
Iupac Naming Dpps (W) - 1
No ratings yet
Iupac Naming Dpps (W) - 1
23 pages
Iupac Naming Dpps (W) - 1
No ratings yet
Iupac Naming Dpps (W) - 1
23 pages
Chatbot For Mental Well-Being
100% (1)
Chatbot For Mental Well-Being
5 pages
COMP3010 Machine Learning Trimester 1 2025 Dubai Intern'l Academic City INT
No ratings yet
COMP3010 Machine Learning Trimester 1 2025 Dubai Intern'l Academic City INT
13 pages
Hyperspectral Image Fundamentals2018
100% (1)
Hyperspectral Image Fundamentals2018
24 pages
Implementation of Dimensionality Reduction Techniques in Hospital Management
No ratings yet
Implementation of Dimensionality Reduction Techniques in Hospital Management
4 pages
Application of Artificial Intelligence Technology
No ratings yet
Application of Artificial Intelligence Technology
14 pages
The Future of Influencer Marketing - Trends To Watch Out For, Marketing & Advertising News, ET BrandEquity
No ratings yet
The Future of Influencer Marketing - Trends To Watch Out For, Marketing & Advertising News, ET BrandEquity
13 pages
Cyber Defense 12 2024 Freemagazines Top
No ratings yet
Cyber Defense 12 2024 Freemagazines Top
262 pages
An Ingression Into Deep Learning - FP
No ratings yet
An Ingression Into Deep Learning - FP
17 pages
Lab X - Building A Machine-Learning Annotator With Watson Knowledge Studio
No ratings yet
Lab X - Building A Machine-Learning Annotator With Watson Knowledge Studio
27 pages
School of Electrical and Computer Engineering: Addis Ababa Institute of Technology
100% (1)
School of Electrical and Computer Engineering: Addis Ababa Institute of Technology
11 pages
Social Issues and Professional Practice in IT & Computing: Department of Computer Science University of Cape Town
100% (1)
Social Issues and Professional Practice in IT & Computing: Department of Computer Science University of Cape Town
133 pages
ML Practical File
100% (2)
ML Practical File
43 pages
For Replication in The Cloud
No ratings yet
For Replication in The Cloud
8 pages
Applying Machine Learning Algorithms in Mechanical Engineering
No ratings yet
Applying Machine Learning Algorithms in Mechanical Engineering
8 pages
NLP in Medical
No ratings yet
NLP in Medical
11 pages
Hierar Scale4
No ratings yet
Hierar Scale4
51 pages
JD Data Scientist IIT
No ratings yet
JD Data Scientist IIT
3 pages
2 Weeks Data Science Using Python: Days Topics
No ratings yet
2 Weeks Data Science Using Python: Days Topics
2 pages
RAR Interview Questions and Answers
No ratings yet
RAR Interview Questions and Answers
30 pages
Lecture 2 PDF
No ratings yet
Lecture 2 PDF
62 pages
Debrah Artificial Intelligence Building
No ratings yet
Debrah Artificial Intelligence Building
64 pages
Naukri ShyamPrabhakarAmbilkar 9124317 - 03 04 - 1
No ratings yet
Naukri ShyamPrabhakarAmbilkar 9124317 - 03 04 - 1
4 pages
Selvakumar Perumal: Education Skills
No ratings yet
Selvakumar Perumal: Education Skills
1 page
Ensemble Learning
No ratings yet
Ensemble Learning
35 pages
Unit 3 Data Mining PDF
No ratings yet
Unit 3 Data Mining PDF
19 pages
Intro To Deep Learning Final Exam IT3320E HUST
No ratings yet
Intro To Deep Learning Final Exam IT3320E HUST
8 pages
Breaking Into AI!
No ratings yet
Breaking Into AI!
30 pages
Digital Twin For CNC Machine Tool - Modeling and Using Strategy
No ratings yet
Digital Twin For CNC Machine Tool - Modeling and Using Strategy
12 pages
AI - Min Learning
No ratings yet
AI - Min Learning
5 pages
M.SC (Data Science) 28.02.2018
No ratings yet
M.SC (Data Science) 28.02.2018
16 pages