0% found this document useful (0 votes)

18 views10 pages

Ass 3 - Best

This document outlines Assignment #3 for the Software Engineering Department at Sir Syed University, focusing on data cleaning and preprocessing using a real-world dataset. Students are required to select a dataset, implement a cleaning process using programming languages like Python, and document their findings. The assignment emphasizes group collaboration, proper referencing, and submission guidelines, with a due date of January 14, 2025.

Uploaded by

Bushra Shahzad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views10 pages

Ass 3 - Best

Uploaded by

Bushra Shahzad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Assignment # 1 SED Batch 2021F

Sir Syed University of Engineering & Technology (SSUET)

Software Engineering Department

Semester: 7th

Batch: 2021F

Section: F

ASSIGNMENT # 3

Submitted by:

Asif Hussain(2021F-BSE-233)
Muhammad Qasim(2021F-BSE-249)
Muhammad Tahir(2021F-BSE-262)
Muhammad Daniyal(2021F-BSE-268)

Subject Name:
Teacher Name:
Business Re-engineering
Miss Nida Khalil
Roll # ___________________ Section ________ Name: ________

Department: Software Engineering Program: BS (SE)

Assignment 3
SWE-417T: Software Re-engineering

Date: 07-01-2025 Total Marks = 10.53 (04)

Teacher Name: Ms. Nida & Dr. Iqra Marks Obtained=

Sr. No Course Learning Outcomes PLOs Blooms Taxonomy

PLO_4
C6
Set to perform complex design re-engineering (Design/Development
(Create)
CLO_3 and reverse engineering problems of solution)

Assignment Guidelines • This is Group based assignment with 4 members maximum.

• You are required to answer all questions in detail with
references. Consider Book and Internet as Reference
Material
• Submission will be on VLE / Hardcopy.
• Any answers that are copied from another group will
automatically receive a zero mark.

Submission date 14-01-2025

Objective
This assignment aims to provide hands-on experience in data cleaning and preprocessing. You will
work with a real-world dataset to identify, clean, and prepare data for analysis.

Question# 1: Prepare practical implementation of Data cleaning & Preprocessing:

a) Select a dataset from a reliable resource (e.g., Kaggle, GitHub) with extract a subset of 50–
100 instances to work with. Explain your choice of dataset and the problems you expect to
solve in the data.

b) Generate a code of cleaning process which displays result of cleaned data in source code
using (python, java etc). Ensure your code performs the following:
• Implements all necessary cleaning steps.
• Displays the original dataset before cleaning and the cleaned dataset afterward.
• Outputs a summary of the changes made (e.g., number of missing values filled, rows
removed).

c) Generate output of cleaning process using any Tool OpenRefine, Trifacta Wrangler,
Winpure Clean & Match etc OR any Online Tool.

ANSWER 1 PART(a):
I have chosen a subset (100 instances) of churn rate dataset that is available on Kaggle. This
dataset contains some missing values, outliers and unnecessary columns. I will make this clean
using data cleaning techniques so that this dataset can be used for machine learning model for
high accuracy. I will use pandas library of python for data cleaning.

My Approach:
• First of all I will remove duplicate values using CustomerId column.
• Then I will remove Unnecessary columns like CustomerId and Surname these are not
necessary for machine learning model.
• Then I will identify outliers of numeric columns such as CreditScore, Age, Tenure,
Balance, NumOfProducts, Estimated Salary. I will ignore some numeric columns such as
HasCrCard , IsActiveMember, and Exited because these columns have 0 or 1 value that
represents true or false so these are not actual numeric columns.
• After identifying outliers I will be replace them with null values and then fill those null
values with mean of that column. Because I have a small dataset it is not suitable to drop
those rows so it is better to set them null then set null values to that column mean.

ANSWER 1 PART(b):
CLEANING STEPS:
Source Code:
import pandas as pd
import numpy as np

df = pd.read_csv("Churn_Modelling.csv")

#getting some info about dataset

df.describe()

#getting null values of each column

df.isnull().sum()
#Removing duplicates by using Id column
df = df.drop_duplicates(subset='CustomerId', keep='first')

#Removing Columns that are not important

df=df.drop(columns=['CustomerId','Surname'])

# Identifying Outliers using IQR and replace them with mean value
columns = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']

# Loop through each column

for col in columns:
q1 = df[col].quantile(0.25)
q3 = df[col].quantile(0.75)
iqr = q3 - q1

#Identifying and saving outliers to outliers variable

outliers = (
(df[col] < (q1 - 1.5 * iqr)) |
(df[col] > (q3 + 1.5 * iqr))
)

# setting outlier values to Nan

df.loc[outliers, col] = np.nan

#Filling all null values with their column mean

for col in columns:
df[col] = df[col].fillna(df[col].mean())

# Verify the changes

print(df.isnull().sum())
ORIGINAL DATASET AND CLEANED DATASET:
Dataset Before Cleaning:

Dataset After Cleaning:

OUTPUT SAMMARY OF ORIGINAL DATASET AND CLEANED DATASET:

Summary of Original Dataset: Summary of Cleaned Dataset:

ANSWER 1 PART(c): Using OpenRefine Tool

Remove Duplicate By CustomerId Column:

Drop Unnecessary Columns:
Fill Null Values of All Column:

Powered by TCPDF (www.tcpdf.org)

04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
Tools and Equipment Technologies For BAMBOO
100% (2)
Tools and Equipment Technologies For BAMBOO
34 pages
MEd20v2 PDF
No ratings yet
MEd20v2 PDF
502 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Guieline Full
No ratings yet
Guieline Full
460 pages
Horticulture PRE-TEST
100% (1)
Horticulture PRE-TEST
4 pages
Introduction To Hospitality - Food Safety
No ratings yet
Introduction To Hospitality - Food Safety
49 pages
Research 7 Q3 W4
No ratings yet
Research 7 Q3 W4
9 pages
Availability Check and Transfer of Requirements
No ratings yet
Availability Check and Transfer of Requirements
49 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
Assignment 02
No ratings yet
Assignment 02
7 pages
Easylyte Plus Manual: Page 3 of About 90,800 Results (0.31 Seconds)
No ratings yet
Easylyte Plus Manual: Page 3 of About 90,800 Results (0.31 Seconds)
1 page
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
No ratings yet
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
12 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
AQA Sociology Specification
No ratings yet
AQA Sociology Specification
19 pages
Relators Application For Order Requiring Citation
No ratings yet
Relators Application For Order Requiring Citation
63 pages
Swahili Names For Fish, Animals and Coastal "Things".: Samaki Ya Maji Ya Chumvi-Salt Water Fish
No ratings yet
Swahili Names For Fish, Animals and Coastal "Things".: Samaki Ya Maji Ya Chumvi-Salt Water Fish
5 pages
Data Cleaning & Preparation
100% (2)
Data Cleaning & Preparation
2 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Automatic Gas Leakage Detection and Alarming System Using Esp8266 and Mq6 Gas Sensor
No ratings yet
Automatic Gas Leakage Detection and Alarming System Using Esp8266 and Mq6 Gas Sensor
51 pages
E2030 Conceptual Framework Key Competencies For 2030
No ratings yet
E2030 Conceptual Framework Key Competencies For 2030
24 pages
Freshman Admission and Enrollment Procedure
No ratings yet
Freshman Admission and Enrollment Procedure
4 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Design and Analysis of An Automotive Single Plate Clutch: Mechanics Research Communications October 2018
No ratings yet
Design and Analysis of An Automotive Single Plate Clutch: Mechanics Research Communications October 2018
15 pages
MS Powerpoint
No ratings yet
MS Powerpoint
7 pages
Usage of Cell Phone and Learning Performance
No ratings yet
Usage of Cell Phone and Learning Performance
12 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
Prac 7
No ratings yet
Prac 7
5 pages
Docs For Family Pension
No ratings yet
Docs For Family Pension
5 pages
Formula 1048 Eye Face Balm With Q10 Liposomes
No ratings yet
Formula 1048 Eye Face Balm With Q10 Liposomes
2 pages
Lecture Notes For Introductory Probability - Gravner
No ratings yet
Lecture Notes For Introductory Probability - Gravner
218 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Ds Exp1 Manju
No ratings yet
Ds Exp1 Manju
5 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
Ticket
No ratings yet
Ticket
2 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
WD Syllabus
No ratings yet
WD Syllabus
2 pages
Lesson Plan (Speaking)
No ratings yet
Lesson Plan (Speaking)
3 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Blended Data Cleaning
No ratings yet
Blended Data Cleaning
9 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Arnav MLlab01
No ratings yet
Arnav MLlab01
7 pages
High Elf Wizard
No ratings yet
High Elf Wizard
4 pages
ML Lab 3
No ratings yet
ML Lab 3
8 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Haha 1
No ratings yet
Haha 1
2 pages
Chapter 2 - Measures of Location and Spread
No ratings yet
Chapter 2 - Measures of Location and Spread
3 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
7 Cleaning Data w3s.............................................
No ratings yet
7 Cleaning Data w3s.............................................
2 pages
DW Lab File
No ratings yet
DW Lab File
18 pages
IIT FDS Assignment 1 Likhita
No ratings yet
IIT FDS Assignment 1 Likhita
7 pages
Unit-2 Preprocessing
No ratings yet
Unit-2 Preprocessing
18 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Document
No ratings yet
Document
29 pages
Ass 3 - Best
No ratings yet
Ass 3 - Best
13 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Question 02
No ratings yet
Question 02
3 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Ass 3 - Average
No ratings yet
Ass 3 - Average
6 pages
L-1 Data Mining Issues
No ratings yet
L-1 Data Mining Issues
24 pages
Ass 3 - Average
No ratings yet
Ass 3 - Average
10 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
TCS-P-122.09-Rev. 00 Storage Handling & Installation of Comp
No ratings yet
TCS-P-122.09-Rev. 00 Storage Handling & Installation of Comp
20 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Light Detection
No ratings yet
Light Detection
42 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
B Tech-AIML-question Bank-2 Answer Key
No ratings yet
B Tech-AIML-question Bank-2 Answer Key
9 pages
Data Cleaning in Machine Learning With Numerical Example
No ratings yet
Data Cleaning in Machine Learning With Numerical Example
3 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
III Unit
No ratings yet
III Unit
4 pages
Task 1
No ratings yet
Task 1
2 pages
Grade 7 Math Paper 1st Term 2023
No ratings yet
Grade 7 Math Paper 1st Term 2023
4 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Cleaing
No ratings yet
Data Cleaing
3 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
Chapter02 - Recognizing Opportunities
No ratings yet
Chapter02 - Recognizing Opportunities
41 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
PME Assignment 1 2021F Batch
No ratings yet
PME Assignment 1 2021F Batch
2 pages
PME Chapter 3 Management
No ratings yet
PME Chapter 3 Management
24 pages
PME Chapter 2 Management
No ratings yet
PME Chapter 2 Management
22 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
IGNOU MCA Object-Oriented Analysis and Design Previous Years Unsolved Papers MCS 219
From Everand
IGNOU MCA Object-Oriented Analysis and Design Previous Years Unsolved Papers MCS 219
Manish Soni
No ratings yet
IGNOU MCA Previous Years Unsolved Papers All in One
From Everand
IGNOU MCA Previous Years Unsolved Papers All in One
Manish Soni
No ratings yet

Ass 3 - Best

Uploaded by

Ass 3 - Best

Uploaded by

Assignment # 1 SED Batch 2021F

Sir Syed University of Engineering & Technology (SSUET)

Department: Software Engineering Program: BS (SE)

Date: 07-01-2025 Total Marks = 10.53 (04)

Teacher Name: Ms. Nida & Dr. Iqra Marks Obtained=

Sr. No Course Learning Outcomes PLOs Blooms Taxonomy

Assignment Guidelines • This is Group based assignment with 4 members maximum.

Submission date 14-01-2025

Question# 1: Prepare practical implementation of Data cleaning & Preprocessing:

#getting some info about dataset

#getting null values of each column

#Removing Columns that are not important

# Loop through each column

#Identifying and saving outliers to outliers variable

# setting outlier values to Nan

#Filling all null values with their column mean

# Verify the changes

Dataset After Cleaning:

Summary of Original Dataset: Summary of Cleaned Dataset:

Remove Duplicate By CustomerId Column:

Powered by TCPDF (www.tcpdf.org)

You might also like