Fall 2024 - Project - CEP

DPP project

Uploaded by

sawairasaeed63

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views2 pages

Fall 2024 - Project - CEP

DPP project

Uploaded by

sawairasaeed63

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Data Pre-processing with Python

Instructor: Dr. Aamir Arsalan Course Code: BSE-636

Semester: V Credit Hours: 3

Course project of the Data Pre-processing with Python course has been designed as a Complex Engineering
Problem (CEP).
Project Title:
Design and Optimization of a Data Preprocessing Pipeline for Machine Learning Applications

Project Statement:
In this project, students will design, implement, and evaluate a comprehensive data preprocessing pipeline to prepare
a dataset for machine learning applications. This project addresses the challenges of handling missing values,
removing outliers, and optimizing data transformation techniques to ensure robust model performance. Students will
work with a real-world dataset, applying theoretical knowledge and practical skills to design innovative
preprocessing solutions that balance conflicting requirements such as computational efficiency, data integrity, and
model accuracy.

Objectives:
1. Develop a deep understanding of advanced data preprocessing techniques and their role in machine learning.
2. Equip students with hands-on experience in handling real-world dataset challenges.
3. Foster innovative thinking to balance trade-offs in preprocessing strategies.
4. Enhance problem-solving skills through iterative design, implementation, and evaluation.

Project Phases:
Phase 1: Data Exploration and Problem Framing (Relevant WP: WP2 - Range of Conflicting Requirements)
• Select a real-world dataset from platforms like Kaggle or UCI Machine Learning Repository.
• Identify and document challenges related to missing values, outliers, and feature representation.

Phase 2: Feature Engineering and Data Transformation (Relevant WP: WP1 - Depth of Knowledge Required,
WP3 - Depth of Analysis Required)

• Engineer features using techniques like one-hot encoding, label encoding, and feature scaling.
• Implement dimensionality reduction techniques such as PCA to address the curse of dimensionality.
• Justify the selection of transformation methods for the dataset.

Phase 3: Handling Missing and Noisy Data (Relevant WP: WP2 - Range of Conflicting Requirements)
• Apply multiple imputation techniques (e.g., KNN, iterative imputer) for missing data.
• Identify and remove outliers using Z-score and IQR methods.

Phase 4: Preprocessing Pipeline Design (Relevant WPs: WP1, WP3)

• Design a pipeline using Python libraries (e.g., Pandas, Scikit-learn).

Phase 5: Model Performance and Preprocessing Impact Analysis (Relevant WP: WP3 - Depth of Analysis
Required)
• Evaluate the performance of machine learning models trained on preprocessed data.
• Compare results across multiple preprocessing strategies.

Mapping to Complex Engineering Problems (CEPs)

1. WP1: Depth of Knowledge Required
• Requires knowledge of data transformation, feature engineering, and advanced imputation
techniques.
2. WP2: Range of Conflicting Requirements
• Balances trade-offs between preprocessing complexity, computational efficiency, and dataset-
specific requirements.
3. WP3: Depth of Analysis Required
• Involves analyzing the impact of preprocessing choices on model performance and dataset integrity

Evaluation Criteria:
Category Weightage (%) Mapped WPs
Dataset Selection & 20% WP2
Problem Framing
Feature Engineering 15% WP1, WP3
Handling Missing and 20% WP2
Noisy Data
Pipeline Design 20% WP1, WP3
Final Report & 25%
Presentation

=====================================Ended=======================================

For any query about the project, contact at [email protected]

GOOD LUCK

Analytics or Computing With Python
No ratings yet
Analytics or Computing With Python
2 pages
DS&a + AI ML Nov 23 6868 - Calendar
No ratings yet
DS&a + AI ML Nov 23 6868 - Calendar
9 pages
Python For Data Science
No ratings yet
Python For Data Science
5 pages
DSBDA Lab Manual
No ratings yet
DSBDA Lab Manual
167 pages
Data Science Course Outline CES LUMS
No ratings yet
Data Science Course Outline CES LUMS
4 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
Minor Python Syllabus
No ratings yet
Minor Python Syllabus
41 pages
1 DSML Intro
No ratings yet
1 DSML Intro
12 pages
5th BDA Booklet
No ratings yet
5th BDA Booklet
58 pages
Introduction of Machine Learning Course Code: 4350702
No ratings yet
Introduction of Machine Learning Course Code: 4350702
9 pages
AIML Curriculum
No ratings yet
AIML Curriculum
25 pages
DSBDAlab Manual
No ratings yet
DSBDAlab Manual
116 pages
Gujarat Technological University
No ratings yet
Gujarat Technological University
3 pages
Ce473 Project - Fall 2024
No ratings yet
Ce473 Project - Fall 2024
8 pages
AI-Internship Syllabus
No ratings yet
AI-Internship Syllabus
3 pages
Python For Datascience
No ratings yet
Python For Datascience
3 pages
DATA MINING Using PYTHON
No ratings yet
DATA MINING Using PYTHON
37 pages
ML Draft Syllabus
No ratings yet
ML Draft Syllabus
3 pages
B.Tech - AIDS R 2021
No ratings yet
B.Tech - AIDS R 2021
31 pages
Minor Data Science
No ratings yet
Minor Data Science
15 pages
Data Scientist & Data Analyst
No ratings yet
Data Scientist & Data Analyst
24 pages
3 CSE Multidisplinary Honours 10062024
No ratings yet
3 CSE Multidisplinary Honours 10062024
11 pages
2024-25 AI & DS III Sem-A Sec IDS 8
No ratings yet
2024-25 AI & DS III Sem-A Sec IDS 8
4 pages
Data Analytics Detailed Syllabus
No ratings yet
Data Analytics Detailed Syllabus
26 pages
LTI1
No ratings yet
LTI1
20 pages
MCA 3rd Semester Artificial Intelligence & Machine Learning Syllabus
No ratings yet
MCA 3rd Semester Artificial Intelligence & Machine Learning Syllabus
6 pages
DSP U1
No ratings yet
DSP U1
89 pages
Dsbda Lab - 1 - 1736243987425
No ratings yet
Dsbda Lab - 1 - 1736243987425
10 pages
Machine Learning With Python and Project
No ratings yet
Machine Learning With Python and Project
1 page
Anant MLDS File
No ratings yet
Anant MLDS File
38 pages
ML Minor Syllabus-Sem-04
No ratings yet
ML Minor Syllabus-Sem-04
4 pages
Machine Learning
No ratings yet
Machine Learning
4 pages
Kavin
No ratings yet
Kavin
13 pages
1DS21ET046
No ratings yet
1DS21ET046
9 pages
5279C
No ratings yet
5279C
4 pages
ML2 Write-Ups Prac 1-5
No ratings yet
ML2 Write-Ups Prac 1-5
11 pages
MLP Syllabus
No ratings yet
MLP Syllabus
4 pages
Artificial Intelligence and Machine Learning
No ratings yet
Artificial Intelligence and Machine Learning
4 pages
Ass 3 - Average
No ratings yet
Ass 3 - Average
6 pages
Datascience
No ratings yet
Datascience
8 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
Dsbda Lab Manual Merged
No ratings yet
Dsbda Lab Manual Merged
117 pages
Fundamentals of Machine Learning 4341603
No ratings yet
Fundamentals of Machine Learning 4341603
9 pages
COMP6981-DataPreproc ASoares Online
No ratings yet
COMP6981-DataPreproc ASoares Online
2 pages
UPDATED Data Science Syllabus
No ratings yet
UPDATED Data Science Syllabus
20 pages
Data Analysis Using Python (1) NAVTTC
No ratings yet
Data Analysis Using Python (1) NAVTTC
17 pages
DWDM Final Lab Syllabus
No ratings yet
DWDM Final Lab Syllabus
2 pages
Executive MTech For Working Professionals in Artificial Intelligence and Machine Learning-Annexure II
No ratings yet
Executive MTech For Working Professionals in Artificial Intelligence and Machine Learning-Annexure II
80 pages
Data Science Course Curriculum
No ratings yet
Data Science Course Curriculum
5 pages
AA Syllabus 2024 25
No ratings yet
AA Syllabus 2024 25
4 pages
It, Hardware Exp1
No ratings yet
It, Hardware Exp1
10 pages
AL-405 Machine Learning Lab Manual
No ratings yet
AL-405 Machine Learning Lab Manual
40 pages
Advanced Programming With Python
No ratings yet
Advanced Programming With Python
9 pages
INF385T IMLsyllabus
No ratings yet
INF385T IMLsyllabus
4 pages
01 Course Logistics
No ratings yet
01 Course Logistics
12 pages
Learn Python Basics For AI Real-World Applications - Raj Cloud Technologies
No ratings yet
Learn Python Basics For AI Real-World Applications - Raj Cloud Technologies
5 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
11 pages
Introduction To Machine Learning Course Code: 4350702
No ratings yet
Introduction To Machine Learning Course Code: 4350702
12 pages
Data Analyst Nanodegree Program - Syllabus
50% (2)
Data Analyst Nanodegree Program - Syllabus
7 pages
Electrostatic Lens (10 Points) : Theory
No ratings yet
Electrostatic Lens (10 Points) : Theory
4 pages
HaightAshburyFreePressVol 1no 61968D D TeoliJr A C 1
100% (1)
HaightAshburyFreePressVol 1no 61968D D TeoliJr A C 1
16 pages
Heat and Mass Transfer
No ratings yet
Heat and Mass Transfer
29 pages
Situational Leadership Theory Proposes That Effective Leadership Requires A Rational Understanding of The Situation and An Appropriate Response
No ratings yet
Situational Leadership Theory Proposes That Effective Leadership Requires A Rational Understanding of The Situation and An Appropriate Response
6 pages
Mini Project Assessment Brief Oct 24 - RH Signed
No ratings yet
Mini Project Assessment Brief Oct 24 - RH Signed
8 pages
Fluting Vs Non-Fluting Steel Technical Bulletin V14.0
No ratings yet
Fluting Vs Non-Fluting Steel Technical Bulletin V14.0
3 pages
Listening
No ratings yet
Listening
22 pages
Cylinder Head Valves
No ratings yet
Cylinder Head Valves
6 pages
Calculation Sheet For External Surface Areas (Including Glass)
No ratings yet
Calculation Sheet For External Surface Areas (Including Glass)
20 pages
7.19a - Abnormal Events
No ratings yet
7.19a - Abnormal Events
10 pages
The Most Sensitive Area of The Tooth During
No ratings yet
The Most Sensitive Area of The Tooth During
5 pages
Why Triple Offset The Benefits of Triple Offset Butterfly Valves
100% (2)
Why Triple Offset The Benefits of Triple Offset Butterfly Valves
2 pages
740 (B) Calculation of Smoke Spilled System
No ratings yet
740 (B) Calculation of Smoke Spilled System
8 pages
Controller
No ratings yet
Controller
2 pages
Sen (2017) What Stays Unsaid in Therapeutic Relationships
No ratings yet
Sen (2017) What Stays Unsaid in Therapeutic Relationships
6 pages
Audio Recording & Mastering Tips
93% (15)
Audio Recording & Mastering Tips
2 pages
CN - UNESCO Global Youth Grant Scheme - Powering Up MIL Responses To Discrimination
No ratings yet
CN - UNESCO Global Youth Grant Scheme - Powering Up MIL Responses To Discrimination
6 pages
Cambridge IGCSE: PHYSICS 0625/41
No ratings yet
Cambridge IGCSE: PHYSICS 0625/41
16 pages
FM Heat & Smoke Detector
No ratings yet
FM Heat & Smoke Detector
34 pages
A Study On Employees Satisfaction Towards Their Job in Seshsayee Paper and Boards Limited
No ratings yet
A Study On Employees Satisfaction Towards Their Job in Seshsayee Paper and Boards Limited
7 pages
Activity On The Waves
No ratings yet
Activity On The Waves
1 page
Short-Term National Resource Adequacy Plan 2025-26
No ratings yet
Short-Term National Resource Adequacy Plan 2025-26
66 pages
M D A I C: Measure Define Improve Control
No ratings yet
M D A I C: Measure Define Improve Control
1 page
mc34164 PDF
No ratings yet
mc34164 PDF
12 pages
Unit 6
No ratings yet
Unit 6
15 pages
Quality Control Analysis of Cube Fish With Fault Tree Analysis (FTA) Method in ALJB A Case Study
No ratings yet
Quality Control Analysis of Cube Fish With Fault Tree Analysis (FTA) Method in ALJB A Case Study
6 pages
Lab Report Writing Guidelines: AP Chemistry ASK
No ratings yet
Lab Report Writing Guidelines: AP Chemistry ASK
13 pages
Formal and Informal Communication
No ratings yet
Formal and Informal Communication
10 pages
Account STMT
No ratings yet
Account STMT
2 pages

Fall 2024 - Project - CEP

Uploaded by

Fall 2024 - Project - CEP

Uploaded by

Data Pre-processing with Python

Instructor: Dr. Aamir Arsalan Course Code: BSE-636

Phase 4: Preprocessing Pipeline Design (Relevant WPs: WP1, WP3)

Mapping to Complex Engineering Problems (CEPs)

For any query about the project, contact at [email protected]

You might also like