Task 1

The document outlines a Data Analyst Internship task focused on data cleaning and preprocessing, requiring the use of Excel or Python (Pandas) to handle missing values, duplicates, and inconsistent formats. Deliverables include a cleaned dataset and a summary of changes made. Additionally, it provides interview questions related to data cleaning and guidelines for task submission, including time constraints and self-research allowances.

Uploaded by

samrajputmk7

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views2 pages

Task 1

Uploaded by

samrajputmk7

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

DATA ANALYST INTERNSHIP

Task 1: Data Cleaning and Preprocessing

Objective: Clean and prepare a raw dataset (with nulls, duplicates, inconsistent formats).
Tools: Excel / Python (Pandas)

Deliverables: Cleaned dataset + short summary of changes

Hints / Mini Guide:

Identify and handle missing values using .isnull() in Python or filters in Excel.
Remove duplicate rows using .drop_duplicates() or Excel’s “Remove Duplicates”.
Standardize text values like gender, country names, etc.
Convert date formats to a consistent type (e.g., dd-mm-yyyy).
Rename column headers to be clean and uniform (e.g., lowercase, no spaces).
Check and fix data types (e.g., age should be int, date as datetime).

Dataset names from Kaggle suitable for Task 1:

Customer Personality Analysis
Medical Appointment No Shows
Mall Customer Segmentation Data
Netflix Movies and TV Shows
Sales Data

By completing this task, you will:

Gain hands-on experience in identifying and fixing common data issues like missing values,
duplicates, and inconsistent formatting.
Learn to use Excel functions or Pandas in Python for real-world data cleaning.
Improve your understanding of data pre-processing, which is a critical step before data analysis or
visualization.
Build confidence in handling raw datasets independently.
Create a clean, structured dataset that is ready for analysis or modelling.

Interview Questions Related To Above Task:

1. What are missing values and how do you handle them?

2. How do you treat duplicate records?
3. Difference between dropna() and fillna() in Pandas?
4. What is outlier treatment and why is it important?
5. Explain the process of standardizing data.
6. How do you handle inconsistent data formats (e.g., date/time)?
7. What are common data cleaning challenges?
8. How can you check data quality?
📌 Task Submission Guidelines
⏰ Time Window:
You can complete the task anytime between 10:00 AM to 10:00 PM on the given day. Submission link closes at
10 :00 PM
🔍 Self-Research Allowed:
You are free to explore, Google, or refer to tutorials to understand concepts and complete the task effectively.
🛠️ Debug Yourself:
Try to resolve all errors by yourself. This helps you learn problem-solving and ensures you don’t face the same
issues in future tasks.
💸 No Paid Tools:
If the task involves any paid software/tools, do not purchase anything. Just learn the process or find free
alternatives.
📁 GitHub Submission:
Create a new GitHub repository for each task.
Add everything you used for the task — code, datasets, screenshots (if any), and a short README.md explaining
what you did.
📤 Submit Here:
After completing the task, paste your GitHub repo link and submit it using the link below:
👉 [Submission Link ]

E-Book Data Cleaning Techniques in Python
100% (2)
E-Book Data Cleaning Techniques in Python
50 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Preprocessing Visualization
No ratings yet
Data Preprocessing Visualization
25 pages
Ass 3 - Best
No ratings yet
Ass 3 - Best
10 pages
Bda Report
No ratings yet
Bda Report
10 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
DS-Unit-2 ABM Final
No ratings yet
DS-Unit-2 ABM Final
134 pages
Data Cleaing
No ratings yet
Data Cleaing
3 pages
Data Cleaning in Machine Learning With Numerical Example
No ratings yet
Data Cleaning in Machine Learning With Numerical Example
3 pages
VOKAWfISnCmYS6cbHvK8 Data Cleaning
No ratings yet
VOKAWfISnCmYS6cbHvK8 Data Cleaning
2 pages
Data Cleaning
No ratings yet
Data Cleaning
6 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
? Data Cleaning 101
No ratings yet
? Data Cleaning 101
17 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Importance of Data Cleaning 1
No ratings yet
Importance of Data Cleaning 1
47 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Data Cleaning Checklist & AI Prompts (40 Prompts)
No ratings yet
Data Cleaning Checklist & AI Prompts (40 Prompts)
10 pages
Data Segmentation
No ratings yet
Data Segmentation
11 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
03 Data Preprocessing
No ratings yet
03 Data Preprocessing
15 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Ds Exp1 Manju
No ratings yet
Ds Exp1 Manju
5 pages
SMA Expt 3
No ratings yet
SMA Expt 3
9 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
C-42 Exp 3 Sma
No ratings yet
C-42 Exp 3 Sma
8 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
III Unit
No ratings yet
III Unit
4 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Cleaning Data in Python Live Session
No ratings yet
Cleaning Data in Python Live Session
23 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Prac 7
No ratings yet
Prac 7
5 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Ass 3 - Average
No ratings yet
Ass 3 - Average
6 pages
Ass 3 - Average
No ratings yet
Ass 3 - Average
10 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
No ratings yet
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
12 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Document
No ratings yet
Document
29 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
AQ10
No ratings yet
AQ10
3 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
Lec 9
No ratings yet
Lec 9
1 page
Day-4 Preprocessing
No ratings yet
Day-4 Preprocessing
11 pages
TSTCC
No ratings yet
TSTCC
24 pages
Chapter - 1 Introduction To Computer Science
No ratings yet
Chapter - 1 Introduction To Computer Science
69 pages
(Excerpts From) Investigating Performance: Design and Outcomes With Xapi
From Everand
(Excerpts From) Investigating Performance: Design and Outcomes With Xapi
Janet Laane Effron
No ratings yet
10th Maths Unit 3 5 Mark Model Question Paper English Medium PDF Download
No ratings yet
10th Maths Unit 3 5 Mark Model Question Paper English Medium PDF Download
2 pages
Word Processing Assignments
100% (1)
Word Processing Assignments
8 pages
CSC1002 Week1 Overview
No ratings yet
CSC1002 Week1 Overview
87 pages
OS Unit 6
No ratings yet
OS Unit 6
39 pages
Pdfmergerfreecom Electronic Devices and Circuits by Bogart PDF Free Download Mindscompress
No ratings yet
Pdfmergerfreecom Electronic Devices and Circuits by Bogart PDF Free Download Mindscompress
2 pages
Marrow Growth Strategy
No ratings yet
Marrow Growth Strategy
33 pages
Hardware Protection
No ratings yet
Hardware Protection
5 pages
Formulir Tanpa Judul (Jawaban)
No ratings yet
Formulir Tanpa Judul (Jawaban)
86 pages
DX Diag
No ratings yet
DX Diag
29 pages
DS - Chapter 5 - Naming
No ratings yet
DS - Chapter 5 - Naming
45 pages
Prepaid Recharge Manual
No ratings yet
Prepaid Recharge Manual
3 pages
Wifi Security
No ratings yet
Wifi Security
57 pages
Doctors Appointment Inbound M
No ratings yet
Doctors Appointment Inbound M
4 pages
ZSD Delivery Create Dev
No ratings yet
ZSD Delivery Create Dev
9 pages
Chip From Fpe - Google Search
No ratings yet
Chip From Fpe - Google Search
1 page
Team Unravel
No ratings yet
Team Unravel
4 pages
Unit 1
No ratings yet
Unit 1
24 pages
RunCam Split EN
No ratings yet
RunCam Split EN
1 page
Prota Help Center - End User Guide
No ratings yet
Prota Help Center - End User Guide
17 pages
Backup and Recovery Models
No ratings yet
Backup and Recovery Models
5 pages
Ibrahem Emad Abd El-Tawab: - AGC Academy For Programming - It Mcse - Ccna - Ccna Security - Itil
No ratings yet
Ibrahem Emad Abd El-Tawab: - AGC Academy For Programming - It Mcse - Ccna - Ccna Security - Itil
1 page
2.what Is LDAP Authentication
No ratings yet
2.what Is LDAP Authentication
2 pages
Data Science Mastery: From Beginner to Expert in Big Data Analytics
From Everand
Data Science Mastery: From Beginner to Expert in Big Data Analytics
Kameron Hussain
No ratings yet
Guia para Crear Un Juego en Java
No ratings yet
Guia para Crear Un Juego en Java
6 pages
Multitasking in Java
No ratings yet
Multitasking in Java
8 pages
J2 Conn - 02x05 - Odd - Even: INT Miso SCK GND
No ratings yet
J2 Conn - 02x05 - Odd - Even: INT Miso SCK GND
1 page
How To Search Product Hunting
No ratings yet
How To Search Product Hunting
5 pages
Non-Digital and Digital Skills and Tools in Delivering Technology-Enhanced Lessons
88% (16)
Non-Digital and Digital Skills and Tools in Delivering Technology-Enhanced Lessons
60 pages
Running Llama 2 On CPU Inference Locally For Document Q&A - by Kenneth Leung - Jul, 2023 - Towards Data Science
100% (1)
Running Llama 2 On CPU Inference Locally For Document Q&A - by Kenneth Leung - Jul, 2023 - Towards Data Science
21 pages

Task 1

Uploaded by

Task 1

Uploaded by

DATA ANALYST INTERNSHIP

Task 1: Data Cleaning and Preprocessing

Deliverables: Cleaned dataset + short summary of changes

Hints / Mini Guide:

Dataset names from Kaggle suitable for Task 1:

By completing this task, you will:

Interview Questions Related To Above Task:

1. What are missing values and how do you handle them?

You might also like