DS Question Bank Unit-2 Part-1

The document is a question bank for a Data Science course focusing on Unit 2, Part 1. It covers topics such as handling large volumes of data, data wrangling phases, combining datasets in pandas, and challenges in merging data. Additionally, it includes practical tasks like identifying duplicates, handling missing values, and performing group calculations.

Uploaded by

swarnim gaming tech

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views1 page

DS Question Bank Unit-2 Part-1

Uploaded by

swarnim gaming tech

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

DATA SCIENCE

QUESTION BANK
UNIT-2
PART-1

1. Discuss the problems and its solutions for handling large volume of Data.

2. Define Data Wrangling and clearly explain its phases/ steps:

a. Clean
b. Transform
c. Merge
d. Shape

3. How the data in pandas are combined together? Discuss all the ways.
[Hint: Combining and Merging Datasets Merging on Index Concatenate Combining
with overlap]

4. Explain the following:

a. How can you merge two DataFrames on multiple indexes (hierarchical index
merging)?
[Hint: pd.merge(left1, right1, left_on='key', right_index=True, how='outer')]
b. How the dataframe are combined together having the same or similar indexes
but non-overlapping columns?
[Hint: left2.join(right2, how='outer') ]
c. Discuss various concatenate functions arguments.
i. Create two data frames: One dataframe contains index values [‘a’, ‘b’]
while another dataframe contains index values [‘a’, ‘b’, ‘c’, ‘d’].
ii. Perform concatenate operations with ‘inner’ join operation along axis
=1.
[Hint: pd.concat([s1, s4], axis=1, join='inner') ]
d. Discuss different join types and apply on two dataframe.

5. Discuss the challenges encountered when merging and combining datasets, such as
handling missing values, duplicate entries, and performance issues. How can these
challenges be mitigated?
6. Load a dataset and identify duplicate records.
a) Remove them while keeping the first occurrence.
b) Replace missing values in a dataset using:
a. Mean for numerical columns
b. Mode for categorical columns
c) Group data by multiple columns and calculate the mean for each group.
d) Compute the percentage contribution of each category in a column.
e) Count unique values in each column of a dataset.

Unit 4 Fod
100% (1)
Unit 4 Fod
21 pages
Pandas Cheat Sheet
100% (2)
Pandas Cheat Sheet
6 pages
Data Wrangling and Analysis
100% (1)
Data Wrangling and Analysis
36 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
Rapids Cheatsheet
100% (1)
Rapids Cheatsheet
2 pages
DAV Previous Year
No ratings yet
DAV Previous Year
7 pages
Class 12 IP Practice Assignment Series 13
No ratings yet
Class 12 IP Practice Assignment Series 13
3 pages
Unit Ii 2M
No ratings yet
Unit Ii 2M
8 pages
Bangluru Ip
No ratings yet
Bangluru Ip
6 pages
Analyzing Data Using Python - Cleaning and Analyzing Data in Pandas
No ratings yet
Analyzing Data Using Python - Cleaning and Analyzing Data in Pandas
81 pages
OOM Unit 2
No ratings yet
OOM Unit 2
145 pages
Pandas
No ratings yet
Pandas
94 pages
Combining Datasets
No ratings yet
Combining Datasets
36 pages
Lesson - 3 - 1 Data Wrangling
No ratings yet
Lesson - 3 - 1 Data Wrangling
29 pages
IV Unit Fds
No ratings yet
IV Unit Fds
16 pages
Panda Joins
No ratings yet
Panda Joins
25 pages
Wa0012.
No ratings yet
Wa0012.
30 pages
Python For DS Unit4
No ratings yet
Python For DS Unit4
11 pages
4th Unit Answer Bank
No ratings yet
4th Unit Answer Bank
40 pages
Lecture 8 - Data Wrangling Using Pandas
No ratings yet
Lecture 8 - Data Wrangling Using Pandas
31 pages
07 Data Wrangling
No ratings yet
07 Data Wrangling
51 pages
Python Programming For Data Science
No ratings yet
Python Programming For Data Science
36 pages
Pandas - Dataframe - Merging or Joining
No ratings yet
Pandas - Dataframe - Merging or Joining
29 pages
Cloud Unit 4
No ratings yet
Cloud Unit 4
17 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
Ge - Computer Science Data Analysis
No ratings yet
Ge - Computer Science Data Analysis
16 pages
Set-B - CT2 - AnswerKey
No ratings yet
Set-B - CT2 - AnswerKey
10 pages
Python - Final 1
No ratings yet
Python - Final 1
17 pages
Python Lecture 5 (2025)
No ratings yet
Python Lecture 5 (2025)
29 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
UNIT IV Material
No ratings yet
UNIT IV Material
23 pages
Pyq Solution
No ratings yet
Pyq Solution
12 pages
Python MCQs
No ratings yet
Python MCQs
21 pages
Unit 4 DSE
No ratings yet
Unit 4 DSE
9 pages
Cs Sem V Dav Upc 32347507 Sl. No. Qp. 4432 Dec '23
No ratings yet
Cs Sem V Dav Upc 32347507 Sl. No. Qp. 4432 Dec '23
16 pages
Exp 3
No ratings yet
Exp 3
10 pages
Set-D CT2 Answerkey
No ratings yet
Set-D CT2 Answerkey
11 pages
Pandas Moderate
No ratings yet
Pandas Moderate
15 pages
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
MCQ
No ratings yet
MCQ
8 pages
PYQ Data Analysis and Visualisation Using Python GE May 2024
No ratings yet
PYQ Data Analysis and Visualisation Using Python GE May 2024
6 pages
Optimize Python Pandas 1713973016
No ratings yet
Optimize Python Pandas 1713973016
6 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
B. Sc. H Computer S FkQNyBB
No ratings yet
B. Sc. H Computer S FkQNyBB
6 pages
Python CAT Papers
No ratings yet
Python CAT Papers
6 pages
DS Question Bank Unit-1 Part-2
No ratings yet
DS Question Bank Unit-1 Part-2
3 pages
Chai
No ratings yet
Chai
5 pages
Python 2.1.3
No ratings yet
Python 2.1.3
6 pages
Lab Session 06: Perform Following Operations Using Pandas Lab Session 06: Perform Following Operations Using Pandas
No ratings yet
Lab Session 06: Perform Following Operations Using Pandas Lab Session 06: Perform Following Operations Using Pandas
5 pages
HCLTech
No ratings yet
HCLTech
5 pages
Lab Session 07: Perform Following Operations Using Pandas
No ratings yet
Lab Session 07: Perform Following Operations Using Pandas
4 pages
Python Unit 2 Question Bank
No ratings yet
Python Unit 2 Question Bank
5 pages
Question Bank (1&2)
No ratings yet
Question Bank (1&2)
4 pages
Cloud Computing and Distributed Systems - Unit 6 - Week 3
No ratings yet
Cloud Computing and Distributed Systems - Unit 6 - Week 3
4 pages
Cloud Computing and Distributed Systems - Unit 5 - Week 2
No ratings yet
Cloud Computing and Distributed Systems - Unit 5 - Week 2
4 pages
Cloud Computing and Distributed Systems - Unit 4 - Week 1
No ratings yet
Cloud Computing and Distributed Systems - Unit 4 - Week 1
4 pages
Dav End Sem
No ratings yet
Dav End Sem
2 pages
MY Question Bank
No ratings yet
MY Question Bank
3 pages
Unit 4 1
No ratings yet
Unit 4 1
3 pages
GE - Computer Scien 4ogygeb
No ratings yet
GE - Computer Scien 4ogygeb
8 pages
Exercise 7 - Pandas
No ratings yet
Exercise 7 - Pandas
2 pages
IGNOU MCA Data Warehousing and Data Mining Previous Years Unsolved Papers MCS 221
From Everand
IGNOU MCA Data Warehousing and Data Mining Previous Years Unsolved Papers MCS 221
Manish Soni
No ratings yet
Administering Microsoft Azure SQL Solutions DP 300
From Everand
Administering Microsoft Azure SQL Solutions DP 300
Manish Soni
No ratings yet

DS Question Bank Unit-2 Part-1

Uploaded by

DS Question Bank Unit-2 Part-1

Uploaded by

DATA SCIENCE

2. Define Data Wrangling and clearly explain its phases/ steps:

4. Explain the following:

You might also like