0% found this document useful (0 votes)

5 views9 pages

Fundamentals of Data Science-1

The document outlines a comprehensive examination on Data Science fundamentals, covering topics such as the KKD process, data warehousing components, data mining applications, and various classification and clustering methods. It includes detailed questions on algorithms like Apriori and FP-growth, as well as decision trees and clustering techniques. Additionally, it addresses basic concepts in data mining, including DBMS vs Data Mining, data normalization, and methods for estimating the number of clusters.

Uploaded by

sushanth

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views9 pages

Fundamentals of Data Science-1

Uploaded by

sushanth

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

SCHEME: NEP

COMPUTER APPLICATIONS
Fundamentals of Data Science- 51953

PART – A

Answer all questions. Each questions carries ten marks:

1. a) Explain KKD process in detail. [6]

• Data Cleaning
• Data Integration
• Data Selection
• Data Transformation
• Data Mining
• Pattern Evaluation
• Knowledge Representation

b) Explain the Applications of Data Mining. [4]

• Business and Marketing
• Banking and Finance
• Healthcare
• Retail
• Education
• Telecommunications
• Manufacturing
• E-commerce
OR

c) Explain the components of 3-tier Data Warehousing with a neat

diagram. [6]

• Top tier
• Middle tier
• Bottom tier
d) Explain the issues and challenges in data mining. [4]
• Data Quality Issues
• Handling Large and Complex Data
• Data Privacy and Security
• Integration of Data from Multiple Sources
• Scalability and Performance
• Interpretation of Results
• Dynamic and Evolving Data
• Lack of Skilled Personnel
2. a) Explain the various components of Data Warehousing. [5]
• Data Source
• Data Staging (ETL - Extract, Transform, Load)
• Data Storage (Data Warehouse Repository)
• Metadata
• Data Marts
• OLAP Engine (Online Analytical Processing)
• Front-End Tools (Reporting and Data Mining Tools)
• Data Warehouse Management and Monitoring Tools

b) Mention different OLAP operations. Explain any one OLAP

operation in detail. [5]
• Roll Up
• Drill Down
• Slice and Dice
• Pivot
OR

c) Explain in detail Data integration and data reduction. [10]

• Data Integration
Data integration is the process of combining data from multiple
heterogeneous sources into a unified and consistent view.
Techniques:
o Schema Integration
o Data Cleaning
o Data Transformation
o Entity Resolution
• Data Reduction
Data reduction refers to the process of reducing the volume of data
while maintaining its integrity and analytical value.
Techniques:
o Dimensionality Reduction
o Numerosity Reduction
o Data Compression
o Data Aggregation
o Sampling
3.a) Explain support and confidence in association rule mining with
example. [6]

Association Rule:
Association rule mining is used to discover interesting relationships
(associations) among items in large datasets, commonly applied in market
basket analysis.

Support:
Support is the proportion of transactions in the dataset that contain a
specific itemset.
Formula:
Support(X) = (Number of transactions containing X) / (Total number of
transactions)

Confidence:
Confidence is a measure of the likelihood that an itemset will appear if
another itemset appears.
Formula:
Confidence (X => Y) = (Number of transactions containing X and Y) /
(Number of transactions containing X)
Confidence (X -> Y) = Support_count(X ∪ Y) / Support_count(X)

b) Write a note on frequent pattern growth for mining. [4]

FP-growth is an algorithm for mining frequent patterns that uses a divide-

and-conquer approach. FP Growth algorithm was developed by Han in
2000.
Working of the FP growth:
• Scan the database
• Sort items
• Construct the FP-tree
• Generate frequent item sets
• Generate association rules
OR

c) Explain Apriori algorithm with example. [10]

Apriori is a important algorithm proposed by R. Agrawal and R. Srikant in

1994. It is uses frequent itemsets to generate association rules. It is based
on the concept that a subset of frequent itemset must also be frequent
itemset, which is an Apriori property.
It contains two steps:
1. Join Step: Find the itemsets (Lk)
2. Prune Step: Remove the itemsets in which sub items do not satisfy the
min support count threshold.

4.a) What is decision tree? Explain how classification is done using

decision tree induction. [10]

A Decision Tree is a tree-like model used for classification and regression

tasks. It breaks down a dataset into smaller subsets while an associated
decision tree is incrementally developed. It is one of the most widely used
and easy-to-understand algorithms in data mining and machine learning.

Structure of a Decision Tree:

• Root Node
• Internal Nodes
• Leaf Nodes
• Branches

Decision Tree Induction

Decision Tree Induction is the process of building a decision tree from a
training dataset. Here's how classification is done:

• Select Best Attribute (Splitting Criterion)

o Information Gain
o Gini Index
o Gain Ratio
• Create a Decision Node
• Split the Dataset
• Repeat Recursively
• Assign Class Labels
OR

b) Explain the basic concepts of classification [5]

• Training Dataset
• Classifier (Model)
• Class Label
• Prediction
• Evaluation

c) What is rule based classifier? Explain. [5]

Rule-Based Classifier is a classification technique that uses a set of IF-

THEN rules for making classification decisions. These rules are derived
from the training data and are used to classify new instances.

Structure of Rule:
• A rule is usually written in the form:
IF (condition) THEN (class label)
Example:
IF (Outlook = Sunny) AND (Humidity = High) THEN Play = No
Rule Generation:
• Rules are generated from training data using algorithms like
RIPPER, Decision Trees (converted to rules), or Apriori-based rule
learning.
Rule Matching:
• When a new instance is to be classified, the classifier checks which
rule(s) match the instance.
• If multiple rules match, techniques like confidence ranking or
majority voting are used.

5.a) Explain Hierarchical method of clustering? [6]

A hierarchical clustering method works by grouping data objects into a

hierarchy or 'tree' of clusters. This helps in summarizing the data with the
help of hierarchy.
Algorithms:
• AGNES (AGglomerative NESting)
• DIANA (DIvisive ANAlysis)
• BIRCH
• CHAMELEON

b) Write the algorithm for K-Means clustering? [4]

K-Means is an unsupervised clustering algorithm used to group similar

data points into K distinct clusters based on feature similarity.

c) Explain density based methods and grid based methods. [10]

Density-Based Methods
Density-based methods form clusters based on the density of data points
in the data space. A cluster is a dense region of points that is separated
by areas of lower point density (noise or outliers).
Algorithms:
• DBSCAN: Density-Based Clustering Based on Connected
Regions with High Density
• DENCLUE:

Grid-Based Methods
Grid-based methods divide the data space into a finite number of cells (grid
structure), then perform clustering on the grid instead of the data points.
Algorithms:
• Statistical Information Grid (STING)
• CLIQUE (CLustering In QUEst)

PART – B

Answer any five questions. Each questions carries two marks.

6.
a) Differentiate between DBMS v/s Data Mining.

DBMS (Database Management System) is a software system that

manages and stores data, providing features like data modeling, storage,
retrieval, and security.
Data Mining, on the other hand, is the process of discovering patterns,
relationships, and insights from large datasets using various statistical and
mathematical techniques.

b) What is Data Cube Aggregation?

Data Cube Aggregation is a technique used in Online Analytical
Processing (OLAP) to pre-compute and store aggregated data in a
multidimensional array, known as a data cube.

c) What is Attribute Subset Selection?

Attribute Subset Selection is a dimensionality reduction technique used to
select a subset of relevant attributes or features from a larger set of
attributes.
d) What is Bayes theorem?
Bayes’ Theorem is a mathematical formula used to determine the
probability of a hypothesis based on prior knowledge or evidence. It is
widely used in probabilistic classification, such as the Naive Bayes
Classifier.

e) What is Data Normalization?

Data Normalization is a technique used to rescale numeric data to a
common range, usually between 0 and 1, to prevent differences in scales
for different attributes.

f) What is K-Nearest Neighbour Classifier?

K-Nearest Neighbour (KNN) Classifier is a type of supervised learning
algorithm that classifies new instances based on the majority vote of its k
nearest neighbours in the feature space.

g) Limitation of Partitioning Methods of Clustering.

• Requires pre-defined number of clusters (K)
• Assumes spherical or convex clusters
• Sensitive to initial centroid selection
• Affected by outliers and noise

h) Methods for Estimating Number of Clusters.

Some common methods for estimating the number of clusters include:
1. Elbow Method:
2. Silhouette Method
3. Gap Statistic

Architecture and Learning Process in Neural Network - GeeksforGeeks
No ratings yet
Architecture and Learning Process in Neural Network - GeeksforGeeks
6 pages
Data Mining Model Qns
100% (1)
Data Mining Model Qns
14 pages
AI For Beginners
No ratings yet
AI For Beginners
2 pages
DWM Solution May 2019
No ratings yet
DWM Solution May 2019
9 pages
Top 500 - Useful Websites List & Bonuses
No ratings yet
Top 500 - Useful Websites List & Bonuses
19 pages
My Brothers Wife Scorn
No ratings yet
My Brothers Wife Scorn
69 pages
Syllabus
No ratings yet
Syllabus
4 pages
Natural Language Processing Master Thesis
100% (3)
Natural Language Processing Master Thesis
8 pages
Dissertation Topics For Culinary Arts
100% (1)
Dissertation Topics For Culinary Arts
5 pages
(Ebooks PDF) Download (Ebook PDF) MIS 10th Edition by Hossein Bidgoli Full Chapters
100% (3)
(Ebooks PDF) Download (Ebook PDF) MIS 10th Edition by Hossein Bidgoli Full Chapters
49 pages
Revolutionizing Lead Qualification: The Power of LLMs Over Traditional Methods
No ratings yet
Revolutionizing Lead Qualification: The Power of LLMs Over Traditional Methods
12 pages
DMDA Viva Questions-1
No ratings yet
DMDA Viva Questions-1
7 pages
Topics For Internship in The Netherlands - 2024
No ratings yet
Topics For Internship in The Netherlands - 2024
3 pages
DWDM Short YNotes
No ratings yet
DWDM Short YNotes
9 pages
1
No ratings yet
1
4 pages
DMBI All Pyqs
No ratings yet
DMBI All Pyqs
4 pages
Applications of Artificial Intelligence To Aid Early Detection of Dementia
No ratings yet
Applications of Artificial Intelligence To Aid Early Detection of Dementia
13 pages
VAISHNAVI Project Finaaaaaaaaallll
No ratings yet
VAISHNAVI Project Finaaaaaaaaallll
67 pages
WordPiece Tokenization - Hugging Face NLP Course
No ratings yet
WordPiece Tokenization - Hugging Face NLP Course
12 pages
Copilot Plus PC Slides
No ratings yet
Copilot Plus PC Slides
9 pages
Acorn Tokoro ICF
No ratings yet
Acorn Tokoro ICF
11 pages
Model Question Paper 2
No ratings yet
Model Question Paper 2
7 pages
A CIOs GUIDE TO AIOps
No ratings yet
A CIOs GUIDE TO AIOps
27 pages
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
No ratings yet
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
7 pages
Data Mining Imp Solutions
No ratings yet
Data Mining Imp Solutions
6 pages
Top AI Tools For Creators For 2025 - Social Media Examiner
No ratings yet
Top AI Tools For Creators For 2025 - Social Media Examiner
17 pages
Data Mining University Answer
No ratings yet
Data Mining University Answer
10 pages
Dataminingassignmentjohnvictorgichonge
No ratings yet
Dataminingassignmentjohnvictorgichonge
2 pages
Data Mining - DM 1-5 Question Bank
No ratings yet
Data Mining - DM 1-5 Question Bank
10 pages
DM 100
No ratings yet
DM 100
17 pages
DMA QB Solved
No ratings yet
DMA QB Solved
42 pages
Data Mining Long Answers
No ratings yet
Data Mining Long Answers
4 pages
Elementary / Pre-Intermediate: Level 1
No ratings yet
Elementary / Pre-Intermediate: Level 1
4 pages
MACHINE LEARNING TUTORIAL QUESTION BANK Modified
No ratings yet
MACHINE LEARNING TUTORIAL QUESTION BANK Modified
13 pages
Rimac Caso T Dig
No ratings yet
Rimac Caso T Dig
18 pages
Data Mining Questions
No ratings yet
Data Mining Questions
5 pages
S.5 Subsdiary ICT P2 Practical Questions 7th July 2021
No ratings yet
S.5 Subsdiary ICT P2 Practical Questions 7th July 2021
6 pages
DM-Question Bank 2024-25 Objective Question Bank
No ratings yet
DM-Question Bank 2024-25 Objective Question Bank
14 pages
25NG003564 SummaryPDFEn
No ratings yet
25NG003564 SummaryPDFEn
6 pages
QB Data Mining
No ratings yet
QB Data Mining
5 pages
Datamining Quiz
No ratings yet
Datamining Quiz
173 pages
14 Project Management Trends Emerging in 2024
No ratings yet
14 Project Management Trends Emerging in 2024
7 pages
DWDM
No ratings yet
DWDM
18 pages
Modeling and Optimization of Paper-Making Wastewater Treatment Based On Reinforcement Learning
No ratings yet
Modeling and Optimization of Paper-Making Wastewater Treatment Based On Reinforcement Learning
5 pages
Data Mining Suggestions
No ratings yet
Data Mining Suggestions
5 pages
DWDM
No ratings yet
DWDM
9 pages
DWDM-CSE-Question Bank
No ratings yet
DWDM-CSE-Question Bank
11 pages
DWDM QB
No ratings yet
DWDM QB
6 pages
DM Question Bank
No ratings yet
DM Question Bank
5 pages
Data Mining New
No ratings yet
Data Mining New
3 pages
Seperated
No ratings yet
Seperated
11 pages
The Role of Artificial Intelligence in Enhancing Data Security
No ratings yet
The Role of Artificial Intelligence in Enhancing Data Security
24 pages
Aiml Project Review
No ratings yet
Aiml Project Review
22 pages
DM Unit 1 PDF
No ratings yet
DM Unit 1 PDF
9 pages
1 - Page
No ratings yet
1 - Page
11 pages
Comp 414 Revision
No ratings yet
Comp 414 Revision
9 pages
3D Convolutional Neural Networks For Human Action Recognition
No ratings yet
3D Convolutional Neural Networks For Human Action Recognition
11 pages
Data Mining
No ratings yet
Data Mining
8 pages
التحقيق المحاسبي في العصر الرقمي
No ratings yet
التحقيق المحاسبي في العصر الرقمي
21 pages
2018 & 2019 Data Mining Answers
No ratings yet
2018 & 2019 Data Mining Answers
25 pages
Data Mining and Data Warehousing Notes ct1
No ratings yet
Data Mining and Data Warehousing Notes ct1
12 pages
Pankaj Kumar Mahato
No ratings yet
Pankaj Kumar Mahato
10 pages
Data Mining Unit-II
No ratings yet
Data Mining Unit-II
4 pages
CEUC502 - DMBI - Question - Bank
No ratings yet
CEUC502 - DMBI - Question - Bank
12 pages
Data Mining List of Important Question
No ratings yet
Data Mining List of Important Question
4 pages
Data Mining IMP Objective Questions - Sep 2023
No ratings yet
Data Mining IMP Objective Questions - Sep 2023
4 pages
Vi Sem Bca Qbank - Wcms - Fds
50% (2)
Vi Sem Bca Qbank - Wcms - Fds
11 pages
DW Model Questions
No ratings yet
DW Model Questions
8 pages
DMDW Lab Oral Question Bank
No ratings yet
DMDW Lab Oral Question Bank
4 pages
DMBI QB AssignmentQ
No ratings yet
DMBI QB AssignmentQ
8 pages
Question Bank: Q1) What Is Data Warehouse?
No ratings yet
Question Bank: Q1) What Is Data Warehouse?
17 pages
Sample Question DMW
No ratings yet
Sample Question DMW
4 pages
Aie - Concept of Data Mining
No ratings yet
Aie - Concept of Data Mining
5 pages
CS-DM Module - 1
No ratings yet
CS-DM Module - 1
27 pages
DMDW Question Bank
No ratings yet
DMDW Question Bank
17 pages
Dcs 7302
No ratings yet
Dcs 7302
17 pages
Subject Code: 80359 Subject Name: Data Warehousing and Data Mining Common Subject Code (If Any)
No ratings yet
Subject Code: 80359 Subject Name: Data Warehousing and Data Mining Common Subject Code (If Any)
9 pages
DWM Unit 2
No ratings yet
DWM Unit 2
4 pages
Vivaquestions
No ratings yet
Vivaquestions
14 pages
Assignment 1
100% (1)
Assignment 1
17 pages
Data Mining and Warehousing
100% (3)
Data Mining and Warehousing
30 pages
Cs1004: Data Warehousing and Mining Two Marks Questions and Answers Unit I
No ratings yet
Cs1004: Data Warehousing and Mining Two Marks Questions and Answers Unit I
31 pages
IV-cse DM Viva Questions
No ratings yet
IV-cse DM Viva Questions
10 pages
Question Bank: Data Warehousing and Data Mining Semester: VII
No ratings yet
Question Bank: Data Warehousing and Data Mining Semester: VII
4 pages
SQL Mastery: From Novice Queries to Advanced Database Wizardry
From Everand
SQL Mastery: From Novice Queries to Advanced Database Wizardry
Scott Markham
No ratings yet
The Study of Building the Data Warehouse
From Everand
The Study of Building the Data Warehouse
venkateswara Rao
No ratings yet
IGNOU MCA Data Warehousing and Data Mining Previous Years Unsolved Papers MCS 221
From Everand
IGNOU MCA Data Warehousing and Data Mining Previous Years Unsolved Papers MCS 221
Manish Soni
No ratings yet
NoSQL Essentials: Navigating the World of Non-Relational Databases
From Everand
NoSQL Essentials: Navigating the World of Non-Relational Databases
Kameron Hussain
No ratings yet
IGNOU MCA Data Science and Big Data Previous Years Unsolved Papers MCS 226
From Everand
IGNOU MCA Data Science and Big Data Previous Years Unsolved Papers MCS 226
Manish Soni
No ratings yet
Databases: System Concepts, Designs, Management, and Implementation
From Everand
Databases: System Concepts, Designs, Management, and Implementation
Jonathan Rigdon
No ratings yet