0% found this document useful (0 votes)

14 views19 pages

Unit 1

Data mining is the process of extracting knowledge from large data sets using statistical and computational techniques to discover patterns and relationships for informed decision-making. It has applications across various industries, including marketing and healthcare, and is part of the broader Knowledge Discovery in Data (KDD) process, which involves several steps from data cleaning to knowledge presentation. The document also discusses the evolution of database technology, the difference between KDD and data mining, and the functionalities and issues associated with data mining.

Uploaded by

vaibhav.21scse1011450

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views19 pages

Unit 1

Uploaded by

vaibhav.21scse1011450

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 19

School of Computing Science and Engineering

Course Code : Course Name: Data mining and web Algo

Unit – 1
Data Mining

Faculty Name: Mr. Soumalya Ghosh Program Name: B.Tech CSE

What is Data Mining?

• Data mining is the process of

– extracting knowledge or insights from large amounts of data
• using various statistical and computational techniques.
• The primary goal of data mining
– is to discover hidden patterns and relationships in the data that can be used
to make informed decisions or predictions.
What is Data Mining?

• This involves exploring the data using various techniques such as

– Clustering
– Classification
– regression analysis,
– association rule mining
– anomaly detection.
Data Mining: Applications

• Data mining has a wide range of applications across various industries,

including marketing, finance, healthcare, and telecommunications.
• For example,
– in marketing,
• data mining can be used to identify customer segments and target marketing
campaigns
– in healthcare
• it can be used to identify risk factors for diseases and develop personalized
treatment plans.
Evolution of Database Technology

• The Explosive Growth of Data: from terabytes to petabytes

– Data collection and data availability
• Automated data collection tools, database systems, Web, computerized society
– Major sources of abundant data
• Business: Web, e-commerce, transactions, stocks, …
• Science: Remote sensing, bioinformatics, scientific simulation, …
• Society and everyone: news, digital cameras, YouTube
• We are drowning in data, but starving for knowledge!
• “Necessity is the mother of invention”—Data mining—Automated analysis of massive data
sets
Why it is called Data Mining?

• Simply stated, data mining refers to extracting or “mining” knowledge from

large amounts of data.
• The term is actually a misnomer.
– Remember that the mining of gold from rocks or sand is referred to as gold
mining rather than rock or sand mining.
– Thus, data mining should have been more appropriately named “knowledge
mining from data,” which is unfortunately somewhat long.
– “Knowledge mining,” a shorter term, may not reflect the emphasis on mining
from large amounts of data.
• Thus, such a misnomer that carries both “data” and “mining” became a
popular choice.
Why it is called Data Mining?

• Many other terms carry a similar or slightly different meaning to data

mining, such as
– knowledge mining from data,
– knowledge extraction,
– data/pattern analysis,
– data archaeology
– data dredging
• Many people treat data mining as a synonym for another popularly used
term, Knowledge Discovery from Data, or KDD
• Alternatively, others view data mining as simply an essential step in the
process of knowledge discovery
Data mining as a step in the process of knowledge discovery

• 1. Data cleaning (to remove noise and inconsistent data)

• 2. Data integration (where multiple data sources may be combined)
• 3. Data selection (where data relevant to the analysis task are retrieved from the database)
• 4. Data transformation (where data are transformed or consolidated into forms
appropriate for mining by performing summary or aggregation operations, for instance)
• 5. Data mining (an essential process where intelligent methods are applied in order to
• extract data patterns)
• 6. Pattern evaluation (to identify the truly interesting patterns representing knowledge
• based on some interestingness measures)
• 7. Knowledge presentation (where visualization and knowledge representation techniques
are used to present the mined knowledge to the user)
Knowledge Discovery (KDD) Process

– Data mining—core of
Pattern Evaluation
knowledge discovery
process
Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
Difference between KDD and Data Mining

• Although the two terms KDD and Data Mining are heavily used interchangeably,
they refer to two related yet slightly different concepts.

• KDD is the overall process of extracting knowledge from data, while Data Mining
is a step inside the KDD process, which deals with identifying patterns in data.

• And Data Mining is only the application of a specific algorithm based on the
overall goal of the KDD process.

• KDD is an iterative process where evaluation measures can be enhanced, mining

can be refined, and new data can be integrated and transformed to get different
and more appropriate results.
Data Mining and Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Architecture: Typical Data Mining System

Graphical User Interface

Pattern Evaluation
Knowl
Data Mining Engine edge-
Base
Database or Data Warehouse
Server

data cleaning, integration, and selection

Data World-Wide Other Info

Database Repositories
Warehouse Web
Data Mining: Confluence of Multiple Disciplines

Database
Technology Statistics

Machine Visualization
Data Mining
Learning

Pattern
Recognition Other
Algorithm Disciplines
Data Mining: On What Kinds of Data?

• Database-oriented data sets and applications

– Relational database, data warehouse, transactional database
• Advanced data sets and advanced applications
– Data streams and sensor data
– Time-series data, temporal data, sequence data (incl. bio-sequences)
– Structure data, graphs, social networks and multi-linked data
– Object-relational databases
– Heterogeneous databases and legacy databases
– Spatial data and spatiotemporal data
– Multimedia database
– Text databases
– The World-Wide Web
Data Mining Functionalities

• Multidimensional concept description: Characterization and discrimination

– Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet regions
• Frequent patterns, association, correlation vs. causality
– Diaper  Beer [0.5%, 75%] (Correlation or causality?)
• Classification and prediction
– Construct models (functions) that describe and distinguish classes or concepts for
future prediction
• E.g., classify countries based on (climate), or classify cars based on (gas mileage)
– Predict some unknown or missing numerical values
Data Mining Functionalities

• Cluster analysis
– Class label is unknown: Group data to form new classes, e.g., cluster houses to find
distribution patterns
– Maximizing intra-class similarity & minimizing interclass similarity
• Outlier analysis
– Outlier: Data object that does not comply with the general behavior of the data
– Noise or exception? Useful in fraud detection, rare events analysis
• Trend and evolution analysis
– Trend and deviation: e.g., regression analysis
– Sequential pattern mining: e.g., digital camera  large SD memory
– Periodicity analysis
– Similarity-based analysis
• Other pattern-directed or statistical analyses
Data Mining - Issues
Data Mining - Issues

• Mining methodology
– Mining different kinds of knowledge from diverse data types, e.g., bio, stream, Web
– Performance: efficiency, effectiveness, and scalability
– Pattern evaluation: the interestingness problem
– Incorporation of background knowledge
– Handling noise and incomplete data
– Parallel, distributed and incremental mining methods
– Integration of the discovered knowledge with existing one: knowledge fusion
• User interaction
– Data mining query languages and ad-hoc mining
– Expression and visualization of data mining results
– Interactive mining of knowledge at multiple levels of abstraction
• Applications and social impacts
– Domain-specific data mining & invisible data mining
– Protection of data security, integrity, and privacy
Data Mining Applications

Data Mining
No ratings yet
Data Mining
395 pages
Data Mining Nostos
100% (1)
Data Mining Nostos
39 pages
Data Mining and Its Applications
No ratings yet
Data Mining and Its Applications
60 pages
KPMG - Second Drive For B.Tech. 2022 - Final List
No ratings yet
KPMG - Second Drive For B.Tech. 2022 - Final List
18 pages
KDD - Knowledge Discovery in Databases
No ratings yet
KDD - Knowledge Discovery in Databases
546 pages
Data Mining
No ratings yet
Data Mining
13 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
DWDM 1
No ratings yet
DWDM 1
17 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
DM Introduction-SSM
No ratings yet
DM Introduction-SSM
6 pages
Chapter 1 DM
No ratings yet
Chapter 1 DM
20 pages
1 - Introduction To DM
No ratings yet
1 - Introduction To DM
59 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
DMM Finals
No ratings yet
DMM Finals
30 pages
01 Intro 1
No ratings yet
01 Intro 1
33 pages
Dataminig
No ratings yet
Dataminig
21 pages
Chapter 07
No ratings yet
Chapter 07
47 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
1 - 1 Intro To Data Mining - ch1
No ratings yet
1 - 1 Intro To Data Mining - ch1
18 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
Chapter-1 (Introduction)
No ratings yet
Chapter-1 (Introduction)
17 pages
01 Intro
No ratings yet
01 Intro
35 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
Combine 056
No ratings yet
Combine 056
57 pages
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
No ratings yet
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
27 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Unit 3
No ratings yet
Unit 3
23 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
CIS 467 - Topic 1 - Introduction - 2020
No ratings yet
CIS 467 - Topic 1 - Introduction - 2020
79 pages
01 Intro
No ratings yet
01 Intro
29 pages
01 Intro
No ratings yet
01 Intro
45 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
Data Mining
No ratings yet
Data Mining
88 pages
Chapter 1 - Tagged
No ratings yet
Chapter 1 - Tagged
46 pages
01 Intro
No ratings yet
01 Intro
40 pages
Unit - I
No ratings yet
Unit - I
22 pages
5 Data Mining Proccess and Techniques - Week 7
No ratings yet
5 Data Mining Proccess and Techniques - Week 7
61 pages
Data Mining Note
No ratings yet
Data Mining Note
79 pages
Missing Letters
No ratings yet
Missing Letters
6 pages
DM Module1
No ratings yet
DM Module1
15 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
5-Introduction To Data Mining, Steps in Data Mining Process-06!01!2025
No ratings yet
5-Introduction To Data Mining, Steps in Data Mining Process-06!01!2025
21 pages
DM-Unit 1
No ratings yet
DM-Unit 1
110 pages
DM Unit - 3
No ratings yet
DM Unit - 3
10 pages
DB 14
No ratings yet
DB 14
97 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
Datamining&warehousing
No ratings yet
Datamining&warehousing
65 pages
2 DM Module 1 Introduction DVS
No ratings yet
2 DM Module 1 Introduction DVS
81 pages
Lecture 1.1.1 1.1.2
No ratings yet
Lecture 1.1.1 1.1.2
32 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
2 Data Mining
No ratings yet
2 Data Mining
20 pages
Unit 1
No ratings yet
Unit 1
148 pages
Course: COMP6140 - Data Mining Effective Period: September 2017
No ratings yet
Course: COMP6140 - Data Mining Effective Period: September 2017
24 pages
Introduction To Data Mining-Week1
No ratings yet
Introduction To Data Mining-Week1
43 pages
Unit III
No ratings yet
Unit III
101 pages
Lock Box and Processing
100% (1)
Lock Box and Processing
3 pages
01 Intro
No ratings yet
01 Intro
23 pages
Introduction
No ratings yet
Introduction
26 pages
UNIT 5 Introduction To Data Mining-1
No ratings yet
UNIT 5 Introduction To Data Mining-1
185 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Inf 444e - Datamining N Advanced Databases Introduction 2019
No ratings yet
Inf 444e - Datamining N Advanced Databases Introduction 2019
32 pages
Extrea Queries For Practice
No ratings yet
Extrea Queries For Practice
7 pages
Lab 2
No ratings yet
Lab 2
8 pages
Tibco Cle (23-11-2007)
100% (1)
Tibco Cle (23-11-2007)
30 pages
FND Global and FND Profile PDF
No ratings yet
FND Global and FND Profile PDF
4 pages
Data Information Wisdom
No ratings yet
Data Information Wisdom
42 pages
PowerBi Scenario Based Questions 1692110228
No ratings yet
PowerBi Scenario Based Questions 1692110228
5 pages
Lakshmi DE
No ratings yet
Lakshmi DE
3 pages
Create and Populate Date Dimension For Data Warehouse - CodeProject
No ratings yet
Create and Populate Date Dimension For Data Warehouse - CodeProject
18 pages
Descriptive Analysis of The 2019 Stack Overflow Developer Survey Data - Presentation PDF
No ratings yet
Descriptive Analysis of The 2019 Stack Overflow Developer Survey Data - Presentation PDF
19 pages
Business Analytics Course Outline V3
No ratings yet
Business Analytics Course Outline V3
3 pages
Stack: Linked List Implementation: Push and Pop at The Head of The List
No ratings yet
Stack: Linked List Implementation: Push and Pop at The Head of The List
23 pages
Data Structure Questions Worksheet
No ratings yet
Data Structure Questions Worksheet
6 pages
NoClone Enterprise Edition Ayuda
No ratings yet
NoClone Enterprise Edition Ayuda
53 pages
PROVINCIAL
No ratings yet
PROVINCIAL
5 pages
SAP Monitoring & Performance Checks
No ratings yet
SAP Monitoring & Performance Checks
20 pages
CSE 209 Lecture-1 Introduction
No ratings yet
CSE 209 Lecture-1 Introduction
20 pages
Minify UnminifyAll
No ratings yet
Minify UnminifyAll
9 pages
How Ready Are You For Iso 27001? Self-Assessment Questionnaire
No ratings yet
How Ready Are You For Iso 27001? Self-Assessment Questionnaire
2 pages
Database Management System 11
No ratings yet
Database Management System 11
9 pages
Deploying PostgreSQL Clusters Using Kubernetes StatefulSets
No ratings yet
Deploying PostgreSQL Clusters Using Kubernetes StatefulSets
9 pages
Manwant Singh Bala: Project Presentation
No ratings yet
Manwant Singh Bala: Project Presentation
7 pages
Bhutan Presentation
No ratings yet
Bhutan Presentation
57 pages
DBMS - Bba Uni 3
No ratings yet
DBMS - Bba Uni 3
13 pages
Week4 Linked List Variants Circular Linked List 19102022 121122pm
No ratings yet
Week4 Linked List Variants Circular Linked List 19102022 121122pm
13 pages
The Location Recommendatio Ntonew Restaurants: Eva Li
No ratings yet
The Location Recommendatio Ntonew Restaurants: Eva Li
9 pages
Linked List - Insertion and Deletion PDF
No ratings yet
Linked List - Insertion and Deletion PDF
8 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet

Unit 1

Uploaded by

Unit 1

Uploaded by

School of Computing Science and Engineering

Course Code : Course Name: Data mining and web Algo

Faculty Name: Mr. Soumalya Ghosh Program Name: B.Tech CSE

• Data mining is the process of

• This involves exploring the data using various techniques such as

• Data mining has a wide range of applications across various industries,

• The Explosive Growth of Data: from terabytes to petabytes

• Simply stated, data mining refers to extracting or “mining” knowledge from

• Many other terms carry a similar or slightly different meaning to data

• 1. Data cleaning (to remove noise and inconsistent data)

Data Warehouse Selection

• KDD is an iterative process where evaluation measures can be enhanced, mining

Data Presentation Business

Data Preprocessing/Integration, Data Warehouses

Graphical User Interface

data cleaning, integration, and selection

Data World-Wide Other Info

• Database-oriented data sets and applications

• Multidimensional concept description: Characterization and discrimination

You might also like