0% found this document useful (0 votes)

81 views

6 Query Intro

database

Uploaded by

Nia Avianty Kurnia Nia

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

81 views

6 Query Intro

database

Uploaded by

Nia Avianty Kurnia Nia

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 15

Outline

Introduction Background Distributed Database Design Database Integration Semantic Data Control Distributed Query Processing
Overview Query decomposition and localization Distributed query optimization

Multidatabase Query Processing Distributed Transaction Management Data Replication Parallel Database Systems Distributed Object DBMS Peer-to-Peer Data Management Web Data Management Current Issues
M. T. zsu & P. Valduriez Ch.6/1

Distributed DBMS

Query Processing in a DDBMS

high level user query

query processor

Low-level data manipulation commands for D-DBMS

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/2

Query Processing Components

Query language that is used
SQL: intergalactic dataspeak

Query execution methodology

The steps that one goes through in executing high-level (declarative) user

queries.

Query optimization
How do we determine the best execution plan?

We assume a homogeneous D-DBMS

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/3

Selecting Alternatives
SELECT FROM WHERE AND Strategy 1 ENAME(RESP=ManagerEMP.ENO=ASG.ENO(EMPASG)) ENAME EMP,ASG EMP.ENO = ASG.ENO RESP = "Manager"

Strategy 2
ENAME(EMP ENO (RESP=Manager (ASG)) Strategy 2 avoids Cartesian product, so may be better

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/4

What is the Problem?

Site 1
ASG1=ENOE3(ASG)

Site 2

Site 3

Site 4

Site 5
Result

ASG2= ENO>E3(ASG) EMP1= ENOE3(EMP) EMP2= ENO>E3(EMP)

Site 5
' result EMP1' EMP2

Site 5
result= (EMP1 EMP2)ENORESP=Manager(ASG1 ASG2)

Site 3

EMP1'

Site 4

' EMP2

ASG1

ASG2

EMP1

EMP2

EMP1=EMP1 ENO ASG1

' ASG1

EMP2=EMP2 ENO ASG2

ASG'2

Site 1 Site 2

Site 3

Site 4

Site 1
' ASG1 RESP"Manager" ASG1

Site 2
ASG'2 RESP"Manager" ASG2

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/5

Cost of Alternatives

Assume
size(EMP) = 400, size(ASG) = 1000

tuple access cost = 1 unit; tuple transfer cost = 10 units

Strategy 1

produce ASG': (10+10) tuple access cost transfer ASG' to the sites of EMP: (10+10) tuple transfer cost produce EMP': (10+10) tuple access cost 2 transfer EMP' to result site: (10+10) tuple transfer cost Total Cost

20 200 40 200 460 4,000 10,000 1,000 8,000 23,000

Strategy 2

transfer EMP to site 5: 400 tuple transfer cost transfer ASG to site 5: 1000 tuple transfer cost produce ASG': 1000 tuple access cost join EMP and ASG': 400 20 tuple access cost Total Cost
M. T. zsu & P. Valduriez

Distributed DBMS

Ch.6/6

Query Optimization Objectives

Minimize a cost function

I/O cost + CPU cost + communication cost

These might have different weights in different distributed environments

Wide area networks

communication cost may dominate or vary much

bandwidth speed high protocol overhead

Local area networks

communication cost not that dominant total cost function should be considered

Can also maximize throughput

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/7

Complexity of Relational Operations

Operation Complexity
O(n)

Assume
relations of cardinality n sequential scan

Select Project (without duplicate elimination) Project (with duplicate elimination) Group Join Semi-join Division Set Operators

O(n log n)

Cartesian Product

O(n2)

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/8

Query Optimization Issues Types Of Optimizers

Exhaustive search
Cost-based Optimal

Combinatorial complexity in the number of relations

Heuristics
Not optimal Regroup common sub-expressions Perform selection, projection first Replace a join by a series of semijoins Reorder operations to reduce intermediate relation size Optimize individual operations

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/9

Query Optimization Issues Optimization Granularity

Single query at a time

Cannot use common intermediate results

Multiple queries at a time

Efficient if many similar queries Decision space is much larger

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/10

Query Optimization Issues Optimization Timing

Static Compilation optimize prior to the execution Difficult to estimate the size of the intermediate results error propagation Can amortize over many executions R* Dynamic Run time optimization Exact information on the intermediate relation sizes Have to reoptimize for multiple executions Distributed INGRES Hybrid Compile using a static algorithm If the error in estimate sizes > threshold, reoptimize at run time Mermaid
M. T. zsu & P. Valduriez Ch.6/11

Distributed DBMS

Query Optimization Issues Statistics

Relation
Cardinality Size of a tuple Fraction of tuples participating in a join with another relation

Attribute
Cardinality of domain Actual number of distinct values

Common assumptions
Independence between different attribute values Uniform distribution of attribute values within their domain

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/12

Query Optimization Issues Decision Sites

Centralized
Single site determines the best schedule Simple Need knowledge about the entire distributed database

Distributed
Cooperation among sites to determine the schedule Need only local information

Cost of cooperation

Hybrid
One site determines the global schedule Each site optimizes the local subqueries

Distributed DBMS

M. T. zsu & P. Valduriez

Ch.6/13

Query Optimization Issues Network Topology

Wide area networks (WAN) point-to-point

Characteristics

Low bandwidth Low speed

High protocol overhead

Communication cost will dominate; ignore all other cost factors Global schedule to minimize communication cost Local schedules according to centralized query optimization

Local area networks (LAN)

Communication cost not that dominant Total cost function should be considered Broadcasting can be exploited (joins)

Special algorithms exist for star networks

Distributed DBMS M. T. zsu & P. Valduriez Ch.6/14

Distributed Query Processing Methodology

Calculus Query on Distributed Relations Query Decomposition Algebraic Query on Distributed Relations CONTROL SITE Data Localization Fragment Query Global Optimization Optimized Fragment Query with Communication Operations LOCAL SITES Local Optimization Optimized Local Queries
Distributed DBMS M. T. zsu & P. Valduriez Ch.6/15

GLOBAL SCHEMA

FRAGMENT SCHEMA

STATS ON FRAGMENTS

LOCAL SCHEMAS

PD1 Set1
No ratings yet
PD1 Set1
66 pages
2021 Itim01+topic1+dblc
No ratings yet
2021 Itim01+topic1+dblc
36 pages
Big Data & Hadoop Training Material 0 1 PDF
50% (2)
Big Data & Hadoop Training Material 0 1 PDF
168 pages
Lect#2 DDBS (Characteristics and Layers of Query Processing)
78% (9)
Lect#2 DDBS (Characteristics and Layers of Query Processing)
20 pages
Splunk Power User
No ratings yet
Splunk Power User
23 pages
Query Processing
No ratings yet
Query Processing
121 pages
6-Query Intro
No ratings yet
6-Query Intro
15 pages
Outline: Parallel Database Systems
No ratings yet
Outline: Parallel Database Systems
48 pages
1_2e_Query_Optimization_ozsu_ch8_SPLIT (1)
No ratings yet
1_2e_Query_Optimization_ozsu_ch8_SPLIT (1)
29 pages
ADB - Unit - III (Chapter-2) - Query Processing and Decomposition
No ratings yet
ADB - Unit - III (Chapter-2) - Query Processing and Decomposition
42 pages
Unit I (Distributed Databases)
No ratings yet
Unit I (Distributed Databases)
8 pages
Big Data - RDBMS, NoSQL and DynamoDB
No ratings yet
Big Data - RDBMS, NoSQL and DynamoDB
6 pages
Lecture5 -Query_Processing 1
No ratings yet
Lecture5 -Query_Processing 1
23 pages
SF8 - UNIT 2 DDB
No ratings yet
SF8 - UNIT 2 DDB
97 pages
Big Data and Cloud Computing
No ratings yet
Big Data and Cloud Computing
27 pages
Query Optimization in Distributed Systems
No ratings yet
Query Optimization in Distributed Systems
4 pages
QueryProcessing Lect 3
No ratings yet
QueryProcessing Lect 3
26 pages
Outline: Multidatabase Query Processing
No ratings yet
Outline: Multidatabase Query Processing
41 pages
DDP ch7
No ratings yet
DDP ch7
1 page
Distributed Databases: Not Just A Client/server System
No ratings yet
Distributed Databases: Not Just A Client/server System
43 pages
Distributed Databases: Not Just A Client/server System
No ratings yet
Distributed Databases: Not Just A Client/server System
43 pages
Big Data Unit5
No ratings yet
Big Data Unit5
57 pages
DDB Lec 4 PDF
No ratings yet
DDB Lec 4 PDF
69 pages
Virtual Memory (VM) : CIT 595 Spring 2007
No ratings yet
Virtual Memory (VM) : CIT 595 Spring 2007
10 pages
DDS Unit - 2
No ratings yet
DDS Unit - 2
7 pages
Lecture 24: WSC, Datacenters
No ratings yet
Lecture 24: WSC, Datacenters
19 pages
Enterprise Systems: Distributed Databases and Systems - DT211 4
No ratings yet
Enterprise Systems: Distributed Databases and Systems - DT211 4
25 pages
Parallel & Distributed Computing:: Spring-2020 Lec#1
No ratings yet
Parallel & Distributed Computing:: Spring-2020 Lec#1
19 pages
CAQA5e ch1
No ratings yet
CAQA5e ch1
42 pages
BDA Module 3 - Part 1 (Mapreduce and HBase) 2023
No ratings yet
BDA Module 3 - Part 1 (Mapreduce and HBase) 2023
15 pages
CS614 - Helping Material
No ratings yet
CS614 - Helping Material
7 pages
Big Data Analytics_AAM_Unit 2
No ratings yet
Big Data Analytics_AAM_Unit 2
73 pages
Lecture 1
No ratings yet
Lecture 1
23 pages
Distributed Database Management Systems (2)
No ratings yet
Distributed Database Management Systems (2)
73 pages
Synopsis 4
No ratings yet
Synopsis 4
7 pages
2 - Description of Workload
No ratings yet
2 - Description of Workload
37 pages
Geographically Distributed Transactional Applications
No ratings yet
Geographically Distributed Transactional Applications
72 pages
DNS Interview Questions
100% (1)
DNS Interview Questions
22 pages
CS Project 12 cbse
No ratings yet
CS Project 12 cbse
22 pages
Query
No ratings yet
Query
104 pages
Best Practice Document For Creating BEx Query and Workbook Version 1 (1) .0
No ratings yet
Best Practice Document For Creating BEx Query and Workbook Version 1 (1) .0
19 pages
LinkAnalysisandLST5Final03Apr14
No ratings yet
LinkAnalysisandLST5Final03Apr14
25 pages
Oprating System
No ratings yet
Oprating System
19 pages
(17CS82) 8 Semester CSE: Big Data Analytics
No ratings yet
(17CS82) 8 Semester CSE: Big Data Analytics
169 pages
Parallel N Distributed Systems
No ratings yet
Parallel N Distributed Systems
44 pages
question_8
No ratings yet
question_8
4 pages
Performance Checklist 1.3
No ratings yet
Performance Checklist 1.3
13 pages
777 1651400043 BD Module 4
No ratings yet
777 1651400043 BD Module 4
21 pages
Bigdata and Nosql DBS: Piyushgupta July2013
No ratings yet
Bigdata and Nosql DBS: Piyushgupta July2013
27 pages
Unit 5 CAD Data Exchange
No ratings yet
Unit 5 CAD Data Exchange
33 pages
CassandraTraining v3.3.4
100% (1)
CassandraTraining v3.3.4
183 pages
Unit-4 Relational Database and Big Data
No ratings yet
Unit-4 Relational Database and Big Data
22 pages
Front End Performance Checklist
No ratings yet
Front End Performance Checklist
11 pages
Principles of Distributed Database Systems: M. Tamer Özsu Patrick Valduriez
No ratings yet
Principles of Distributed Database Systems: M. Tamer Özsu Patrick Valduriez
73 pages
Lecture05-Textbook1-Ch5 (1)
No ratings yet
Lecture05-Textbook1-Ch5 (1)
29 pages
U4S9
No ratings yet
U4S9
18 pages
Big Data
No ratings yet
Big Data
43 pages
Qos-Enabled Middleware Design & Application: Dr. Douglas C. Schmidt
No ratings yet
Qos-Enabled Middleware Design & Application: Dr. Douglas C. Schmidt
18 pages
Query
No ratings yet
Query
104 pages
Introduction To Big Data
No ratings yet
Introduction To Big Data
30 pages
3 Distribution Design
No ratings yet
3 Distribution Design
65 pages
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
From Everand
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
Hunter Davis
No ratings yet
SAS Programming Guidelines Interview Questions You'll Most Likely Be Asked
From Everand
SAS Programming Guidelines Interview Questions You'll Most Likely Be Asked
Vibrant Publishers
No ratings yet
Adf Activities
No ratings yet
Adf Activities
6 pages
SQL Notes Basic To Advanced (SQL Clauses)
No ratings yet
SQL Notes Basic To Advanced (SQL Clauses)
10 pages
Example
No ratings yet
Example
2 pages
Relational Database Design by ER - and EER-to-Relational Mapping
100% (2)
Relational Database Design by ER - and EER-to-Relational Mapping
39 pages
HASH-2
No ratings yet
HASH-2
37 pages
Unit 4 - Introduction To Databases
No ratings yet
Unit 4 - Introduction To Databases
33 pages
User Account Features 9090909090909900
No ratings yet
User Account Features 9090909090909900
6 pages
Transaction Internals: Julian Dyke Independent Consultant
No ratings yet
Transaction Internals: Julian Dyke Independent Consultant
41 pages
DBMS Lab 05 21102020 013902pm
No ratings yet
DBMS Lab 05 21102020 013902pm
9 pages
60 Seconds Guide To Oracle RMAN Quick Reference
No ratings yet
60 Seconds Guide To Oracle RMAN Quick Reference
16 pages
Ai System To Assist Legal Processes Using Natural Language Processing
No ratings yet
Ai System To Assist Legal Processes Using Natural Language Processing
20 pages
Databricks For The SQL Developer: Gerhard Brueckl
No ratings yet
Databricks For The SQL Developer: Gerhard Brueckl
40 pages
reducing-client-incidents-through-big-data-predictive-analytics
No ratings yet
reducing-client-incidents-through-big-data-predictive-analytics
10 pages
Set 2 PDF
No ratings yet
Set 2 PDF
15 pages
Android JSON Parsing
No ratings yet
Android JSON Parsing
25 pages
How To - Create and Customize A GridLookUpEdit Control at Runtime - WinForms Controls - DevExpress Help
No ratings yet
How To - Create and Customize A GridLookUpEdit Control at Runtime - WinForms Controls - DevExpress Help
6 pages
Copy Multiple Tables in Bulk by Using Azure Data Factory
No ratings yet
Copy Multiple Tables in Bulk by Using Azure Data Factory
26 pages
Blood Bank Database12
No ratings yet
Blood Bank Database12
14 pages
DBMS Convert ER Into Table - Unit..2
No ratings yet
DBMS Convert ER Into Table - Unit..2
3 pages
Actors On The Scene
No ratings yet
Actors On The Scene
2 pages
Knowledge Discovery in Database
No ratings yet
Knowledge Discovery in Database
10 pages
Adbms Unit 1
No ratings yet
Adbms Unit 1
129 pages
SQL Notes (1)
No ratings yet
SQL Notes (1)
77 pages
DWM Notes
No ratings yet
DWM Notes
27 pages
SOLUTION_CS_Pre_Brd_1_2024-25_SetA
No ratings yet
SOLUTION_CS_Pre_Brd_1_2024-25_SetA
14 pages
Oracle DBA Queries - Recovery Manager (RMAN)
No ratings yet
Oracle DBA Queries - Recovery Manager (RMAN)
4 pages
Database Development Supporting Offline Update Using CRDT: (Conflict-Free Replicated Data Types)
No ratings yet
Database Development Supporting Offline Update Using CRDT: (Conflict-Free Replicated Data Types)
6 pages