0% found this document useful (0 votes)

13 views5 pages

Revis Ioin

The document discusses various aspects of query optimization, including plan enumeration, rule-based and cost-based optimization, and execution models. It also covers transactions, concurrency control mechanisms such as locking and timestamp ordering, and database sharding strategies for improved performance and scalability. Key concepts include ACID properties, locking mechanisms, and the importance of maintaining data consistency during concurrent operations.

Uploaded by

hmag425

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views5 pages

Revis Ioin

Uploaded by

hmag425

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Optimizer to Shrading 12 -> 23

Query Optimizer
The optimizer determines the best way to execute a query by evaluating multiple possible
execution plans and choose the lowest in resources consumption.

● Plan Enumeration: the process of generating and considering all possible query
execution plans for a given SQL query.
● Rule-Based Optimization: set of predefined rules to select a query plan, like prefer
indexes over full table scan, and run ‘where’ command early to reduce the number of
rows.
● Cost-Based Optimization: the optimizer uses statistical information about the data
(e.g., table sizes, index selectivity, data distribution) to estimate the cost of various query
execution plans. It then selects the plan with the lowest cost.
● Bottom-Up Approach: builds query execution plans starting from the smallest, most
basic components, start with subqueries and simple joins, the move to harder
components.
● Top-Down Approach: starting from higher-level operations (e.g., query root) and
moving to lower-level operations (e.g., table scans).

Cardinality
Cardinality is a term used in databases and data analysis to describe the number of
unique values in a dataset or a column.
● Low cardinality: Indicates that a column contains a small range of distinct values.
For example, a column for "Gender" with values like "Male", "Female", and "Other"
has low cardinality.
● High cardinality: Indicates that a column contains a large range of distinct values,
such as an "Email Address" or "User ID" column.

Query Optimization
Query Execution is the process by which a database translates a high-level query (e.g.,
SQL) into efficient low-level operations to retrieve or manipulate data. It involves:

1. Parsing: Checks syntax/semantics and creates a query tree.

2. Optimization: Finds the most efficient execution plan.
3. Plan Generation: Defines a sequence of operations (e.g., scans, joins).
4. Execution Engine: Executes the plan, interacting with storage and memory.

And it has 4 models (Materialization, Iterator, Vectorization, pull vs push)

1. Materialization Model: In this model, the intermediate results of a query are computed
and stored (or "materialized") explicitly in memory or temporary storage before being passed
to the next operator in the query plan.

2. The Iterator Model is a pull-based approach where query operators process one row at a
time. Each operator uses three key functions: (open, next, close)

3. Vectorization Model: Processes data in batches or vectors (e.g., arrays of tuples) instead
of one tuple at a time.

4. Pull-based vs. Push-based Processing

● Pull-based Processing: Operators request data from their inputs when needed (e.g.,
iterator model). Data flows up the query plan.
● Push-based Processing: Data is "pushed" from one operator to the next as soon as
it is available. Data flows down the query plan.

Transactions
A transaction is a single unit of work in a database involving operations like insert, update,
or delete, ensuring consistency even during failures. Transactions follow the ACID
properties:

1. Atomicity: All operations complete fully or none at all (e.g., transfer fails, rollback
ensures no partial changes).
2. Consistency: Transitions the database between valid states while maintaining
constraints (e.g., no negative balances).
3. Isolation: Transactions run independently without interference.
4. Durability: Committed changes persist despite system failures.

Schedule:
An ordered sequence of transaction operations (read/write) ensuring consistent database
states.

1. Conflicting Operations: Occur when different transactions access the same data,
and at least one writes to it.
2. Recoverability: A schedule is recoverable if transactions reading uncommitted data
only commit after the source transaction commits.
3. Serializability: Ensures interleaved execution is equivalent to a serial order.

By following these principles, databases maintain correctness, consistency, and reliability,

even during concurrent transaction processing.
Concurrency Control in Databases (locks)
Concurrency Control: Ensures multiple transactions execute without violating data
consistency.

Locks: Control access to database resources.

● Shared Lock (S-Lock): Multiple transactions can read but not write.
● Exclusive Lock (X-Lock): Only one transaction can read/write.

Two-Phase Locking (2PL): Ensures serializability.

1. Growing Phase: Locks are acquired but not released.

2. Shrinking Phase: Locks are released but not acquired.
● Strict 2PL: Holds all locks until commit/abort to prevent cascading rollbacks.

Cascading Rollback: Chain reaction of rollbacks caused by reading uncommitted data, as

new operation is depending on older uncommitted operation’s output.

Deadlocks: Occur when transactions wait indefinitely for each other, they make circular-like
shapes of dependence on each other’s resources.

Lock Hierarchy: Structured locking from coarse to fine-grained (e.g., table → row) to reduce
contention, by locking the bigger first then smaller.
Concurrency Control (no locks)
1. Timestamp Ordering (TO): Timestamp ordering ensures serializability by assigning each
transaction a unique timestamp and scheduling operations based on these timestamps.

2. Optimistic Concurrency Control (OCC): Optimistic concurrency control assumes that

conflicts are rare and allows transactions to execute without acquiring locks during most of
their execution. Validation occurs at commit time to ensure consistency, If conflicts are
detected, the transaction is aborted and restarted, else if validation is successful, the
transaction's changes are written to the database.

3. Multi-Version Concurrency Control (MVCC)

● Keeps multiple versions of data with timestamps.

● Readers see a consistent snapshot of the database.
● Writers create new versions instead of overwriting data.
Database Sharding
Architecture:
Database sharding is a horizontal partitioning technique that divides large datasets into
smaller, independent pieces called shards, distributed across multiple servers for better
performance and scalability.

Sharding Strategies

1. Directory-Based Sharding:

Central directory maps data to shards.

○ Advantages: Flexible, supports complex partitioning.

○ Disadvantages: Latency, single point of failure.
2. Range-Based Sharding:
Data divided into range-based shards (e.g., IDs 1–1000).

○ Advantages: Simple, efficient for range queries.

○ Disadvantages: Uneven distribution, complex rebalancing.
3. Hash-Based Sharding:
Shard key hashed to determine shard placement.

○ Advantages: Even distribution, scalable.

○ Disadvantages: Poor range query performance, rebalancing challenges.

Scaling & Redistribution

● Shard Splitting/Merging: Adjust shard sizes as data grows/shrinks.

● Rebalancing: Migrate data for uniform distribution.
● Consistent Hashing: Minimizes redistribution during scaling with a hash ring and
virtual nodes.

Considerations

● Indexing: Each shard must maintain its own indexes, but global indexing (e.g.,
across all shards) can be challenging.
● Transaction Management: Distributed transactions add latency; sharding is ideal for
localized operations.
● Fault Tolerance: High availability can be ensured by replicating each shard across
multiple servers.

Big Data Engineering Interview Questions
67% (3)
Big Data Engineering Interview Questions
189 pages
12 DataWarehousing
No ratings yet
12 DataWarehousing
213 pages
Chapter 1
No ratings yet
Chapter 1
15 pages
Big Data Interview Questions 1690738892
No ratings yet
Big Data Interview Questions 1690738892
189 pages
Unit-4 DBMS Merged
No ratings yet
Unit-4 DBMS Merged
156 pages
Database Management System-1
No ratings yet
Database Management System-1
126 pages
Adbms Notes
No ratings yet
Adbms Notes
50 pages
Indexing
No ratings yet
Indexing
66 pages
Week7 Lecture
No ratings yet
Week7 Lecture
64 pages
Database Storage, Processing AND Transactio N: Unit - III
No ratings yet
Database Storage, Processing AND Transactio N: Unit - III
48 pages
Doc-20250122-Wa0005 250122 100539
No ratings yet
Doc-20250122-Wa0005 250122 100539
32 pages
DDB Unit-3
No ratings yet
DDB Unit-3
35 pages
Software Engineer Concepts - 4030afdb-00a4-4f83-A520 - 241007 - 202416
No ratings yet
Software Engineer Concepts - 4030afdb-00a4-4f83-A520 - 241007 - 202416
26 pages
Dbms 2
No ratings yet
Dbms 2
33 pages
Chapter A1
No ratings yet
Chapter A1
32 pages
ACMP 351Nf
No ratings yet
ACMP 351Nf
59 pages
Dbms Unit III Notes 2022-23
No ratings yet
Dbms Unit III Notes 2022-23
18 pages
Database Management Systems: Instructor: Murali Mani Mmani@cs - Wpi.edu
100% (1)
Database Management Systems: Instructor: Murali Mani Mmani@cs - Wpi.edu
22 pages
Database Answer
No ratings yet
Database Answer
17 pages
DBMS
No ratings yet
DBMS
27 pages
Unit 1-Database Systems Concepts and Architecture
No ratings yet
Unit 1-Database Systems Concepts and Architecture
41 pages
DBMS (CAT - 2) (Part - B)
No ratings yet
DBMS (CAT - 2) (Part - B)
28 pages
Acmp 351
No ratings yet
Acmp 351
33 pages
Database Management Concepts
No ratings yet
Database Management Concepts
21 pages
Unit 4 DBMS
No ratings yet
Unit 4 DBMS
37 pages
Dbms
No ratings yet
Dbms
11 pages
Topic 1 - Introduction To Database
No ratings yet
Topic 1 - Introduction To Database
14 pages
ABS Blink Codes
No ratings yet
ABS Blink Codes
1 page
Dca6111 - Relational Database Management System
No ratings yet
Dca6111 - Relational Database Management System
14 pages
Dbms Unit 01
No ratings yet
Dbms Unit 01
11 pages
DBMS Q&a
No ratings yet
DBMS Q&a
12 pages
Assignment Set 1 Dbms
No ratings yet
Assignment Set 1 Dbms
10 pages
DBMS & SQL
No ratings yet
DBMS & SQL
14 pages
3.unit 3
No ratings yet
3.unit 3
19 pages
Accounting Information Systems, 6: Edition James A. Hall
No ratings yet
Accounting Information Systems, 6: Edition James A. Hall
42 pages
DBMS
No ratings yet
DBMS
23 pages
Dbmsendsem
No ratings yet
Dbmsendsem
14 pages
Fdbms Final
No ratings yet
Fdbms Final
8 pages
Databases 2 Course Material
No ratings yet
Databases 2 Course Material
13 pages
Apznza 4
No ratings yet
Apznza 4
18 pages
2 Marks
No ratings yet
2 Marks
11 pages
DBMS 02
No ratings yet
DBMS 02
13 pages
Dbmsco 3,4 Part 2
No ratings yet
Dbmsco 3,4 Part 2
5 pages
Advanced Database Su NEW
No ratings yet
Advanced Database Su NEW
15 pages
Group Assignment DBMS
No ratings yet
Group Assignment DBMS
5 pages
Answer 1
No ratings yet
Answer 1
9 pages
Types of Database Models
No ratings yet
Types of Database Models
6 pages
Class 6
No ratings yet
Class 6
29 pages
Database Management Systems
No ratings yet
Database Management Systems
42 pages
Second To Know Database Oracle Step by Step Wisam
No ratings yet
Second To Know Database Oracle Step by Step Wisam
5 pages
Query Optimization
No ratings yet
Query Optimization
3 pages
DBMS
No ratings yet
DBMS
4 pages
DBMS
No ratings yet
DBMS
16 pages
DBMS Interview QA
No ratings yet
DBMS Interview QA
10 pages
Cheat
No ratings yet
Cheat
2 pages
Management Information System
No ratings yet
Management Information System
4 pages
Unit-Iv-Mca-305-Advanced DBMS
No ratings yet
Unit-Iv-Mca-305-Advanced DBMS
15 pages
Chapter 18 Databases (Extended Conc
No ratings yet
Chapter 18 Databases (Extended Conc
4 pages
4 6028372524222383733
No ratings yet
4 6028372524222383733
11 pages
TLE11 ICT Empowerment Tech Q1 W1
No ratings yet
TLE11 ICT Empowerment Tech Q1 W1
43 pages
Chapter 9
No ratings yet
Chapter 9
5 pages
Logicity - User Guide v1.9 2018-04-19
No ratings yet
Logicity - User Guide v1.9 2018-04-19
47 pages
Technical Writing Syllabus
No ratings yet
Technical Writing Syllabus
2 pages
USAA Bank Statement 5 Page
No ratings yet
USAA Bank Statement 5 Page
8 pages
2018 - 4 - Answer Key of Naib Tehsildar (Main) - 2018 Held On 14-04-2018
No ratings yet
2018 - 4 - Answer Key of Naib Tehsildar (Main) - 2018 Held On 14-04-2018
2 pages
X-Mabini's TLE-CSS Reviewer
No ratings yet
X-Mabini's TLE-CSS Reviewer
5 pages
NIRAJ
No ratings yet
NIRAJ
1 page
Horizon CT5.1
No ratings yet
Horizon CT5.1
40 pages
Sudoku 8
No ratings yet
Sudoku 8
501 pages
VMware Q2 CY2023 VCPP PUG EN
No ratings yet
VMware Q2 CY2023 VCPP PUG EN
159 pages
Capstone Project
No ratings yet
Capstone Project
24 pages
Module Part 1
No ratings yet
Module Part 1
37 pages
An Idiot at A Mainframe - KICKS Is Not CICS
No ratings yet
An Idiot at A Mainframe - KICKS Is Not CICS
2 pages
Nginx
No ratings yet
Nginx
41 pages
SAMPLE TRB Final FRONT
No ratings yet
SAMPLE TRB Final FRONT
5 pages
Online Management Information System With Appointment System With AI Powered Chatbot
No ratings yet
Online Management Information System With Appointment System With AI Powered Chatbot
38 pages
Manifest NonUFSFiles Win64
No ratings yet
Manifest NonUFSFiles Win64
75 pages
BP Ahv Networking
No ratings yet
BP Ahv Networking
58 pages
Cisco Meeting Management 2 5 1 Release Notes
No ratings yet
Cisco Meeting Management 2 5 1 Release Notes
14 pages
Abb Utilities GMBH: Operation
No ratings yet
Abb Utilities GMBH: Operation
4 pages
Database & Database Management Systems (Notes)
No ratings yet
Database & Database Management Systems (Notes)
22 pages
Amazon Application Engineer - JD
No ratings yet
Amazon Application Engineer - JD
2 pages
Window On Humanity: A Concise Introduction To Anthropology, Ninth 9 Edition Conrad Phillip Kottak
No ratings yet
Window On Humanity: A Concise Introduction To Anthropology, Ninth 9 Edition Conrad Phillip Kottak
9 pages
Cataloge Textures
No ratings yet
Cataloge Textures
34 pages
RSHH Qam13 Module 01 PDF
No ratings yet
RSHH Qam13 Module 01 PDF
16 pages
Lenovo ThinkSmart Tiny Poly Recovery Aid
No ratings yet
Lenovo ThinkSmart Tiny Poly Recovery Aid
26 pages
Windows Data Types: Typedef WORD ATOM
No ratings yet
Windows Data Types: Typedef WORD ATOM
13 pages
Academic Planner Class 2
No ratings yet
Academic Planner Class 2
7 pages
VAST2024 - MC2 Data Description
No ratings yet
VAST2024 - MC2 Data Description
3 pages
Algorithms and Data Structures: An Easy Guide to Programming Skills
From Everand
Algorithms and Data Structures: An Easy Guide to Programming Skills
Rigdon Jonathan
No ratings yet

Revis Ioin

Uploaded by

Revis Ioin

Uploaded by

Optimizer to Shrading 12 -> 23

1.​ Parsing: Checks syntax/semantics and creates a query tree.

And it has 4 models (Materialization, Iterator, Vectorization, pull vs push)

4. Pull-based vs. Push-based Processing

By following these principles, databases maintain correctness, consistency, and reliability,

Locks: Control access to database resources.

Two-Phase Locking (2PL): Ensures serializability.

1.​ Growing Phase: Locks are acquired but not released.

Cascading Rollback: Chain reaction of rollbacks caused by reading uncommitted data, as

2. Optimistic Concurrency Control (OCC): Optimistic concurrency control assumes that

3. Multi-Version Concurrency Control (MVCC)

●​ Keeps multiple versions of data with timestamps.

1.​ Directory-Based Sharding:​

○​ Advantages: Flexible, supports complex partitioning.

○​ Advantages: Simple, efficient for range queries.

○​ Advantages: Even distribution, scalable.

Scaling & Redistribution

●​ Shard Splitting/Merging: Adjust shard sizes as data grows/shrinks.

You might also like

1. Parsing: Checks syntax/semantics and creates a query tree.

1. Growing Phase: Locks are acquired but not released.

● Keeps multiple versions of data with timestamps.

1. Directory-Based Sharding:

○ Advantages: Flexible, supports complex partitioning.

○ Advantages: Simple, efficient for range queries.

○ Advantages: Even distribution, scalable.

● Shard Splitting/Merging: Adjust shard sizes as data grows/shrinks.