0% found this document useful (0 votes)

27 views32 pages

Doris Chapter4

Doris Chapter8

Uploaded by

haiming li

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

27 views32 pages

Doris Chapter4

Doris Chapter8

Uploaded by

haiming li

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 32

Apache Doris 源码阅读与解析

第四讲：一条 SQL 的执行过程

缪翎
自我介绍

缪翎

• Apache Doris PPMC

• 百度资深研发工程师
• github id ：EmmyMiao87
• 个人博客：https://emmymiao87.github.io/
SELECT * FROM xxx a b c
WHERE xxx
GROUP BY xxx 1 2 3
如果你有如下问题 ORDER BY xxx 2 3 4

• Doris 在接收 SQL 后都做了什么？

• SQL 明明长的都差不多，为啥有的快有的慢？

• 数据是如何一步步从分布式的集群中进行计算，并返回 Doris
结果的？
课程大纲

1. 生成查询计划

• 看懂 Explain 中打印的查询计划

2. 执行查询

• 数据流是如何通过计算一步步变化并返回给 Client
Plan fragment 0

生成查询计划

1. SQL -> PlanNodeTree

2. PlanNodeTree -> PlanFragmentTree Plan fragment 1

SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk
GROUP BY i_category Plan fragment 2 Plan fragment 3
ORDER BY sum(ss_sales_price)
SortNode
ORDER BY sum(ss_sales_price);
生成查询计划

SELECT i_category,sum(ss_sales_price) AggregationNode

GROUP BY `i_category`
1. SQL -> PlanNodeTree FROM item JOIN store_sales ON sum(`ss_sales_price`)
ss_item_sk=i_item_sk
2. PlanNodeTree -> PlanFragmentTree
GROUP BY i_category
ORDER BY sum(ss_sales_price)
JoinNode
`i_item_sk` = `ss_item_sk`

PlanNode = 逻辑算子
OlapScanNode OlapScanNode
PlanNodeTree = 逻辑执行计划 Table: item Table: store_sales
Plan fragment 1

ResultSink

SortNode

生成查询计划
SortNode AggregationNode
ORDER BY sum(ss_sales_price);
ExchangeNode

1. SQL -> PlanNodeTree

AggregationNode
2. PlanNodeTree -> PlanFragmentTree GROUP BY `i_category` Plan fragment 2
sum(`ss_sales_price`)
DataSink

AggregationNode
JoinNode
`i_item_sk` = `ss_item_sk`
HashJoinNode

ExchangeNode ExchangeNode

OlapScanNode OlapScanNode
Table: item Table: store_sales

Plan fragment 3 Plan fragment 4

DataSink DataSink

OlapScanNode OlapScanNode
生成查询计划 BE 1

1. SQL -> PlanNodeTree

Join Node

2. PlanNodeTree -> PlanFragmentTree JoinNode

`i_item_sk` =
1. 拆分 PlanNodeTree `ss_item_sk`

2. 数据传输 BE 2 BE 3
OlapScanNode OlapScanNode
Table: item Table: store_sales

OlapScanNode OlapScanNode
BE 1

生成查询计划 DataSink

Hash Join Node

1. SQL -> PlanNodeTree Exchange Exchange

Node1 Node2

2. PlanNodeTree -> PlanFragmentTree JoinNode

`i_item_sk` =
1. 拆分 PlanNodeTree `ss_item_sk`

BE 2 BE 3
2. 数据传输
OlapScanNode OlapScanNode
Table: item Table: store_sales
DataSink DataSink

OlapScanNode OlapScanNode

DataSink + ExchangeNode
Plan Fragment 1

生成查询计划 DataSink

Hash Join Node

1. SQL -> PlanNodeTree Exchange Exchange

Node1 Node2

2. PlanNodeTree -> PlanFragmentTree JoinNode

`i_item_sk` =
1. 拆分 PlanNodeTree `ss_item_sk`

2. 数据传输
PlanFragment 2 Plan Fragment 3
OlapScanNode OlapScanNode
Table: item Table: store_sales
DataSink DataSink

OlapScanNode OlapScanNode

Plan Fragment = Plan Node 子树 + Data Sink

Plan Fragment Tree = 分布式查询计划
生成查询计划

SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk
GROUP BY i_category
ORDER BY sum(ss_sales_price)

SQL
SortNode
ORDER BY sum(ss_sales_price);
生成查询计划

AggregationNode
GROUP BY `i_category`
sum(`ss_sales_price`)

SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk JoinNode
`i_item_sk` = `ss_item_sk`
GROUP BY i_category
ORDER BY sum(ss_sales_price)

OlapScanNode OlapScanNode
Table: item Table: store_sales

SQL PlanNodeTree
Plan fragment 0

SortNode
ORDER BY sum(ss_sales_price);
生成查询计划

AggregationNode
GROUP BY `i_category`
Plan fragment 1
sum(`ss_sales_price`)

SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk JoinNode
`i_item_sk` = `ss_item_sk`
GROUP BY i_category
ORDER BY sum(ss_sales_price)
Plan fragment 2 Plan fragment 3

OlapScanNode OlapScanNode
Table: item Table: store_sales

SQL PlanNodeTree PlanFragmentTree

查看查询计划

• Desc graph

• Explain

• Desc verbose

DESC GRAPH
SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk
GROUP BY i_category
ORDER BY sum(ss_sales_price)
查看查询计划

• Desc graph

• Explain

• Desc verbose

DESC GRAPH
SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk
GROUP BY i_category
ORDER BY sum(ss_sales_price)
查看查询计划

• Desc graph

• Explain

• Desc verbose

EXPLAIN
SELECT i_category,sum(ss_sales_price)
FROM item JOIN store_sales ON
ss_item_sk=i_item_sk
GROUP BY i_category
ORDER BY sum(ss_sales_price)
课程大纲

1. 生成查询计划

2. 执行查询

• 分配，分发

• 完整的数据流流程
执行查询

1. 分配，分发
Coordinator.java

2. 完整的数据流流程 1. prepare

2. scheduler

• computeScanRange

• assignFragment

3. send
执行查询

1. 分配，分发

2. 完整的数据流流程 Plan fragment 1

数据流

Plan fragment 2 Plan fragment 3

磁盘磁盘
执行查询 FE

1. 单个 Fragment 执行流程
Plan fragment 1
2. Fragment 和 Fragment 之间的数据交互

3. FE 和 Top Fragment 之间的数据交互

4. FE 将数据返回给前端展示
Plan fragment 2 Plan fragment 3

磁盘磁盘
Plan fragment 1

DataSink
_sink
PlanFragmentExecutor
执行查询 _plan Hash Join Node

1. prepare
Exchange Exchange
Node1 Node2
2. open
1. 单个 Fragment 执行流程

2. Fragment 之间的数据交互 1. open plan node tree

3. FE 和 Top Fragment 2. open sink

4. FE 将数据返回给前端展示
3. while(true) {

get next batch

send

3. close
执行查询
Plan fragment 1

1. 单个 Fragment 执行流程 DataSink

• _plan->get_next() 自顶向下 get_next

2. Fragment 之间的数据交互
Hash Join Node
3. FE 和 Top Fragment

4. FE 将数据返回给前端展示 Exchange Exchange

Node1 Node2

自底向上 return batch

Plan fragment 1

DataSink

执行查询 _plan Hash Join Node

Exchange Exchange
Node1 Node2

1. 单个 Fragment 执行流程

• HashJoinNode->get_next()
open：准备工作
2. Fragment 之间的数据交互

3. FE 和 Top Fragment 1. 右孩子 get next，构建 hash 表

4. FE 将数据返回给前端展示

get_next: 返回 batch 结果

1. 读取左孩子的一个 batch
2. 根据 hash table 找到 match 的行
3. 左右行拼接成 out_row，放入
out_batch
Exchange Node Exchange Node

receiver receiver

执行查询

分发策略： channel1 channel2 channel1 channel2

1. 单个 Fragment 执行流程
1. HASH_PARTITIONED
2. UNPARTITIONED BE1: DataSink BE2: DataSink
2. Fragment 之间的数据交互
3. …
3. FE 和 Top Fragment

4. FE 将数据返回给前端展示

send 主逻辑
1. 计算 row 的hash值
2. 将 row 放入对应的channel 中
执行查询
FE:Coordinator FE
1. get next batch
from BE
1. 单个 Fragment 执行流程 ResultReceiver
2. 把 batch 放入
2. Fragment 之间的数据交互 mysql channel

3. FE 和 Top Fragment数据交互

4. FE 将数据返回给前端展示
Top Fragment: Result Sink

Row buffer
BE
MysqlResultWriter 1. 把 batch 放
入 row
buffer 中缓
存。
执行查询

1. 单个 Fragment 执行流程

2. Fragment 之间的数据交互 MysqlChannel.java

1. Write buffer
3. FE 和 Top Fragment数据交互 2. 如果达到 capacity 就 send
4. FE 将数据返回给前端展示
Plan fragment 0

总结

1. 生成查询计划
Plan fragment 1
• 逻辑查询计划 PlanNodeTree，每个 PlanNode 代表一种运算。

• 分布式查询计划 PlanFragmentTree ，每个 PlanFragment 是由

PlanNodeTree 的子树和 Sink 节点组成的。

2. 执行查询
Plan fragment 2 Plan fragment 3
FE

总结
Plan fragment 1

1. 生成查询计划

2. 执行查询

• Plan Fragment Tree 一层层处理数据，FE 获取后，最终返回给用户

• 单个 Fragment 执行，递归调用 get_next 计算结果 Plan fragment 2 Plan fragment 3

• Fragment 和 Fragment 之间， sink 通过 channel 分发数据给上层

Exchange Node

• FE coordinator 不断获取 Top Fragment 的 row buffer 中的数据磁盘磁盘

• 通过 Mysql Channel 将数据返回给 Client
总结

• FE • BE
• PlanNode 及子类 • PlanNode 及子类
• PlanFragment • PlanFragmentExecutor
• Coordinator • PlanFragmentMgr
• MysqlChannel • DataSink 及子类
• StmtExecutor • MysqlResultWriter
回到最初的问题

• Doris 在接收 SQL 后都做了什么？

• 生成查询计划，执行查询计划

• SQL 明明长的都差不多，为啥有的快有的慢？

• Explain 一下查询计划，不同的查询计划，执行速度不同。

• 数据是如何一步步从分布式的集群中进行计算，并返回结果的？

• Fragment -> 上层 Fragment -> FE -> Client

期待你们的 PR

• 简单的执行算子实现

• 简单的查询规划优化

• 向量化执行引擎

• 查询优化器

进阶课程

• 查询 Profile 分析

• 查询优化
Apache Doris 直播课程群 Apache Doris 微信公众号

Thank You

SQL Comment:: - (2 Dash and A Space) - This Is A Comment
No ratings yet
SQL Comment:: - (2 Dash and A Space) - This Is A Comment
7 pages
G12 Practical SQL Commands 2024-2025
No ratings yet
G12 Practical SQL Commands 2024-2025
5 pages
MySQL Practice
No ratings yet
MySQL Practice
5 pages
DBMS Exp5
No ratings yet
DBMS Exp5
11 pages
第五章：Flink Table & SQL实践原理（上）
No ratings yet
第五章：Flink Table & SQL实践原理（上）
113 pages
Comprehensive SQL Queries
No ratings yet
Comprehensive SQL Queries
3 pages
SQL 2024
No ratings yet
SQL 2024
3 pages
SQL - Eda Process
No ratings yet
SQL - Eda Process
7 pages
Query Execution
No ratings yet
Query Execution
25 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
3 pages
SQL Sci Pract
No ratings yet
SQL Sci Pract
16 pages
Frequently Used
No ratings yet
Frequently Used
14 pages
SQL Commands
No ratings yet
SQL Commands
2 pages
Avavavavav SQL w3s Quick Ref
No ratings yet
Avavavavav SQL w3s Quick Ref
4 pages
Name: Tathagat Shah STUDENTID: 201701053
No ratings yet
Name: Tathagat Shah STUDENTID: 201701053
7 pages
III Sem DBMS Lab Programs - Part A
No ratings yet
III Sem DBMS Lab Programs - Part A
19 pages
SQL Tutorial
No ratings yet
SQL Tutorial
5 pages
DDL Commands
No ratings yet
DDL Commands
5 pages
SQL For Data Scientist
No ratings yet
SQL For Data Scientist
3 pages
Revision Mid 496
No ratings yet
Revision Mid 496
12 pages
Base de Datos
No ratings yet
Base de Datos
9 pages
Admit Cards Home
No ratings yet
Admit Cards Home
1 page
Give Me Full of SQL Cheat Sheet
No ratings yet
Give Me Full of SQL Cheat Sheet
9 pages
Object 1: Write A Query Using DDL Commands.: Create Command
No ratings yet
Object 1: Write A Query Using DDL Commands.: Create Command
16 pages
SQL Quick Reference
No ratings yet
SQL Quick Reference
6 pages
SQL For Data Science
No ratings yet
SQL For Data Science
8 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
2 pages
SQL Notes
No ratings yet
SQL Notes
8 pages
Cognos 8培训教程
No ratings yet
Cognos 8培训教程
563 pages
Alfie Jesson John - 01.. MySQL Queries Record Book
No ratings yet
Alfie Jesson John - 01.. MySQL Queries Record Book
5 pages
CSPart BPrograms
No ratings yet
CSPart BPrograms
8 pages
All Commands List
No ratings yet
All Commands List
28 pages
SQL Master
No ratings yet
SQL Master
10 pages
D Practical 2
No ratings yet
D Practical 2
9 pages
MySQL Command
No ratings yet
MySQL Command
7 pages
Dbms Practical Codes
No ratings yet
Dbms Practical Codes
26 pages
SQL Notes
No ratings yet
SQL Notes
9 pages
SQL Final Document
No ratings yet
SQL Final Document
37 pages
Wa0003
No ratings yet
Wa0003
35 pages
My SQL Cheat Sheet PDF 1730815018
No ratings yet
My SQL Cheat Sheet PDF 1730815018
8 pages
SQL高手速成
No ratings yet
SQL高手速成
48 pages
SQL Queries
No ratings yet
SQL Queries
6 pages
Stream API
No ratings yet
Stream API
3 pages
Learning SQL (Structured Query Language) 3
No ratings yet
Learning SQL (Structured Query Language) 3
3 pages
SQL
No ratings yet
SQL
46 pages
DBMS Ass
No ratings yet
DBMS Ass
5 pages
V2 SQL Final Document
No ratings yet
V2 SQL Final Document
35 pages
SQL Database Cheat Sheet-1
No ratings yet
SQL Database Cheat Sheet-1
8 pages
Top 100 Must Know SQL Queries
No ratings yet
Top 100 Must Know SQL Queries
10 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
5 pages
Task 1 - Introduction and Previews - Transcript
No ratings yet
Task 1 - Introduction and Previews - Transcript
3 pages
3 Buvanes
No ratings yet
3 Buvanes
7 pages
SQL Assignment 2
No ratings yet
SQL Assignment 2
2 pages
Order of Execution in SQL
No ratings yet
Order of Execution in SQL
12 pages
Mysql
No ratings yet
Mysql
4 pages
SQL Programs
No ratings yet
SQL Programs
9 pages
RDBMS Codings
No ratings yet
RDBMS Codings
14 pages
SQL Commands Notes
No ratings yet
SQL Commands Notes
7 pages
MY SQL Cheat Sheet
No ratings yet
MY SQL Cheat Sheet
6 pages
DBMS Lab Manual
From Everand
DBMS Lab Manual
Jitendra Patel
1.5/5 (3)
Data - Structures Using C Semester 4 Text Books
No ratings yet
Data - Structures Using C Semester 4 Text Books
122 pages
Data Structures
No ratings yet
Data Structures
2 pages
25 - Picking - Unlocked
No ratings yet
25 - Picking - Unlocked
56 pages
Big o
No ratings yet
Big o
21 pages
A Network Optimization Tool: 10316 Meade Lane Eden Prairie, MN 55347 USA Ahill@csom - Umn.edu 952-942-56790
No ratings yet
A Network Optimization Tool: 10316 Meade Lane Eden Prairie, MN 55347 USA Ahill@csom - Umn.edu 952-942-56790
4 pages
Multidimensional Arrays Ajay
No ratings yet
Multidimensional Arrays Ajay
12 pages
Aamod Os 6
No ratings yet
Aamod Os 6
4 pages
True False Questions
No ratings yet
True False Questions
5 pages
Daa Unit 1
No ratings yet
Daa Unit 1
21 pages
Unit V Undecidability: 5.1.1 Decidable Problem
No ratings yet
Unit V Undecidability: 5.1.1 Decidable Problem
23 pages
6.3 Exercises For Laboratory Work 6
No ratings yet
6.3 Exercises For Laboratory Work 6
4 pages
Analysis of Algorithm
No ratings yet
Analysis of Algorithm
13 pages
Lab#9 PF CPE-27 M.usama Saghar
No ratings yet
Lab#9 PF CPE-27 M.usama Saghar
12 pages
AI IMP Question Bank
No ratings yet
AI IMP Question Bank
4 pages
C++ Ders8 - Dizinler
No ratings yet
C++ Ders8 - Dizinler
25 pages
DSA 1 (Concept of Data Structures)
No ratings yet
DSA 1 (Concept of Data Structures)
7 pages
Bankers Algorithm - Soln
No ratings yet
Bankers Algorithm - Soln
6 pages
Java - Collections Framework
No ratings yet
Java - Collections Framework
7 pages
Chap 2
No ratings yet
Chap 2
11 pages
Coding Exercise 14 LL Find KTH Node From End ( Interview Question)
No ratings yet
Coding Exercise 14 LL Find KTH Node From End ( Interview Question)
2 pages
100 LeetCode Problems Must Do
No ratings yet
100 LeetCode Problems Must Do
36 pages
Nanda and Panda 2013 - A Survey On Nature Inspired Metaheuristic Algorithms For Partitional Clustering
No ratings yet
Nanda and Panda 2013 - A Survey On Nature Inspired Metaheuristic Algorithms For Partitional Clustering
18 pages
SPPU Pattern2019 Fds Unit 2
No ratings yet
SPPU Pattern2019 Fds Unit 2
31 pages
CP 7
No ratings yet
CP 7
2 pages
Design and Analysis of Algorithms
No ratings yet
Design and Analysis of Algorithms
126 pages
External Sorting
No ratings yet
External Sorting
5 pages
DSA Questions
No ratings yet
DSA Questions
13 pages
Part - Iii Adaptive Filters: DFD - MCQ Question Bank
67% (3)
Part - Iii Adaptive Filters: DFD - MCQ Question Bank
4 pages
MSCCS-07/MSCCS-201/MCA-201 MSCCS-Final/MCA-2nd Year Examination Data Structure and Algorithm Paper - MSCCS-07/MSCCS-201/MCA-201
No ratings yet
MSCCS-07/MSCCS-201/MCA-201 MSCCS-Final/MCA-2nd Year Examination Data Structure and Algorithm Paper - MSCCS-07/MSCCS-201/MCA-201
3 pages
Ps7 Solutions
No ratings yet
Ps7 Solutions
16 pages

Doris Chapter4

Uploaded by

Doris Chapter4

Uploaded by

Apache Doris 源码阅读与解析

第四讲：一条 SQL 的执行过程

• Apache Doris PPMC

• Doris 在接收 SQL 后都做了什么？

1. SQL -> PlanNodeTree

2. PlanNodeTree -> PlanFragmentTree Plan fragment 1

SELECT i_category,sum(ss_sales_price) AggregationNode

1. SQL -> PlanNodeTree

Plan fragment 3 Plan fragment 4

1. SQL -> PlanNodeTree

2. PlanNodeTree -> PlanFragmentTree JoinNode

Hash Join Node

1. SQL -> PlanNodeTree Exchange Exchange

2. PlanNodeTree -> PlanFragmentTree JoinNode

Hash Join Node

1. SQL -> PlanNodeTree Exchange Exchange

2. PlanNodeTree -> PlanFragmentTree JoinNode

Plan Fragment = Plan Node 子树 + Data Sink

SQL PlanNodeTree PlanFragmentTree

2. 完整的数据流流程 Plan fragment 1

Plan fragment 2 Plan fragment 3

3. FE 和 Top Fragment 之间的数据交互

2. Fragment 之间的数据交互 1. open plan node tree

3. FE 和 Top Fragment 2. open sink

get next batch

1. 单个 Fragment 执行流程 DataSink

• _plan->get_next() 自顶向下 get_next

4. FE 将数据返回给前端展示 Exchange Exchange

自底向上 return batch

执行查询 _plan Hash Join Node

3. FE 和 Top Fragment 1. 右孩子 get next，构建 hash 表

分发策略： channel1 channel2 channel1 channel2

2. Fragment 之间的数据交互 MysqlChannel.java

• 分布式查询计划 PlanFragmentTree ，每个 PlanFragment 是由

PlanNodeTree 的子树 和 Sink 节点组成的。

• Plan Fragment Tree 一层层处理数据，FE 获取后，最终返回给用户

• 单个 Fragment 执行，递归调用 get_next 计算结果 Plan fragment 2 Plan fragment 3

• Fragment 和 Fragment 之间， sink 通过 channel 分发数据给上层

• FE coordinator 不断获取 Top Fragment 的 row buffer 中的数据 磁盘 磁盘

• Doris 在接收 SQL 后都做了什么？

• Fragment -> 上层 Fragment -> FE -> Client

You might also like

PlanNodeTree 的子树和 Sink 节点组成的。

• FE coordinator 不断获取 Top Fragment 的 row buffer 中的数据磁盘磁盘