0% found this document useful (0 votes)

14 views32 pages

10 Python&Hadoop

Python&Hadoop

Uploaded by

cambgong

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views32 pages

10 Python&Hadoop

Python&Hadoop

Uploaded by

cambgong

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Python&Hadoop构建数据仓库

从开源中来,到开源中去

EasyHadoop 童小军
[email protected]
2012年10年20日
演讲大纲
• 个人介绍
• 思考数据分析系统的基本指标
• Hadoop史前和史后的数据仓库流程
• Hadoop史前和史后的数据分析流程
• 思考Hadoop解决了什么样的根本问题

• Python 如何在构建数据仓库系统的作用
– 1. 使用Python快速构建数据分析模块 ComETL
– 2. 基于Python MapReduce Streaming 快速并行编程
– 3. Hive如果内嵌Python实现自定义逻辑
– 4. Pig内嵌JPython 实现PageRank挖掘算法
– 5. JPython MapReduce 框架 Pydoop Happy 等。

• 使用开源软件配合Python快速构建数据仓库
• EasyHadoop提供的资料[EasyHadoop部署安装手册,EasyHive手册]
• EasyHadoop开源技术聚会
思考-数据分析系统的基本指标
思考-数据分析系统的基本指标
思考-数据分析系统的基本指标
反馈决策周期！快
反馈决策粒度! 细
反馈决策准确性! 准
反馈总体成本! 廉价

数据统计/分析是一个组织
自动控制,自学习,自调整系统
核心组成部分。机会成本 ! 想象空间!
Hadoop 前的数据仓库流程
• perl,shell,awk

反馈决策周期！快？
反馈决策粒度! 细？
反馈决策准确性! 准？
反馈总体成本! 廉价？
Hadoop后的数据仓库流程
• Hql,Pig,Mapreduce,工作流

反馈决策周期！快？
反馈决策粒度! 细？
反馈决策准确性! 准？
反馈总体成本! 廉价？
持续扩展成本？
Hadoop解决了什么样的根本问题?
Hadoop为何会比数据库快?
本地化IO? 大数据计算任务

任务划分

子任务子任务 …… 子任务子任务

结果合并

计算结果
Hadoop分布式安装
磁盘读取速度,网络IO？
基于hadoop的数据平台总体架构
Python 结合 Hadoop Streaming
原理解析
MapReduce基本流程
实现distinct
一、日志格式：
{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}
{FB11E363-6D2B-40C6-A096-95D8959CDB92}
{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}
{B17F6175-6D36-44D1-946F-D748C494648A}
{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}
{B17F6175-6D36-44D1-946F-D748C494648A}

B11E363-6D2B-40C6-A096-95D8959CDB92
17F6175-6D36-44D1-946F-D748C494648A
4
E3AAC3B-E705-4915-9ED4-EB7B1E963590
6F7CAAB-E165-4F48-B32C-8DD1A8BA2562
使用python实现 distinct/count

一、日志格式：
{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}
{FB11E363-6D2B-40C6-A096-95D8959CDB92}
{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}
{B17F6175-6D36-44D1-946F-D748C494648A}
{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}
{B17F6175-6D36-44D1-946F-D748C494648A}

B11E363-6D2B-40C6-A096-95D8959CDB92
17F6175-6D36-44D1-946F-D748C494648A
4
E3AAC3B-E705-4915-9ED4-EB7B1E963590
6F7CAAB-E165-4F48-B32C-8DD1A8BA2562
( distinct\count)--map (distinct)--red

import sys #!/usr/bin/python

import sys
for line in sys.stdin: res = {}
try: for line in sys.stdin:
flags = line[1:-2] try:
flags = line[:-1].split('\t')
str = flags+'\t'+'1' if len(flags) != 2:
print str continue
field_key = flags[0]
if res.has_key(field_key) ==
except Exception,e: False:
print e res[field_key] = [0]
res[field_key][0] = 1
except Exception,e:
pass
for key in res:
print key
(count
(count的优化实现 )--reduce

#!/usr/bin/python
import sys
lastuid=""
num=1
for line in sys.stdin:
uid,count=line[:-1].split('\t')
if lastuid =="":
lastuid=uid
if lastuid != uid:
num+=1
lastuid=uid
print num
基于Python MapReduce Streaming 快
速并行编程
一、单机测试
head test.log | python map.py | python red.py

一、将文件上传到集群
/bin/hadoop fs -copyFromLocal test.log /hdfs/

三、运行map red
/bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -file
/path/map.py -file /path/red.py
-mapper map.py -reducer red.py
-input /path/test.log -output /path/
通过界面查看任务状态
Python快速构建数据分析模块 ComETL

极少的代码量,几万行吧!

1.支持简单工作流
2.支持自动恢复
3.支持自定义驱动
4.支持 Hive Mysql MapReduce 等模式

类似系统 Sqoop DataX Oozie

作者:赵修湘

软件地址: https://github.com/zhuyeqing/ComETL
ComEtl配置样例
etl_op = {"run_mode":'day',
"delay_hours":2,
"jobs":[{"job_name":"job1",
"analysis":[{'etl_class_name':'ExtractionEtl',
'step_name':'mysql_e_1',
'db_type':'hive',
'db_coninfo':[{'db_ip':'192.168.1.50','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],
'db_path':'test.a2',
'pre_sql':[],
'post_sql':[],
'data_save_type':'SimpleOutput',
"sql_assemble":'SimpleAssemble',
'sql':'select* from test.a2 limit 30',
},],
"transform":[{'etl_class_name':'TransformEtl',
'step_name':'transform1',
'data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],
'data_transform_type':'SimpleTransform',
},],
"loading":[{'etl_class_name':'LoadingEtl',
'step_name':'load1',
'data_source':{"job_name":"job1","step_name":'transform1'},
'db_type':'mysql',
'db_coninfo':[{'db_ip':'192.168.1.50','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],
'db_path':'test.a2',
'pre_sql':[],
'post_sql':[],
'data_load_type':'SplitLoad',
'data_field':'a|b'},]}
}
Pig内嵌JPython 实现PageRank算法
JPython+pig 代码实现演示

https://github.com/julienledem/Pig-scripting-examples/blob/
其他Python MapReduce框架
• Pydoop - Python API for Hadoop MapReduce and HDFS
• http://pydoop.sourceforge.net/docs/

• Happy - http://code.google.com/p/happy/
• datafu -Pig算法库 linkedin
https://github.com/linkedin/datafu
总体数据规模

• 总空间150T以上, 每日新增数据 0.5T

• 20+ 服务器的Hadoop/hive计算平台

• 单个任务优化从 7个小时到 1个小时

• 每日 Hive 查询 1200+

• 每天处理3000+作业任务

• 每天处理 10T
0T++数据
集群资源利用率
数据平台技术路线发展
Python Hadoop最佳实践

• 通过Tornado Nginx 接受日志

• 通过Scribe 同步数据
• 使用Python 编写加载和清洗脚本
• 使用ComEtl 通过Hive做ETL
• 参考HappyEtl,Pydoop编写Python Streaming
• 使用CronHub 做定时调度
• 使用phpHiveAdmin 提供自助查询
• 使用 Mysql 存储中间结果
• 通过Tornado+highcharts/gnuplot 提供报表展现
• 使用 Python + Nagios Cacti Ganglia 监控集群
• 整体构建在 Hadoop+Hive+pig 基础平台之上。

• 参加EasyHadoop 聚会学习
• 使用EasyHadoop管理集群
EasyHadoop社区电子出版物
www.easyhadoop.com
EasyHadoop组织了六次技术分享
HadoopCloud 开放平台计划
学习 Hadoop 需要具备三大前提资源。

• 第一:海量的数据集
• 第二:大规模的分析硬件平台
• 第三:大量真实的业务分析需求

• HadoopCloud 提供以上三个平台给用户学习使用。
谢谢!

ComETL Happyetl

CronHub

多开放一些有趣的开源项目
www.easyhadoop.com

Dataflow Pipeline to BigQuery
No ratings yet
Dataflow Pipeline to BigQuery
6 pages
Bda Lab Output
No ratings yet
Bda Lab Output
22 pages
Fast Back End
No ratings yet
Fast Back End
11 pages
CS 3308 Programming Assignment Unit 2
No ratings yet
CS 3308 Programming Assignment Unit 2
10 pages
Indrani Cheat Sheet
No ratings yet
Indrani Cheat Sheet
2 pages
CS 3308 Programming Assignment Unit 4
No ratings yet
CS 3308 Programming Assignment Unit 4
7 pages
Assignment 4
No ratings yet
Assignment 4
11 pages
App Test
No ratings yet
App Test
175 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Single-Value Data Structures (All Immutable)
No ratings yet
Single-Value Data Structures (All Immutable)
1 page
Firestore Data Handling and Validation
No ratings yet
Firestore Data Handling and Validation
6 pages
BDA Lab Manual - BAD601-Final One - 7-11
No ratings yet
BDA Lab Manual - BAD601-Final One - 7-11
25 pages
PYTHONa 7
No ratings yet
PYTHONa 7
15 pages
Python Cheatsheet
No ratings yet
Python Cheatsheet
3 pages
Log Processing
No ratings yet
Log Processing
13 pages
Week 1 To Week 9
No ratings yet
Week 1 To Week 9
30 pages
ETL Report Json DB
No ratings yet
ETL Report Json DB
6 pages
Rescued Document
No ratings yet
Rescued Document
4 pages
Other Script5
No ratings yet
Other Script5
5 pages
2023 RI H2Comp Prelims P2 Answers
No ratings yet
2023 RI H2Comp Prelims P2 Answers
8 pages
Python MongoDB Guide with PyMongo
No ratings yet
Python MongoDB Guide with PyMongo
9 pages
Saleha Sarut's Project Certificate
No ratings yet
Saleha Sarut's Project Certificate
34 pages
Script Redis
No ratings yet
Script Redis
4 pages
Essential Python Data Structures
No ratings yet
Essential Python Data Structures
2 pages
Compliance Rules for Data Protection
No ratings yet
Compliance Rules for Data Protection
36 pages
Account Periodic
No ratings yet
Account Periodic
23 pages
Script
No ratings yet
Script
5 pages
Collections
No ratings yet
Collections
7 pages
Back End
No ratings yet
Back End
12 pages
Python Record Manual
No ratings yet
Python Record Manual
18 pages
Lineage Back
No ratings yet
Lineage Back
10 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
DATA-Code 1-050624-120338
No ratings yet
DATA-Code 1-050624-120338
3 pages
Snowflake Database and Python Integration
No ratings yet
Snowflake Database and Python Integration
3 pages
12 SparkAggregatingData
No ratings yet
12 SparkAggregatingData
47 pages
Json Processor
No ratings yet
Json Processor
4 pages
Py Spark
No ratings yet
Py Spark
19 pages
L
No ratings yet
L
1 page
Hadoop - Session 7 Python
No ratings yet
Hadoop - Session 7 Python
6 pages
Python Applications
No ratings yet
Python Applications
8 pages
8 Dictionaries
No ratings yet
8 Dictionaries
18 pages
Telephone Directory CSV
No ratings yet
Telephone Directory CSV
14 pages
Python Dictionary Datatype Practical Notes
No ratings yet
Python Dictionary Datatype Practical Notes
6 pages
Python Activity
No ratings yet
Python Activity
16 pages
Dsa 4
No ratings yet
Dsa 4
39 pages
Python CheatSheet
No ratings yet
Python CheatSheet
2 pages
Big Data Analytics with Spark DataFrames
No ratings yet
Big Data Analytics with Spark DataFrames
79 pages
SQL to JSON Conversion for SDGs Analysis
No ratings yet
SQL to JSON Conversion for SDGs Analysis
6 pages
XX
No ratings yet
XX
4 pages
Collections - Notes Lyst7770
No ratings yet
Collections - Notes Lyst7770
9 pages
Py 1679789071
No ratings yet
Py 1679789071
2 pages
Solvedanswer
No ratings yet
Solvedanswer
73 pages
Hy Xii CS MS 24 25
No ratings yet
Hy Xii CS MS 24 25
5 pages
Bitcoin Wallet Script Guide
No ratings yet
Bitcoin Wallet Script Guide
16 pages
Apache Log Data Processing with PySpark
No ratings yet
Apache Log Data Processing with PySpark
10 pages
Hortonworks Sandbox Setup
No ratings yet
Hortonworks Sandbox Setup
12 pages
Cde Create Manage Jobs
No ratings yet
Cde Create Manage Jobs
28 pages
Distributed Coordination Systems
No ratings yet
Distributed Coordination Systems
16 pages
Apache Spark Engine
100% (1)
Apache Spark Engine
82 pages
Hadoop MapReduce Beginner Lab
No ratings yet
Hadoop MapReduce Beginner Lab
2 pages
Lepakshi Gosain-Interview
No ratings yet
Lepakshi Gosain-Interview
7 pages
Bda Assignement Merged
No ratings yet
Bda Assignement Merged
112 pages
Big Data Quiz Answers
No ratings yet
Big Data Quiz Answers
33 pages
M Tech 1sem BDA Question Paper With Answers
No ratings yet
M Tech 1sem BDA Question Paper With Answers
98 pages
Dremio vs. SQL Engines: Benchmark Insights
No ratings yet
Dremio vs. SQL Engines: Benchmark Insights
57 pages
Hadoop v1 Vs v2
No ratings yet
Hadoop v1 Vs v2
36 pages
Bda Course File
No ratings yet
Bda Course File
7 pages
BIGDATA LAB MANUAL
No ratings yet
BIGDATA LAB MANUAL
27 pages
Big Data Weather Forecasting with Hadoop
No ratings yet
Big Data Weather Forecasting with Hadoop
3 pages
Cloudera Developer Training For Apache Spark
No ratings yet
Cloudera Developer Training For Apache Spark
3 pages
Reference Architecture Big Data
100% (1)
Reference Architecture Big Data
3 pages
Binlog Server at Facebook - 0
No ratings yet
Binlog Server at Facebook - 0
52 pages
SAP HANA Hadoop Integration
No ratings yet
SAP HANA Hadoop Integration
16 pages
Big Data Masters - Curriculum - 01
No ratings yet
Big Data Masters - Curriculum - 01
46 pages
Big Data Analytics
No ratings yet
Big Data Analytics
3 pages
HCIA-Big Data V3.5 Learning Guide
No ratings yet
HCIA-Big Data V3.5 Learning Guide
156 pages
Syllabus
No ratings yet
Syllabus
5 pages
What Is Hadoop Distributed File System (HDFS) PDF
No ratings yet
What Is Hadoop Distributed File System (HDFS) PDF
3 pages
Conventions - Building Data Streaming Applications With Apache Kafka
No ratings yet
Conventions - Building Data Streaming Applications With Apache Kafka
1 page
Map Reduce
No ratings yet
Map Reduce
30 pages
Time Series Analysis Expertise in Spark
No ratings yet
Time Series Analysis Expertise in Spark
3 pages
Telecom Churn Prediction via ML
No ratings yet
Telecom Churn Prediction via ML
24 pages
MapReduce Tutorial
100% (1)
MapReduce Tutorial
192 pages
Real Time Hadoop Interview Questions From Various Interviews
No ratings yet
Real Time Hadoop Interview Questions From Various Interviews
6 pages
Overview of Big Data Analytics Challenges
No ratings yet
Overview of Big Data Analytics Challenges
6 pages

10 Python&Hadoop

Uploaded by

10 Python&Hadoop

Uploaded by

Python&Hadoop构建数据仓库

子任务 子任务 …… 子任务 子任务

import sys #!/usr/bin/python

类似系统 Sqoop DataX Oozie

• 总空间150T以上, 每日新增数据 0.5T

• 单个任务优化从 7个小时到 1个小时

• 通过Tornado Nginx 接受日志

You might also like

子任务子任务 …… 子任务子任务