加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

[bigdata-006] 工作流 tez和oozie

发布时间:2020-12-14 01:24:00 所属栏目:大数据 来源:网络整理
导读:1.? 基本状况 Tez是Hortonworks开发的。 董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/ http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/ tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆
1.? 基本状况
Tez是Hortonworks开发的。
董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/
http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/
tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆分。Map拆成Input,Processor,Sort,Merger,Output,Reduce拆分成Input,Shuffle,Processor和Output。拆分后的单元可以任意组合,组装成大的DAG作业。目标,替换性能较为低下的Hive和Pig。

Tez被Hortonworks用户Hive引擎优化,产生了一个性能很强的新项目Stinger,经过测试,性能提升了100倍。
http://zh.hortonworks.com/blog/100x-faster-hive/

(Tez+hive)和(Impala,Dremel和Drill)都是为了解决hive/pig的低性能问题。前者使用MapReduce框架对GAG裁剪优化,后者抛弃MapReduce,直接从DataNode取数据,传统数据库的方式。

Tez和Oozie的差别:Tez是偏向底层的,Oozie偏向顶层,它是对MR,Hive,Pig等进行DAG作业设计,将各种工具实现的功能组合在一起。


2. 更多细节
http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/
(1) 丰富的数据流(dataflow,NOT Streaming!)编程接口;
(2) 扩展性良好的“Input-Processor-Output”运行模型;
(3) 简化数据部署(充分利用了YARN框架,Tez本身仅是一个客户端编程库,无需事先部署相关服务)
(4) 性能优于MapReduce
(5)? 优化的资源管理(直接运行在资源管理系统YARN之上)
(6) 动态生成物理数据流(dataflow)

其中,3非常有吸引力。
(1)Tez官方网站:http://tez.incubator.apache.org/
(2)Tez官方文档:https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf
(3)Tez SVN:https://issues.apache.org/jira/browse/TEZ


3. 评估:
3.1 优先使用优化后的Hive,也就是Stinger。
3.2 次之使用impala,drill。主要考虑到扩展性和迁移性。



4. Oozie
官网 http://oozie.apache.org/


5. 为什么有tez?

我认为是这样的:CDH有一个高效的Impala可以替代Hive,那么HDP也就必须有一个性能对等的替代Hive的工具,否则在竞争上就有劣势,于是Hortonworks就发明了tez。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读