[bigdata-006] 工作流 tez和oozie
发布时间:2020-12-14 01:24:00 所属栏目:大数据 来源:网络整理
导读:1.? 基本状况 Tez是Hortonworks开发的。 董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/ http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/ tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆
1.? 基本状况
Tez是Hortonworks开发的。 董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/ http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/ tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆分。Map拆成Input,Processor,Sort,Merger,Output,Reduce拆分成Input,Shuffle,Processor和Output。拆分后的单元可以任意组合,组装成大的DAG作业。目标,替换性能较为低下的Hive和Pig。 Tez被Hortonworks用户Hive引擎优化,产生了一个性能很强的新项目Stinger,经过测试,性能提升了100倍。 http://zh.hortonworks.com/blog/100x-faster-hive/ (Tez+hive)和(Impala,Dremel和Drill)都是为了解决hive/pig的低性能问题。前者使用MapReduce框架对GAG裁剪优化,后者抛弃MapReduce,直接从DataNode取数据,传统数据库的方式。 Tez和Oozie的差别:Tez是偏向底层的,Oozie偏向顶层,它是对MR,Hive,Pig等进行DAG作业设计,将各种工具实现的功能组合在一起。 2. 更多细节 http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/ (1) 丰富的数据流(dataflow,NOT Streaming!)编程接口; (2) 扩展性良好的“Input-Processor-Output”运行模型; (3) 简化数据部署(充分利用了YARN框架,Tez本身仅是一个客户端编程库,无需事先部署相关服务) (4) 性能优于MapReduce (5)? 优化的资源管理(直接运行在资源管理系统YARN之上) (6) 动态生成物理数据流(dataflow) 其中,3非常有吸引力。 (1)Tez官方网站:http://tez.incubator.apache.org/ (2)Tez官方文档:https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf (3)Tez SVN:https://issues.apache.org/jira/browse/TEZ 3. 评估: 3.1 优先使用优化后的Hive,也就是Stinger。 3.2 次之使用impala,drill。主要考虑到扩展性和迁移性。 4. Oozie 官网 http://oozie.apache.org/ 5. 为什么有tez? 我认为是这样的:CDH有一个高效的Impala可以替代Hive,那么HDP也就必须有一个性能对等的替代Hive的工具,否则在竞争上就有劣势,于是Hortonworks就发明了tez。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |