Rheem:可扩展且易于使用的跨平台大数据分析系统
RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上允许,这其中包括:PostgreSQL,Spark,Hadoop MapReduce或者Flink等;Rheem将选择经典处理框架的最佳配置来运行这些程序。RHEEM抽象完全基于用户定义函数(UDF),允许用户专注于其应用程序逻辑而不是物理细节。这就使得数据工程师和软件开发人员可以不去了解不同数据处理系统的API、优缺点以及不同平台之前通信的复杂性等繁琐工作。从上面的特点可以看出,其目标和去年Google开源的Apache Beam很类似。直到目前,Rheem内置支持以下的数据处理平台:
rheem的体系结构如下:
? ? 如何使用RheemRheem需要我们安装好Java8,然后根据自己的需求在pom.xml文件里面引入下面的依赖:
注意上面的?
下面介绍如何使用RHEEM编写一个WordCount程序。这里以Scala API进行介绍: 从上面的代码可以看出,这个代码的函数和处理过程和使用Spark或者Flink开发程序流程很类似,然后我们可以使用下面命令运行这个程序:
然后就可以在Spark上运行这个程序。更多关于RHEEM的介绍可以参见期官方文档介绍:https://github.com/daqcri/rheem 欢迎关注本公众号:iteblog_hadoop: 0、回复?spark_2017_all?获取?Spark Summit East 2017高清视频和PPT 1、回复?hive_es?获取?《基于 Hive/ES 金融大数据指标系统》PPT 2、回复?bigdata_e?获取?《大规模数据处理演变》PPT 3、回复?大数据分析?获取?《Big Data Analytics》电子书 4、回复?spark2电子书?获取?《Apache Spark 2 for Beginners》电子书 5、回复?spark2_data?获取??《Spark for Data Science》电子书 6、回复?架构师大会ppt?获取?《2016年中国架构师[大数据场]》?PPT 7、回复?intro_flink?获取?《Introduction to Apache Flink》?电子书 8、回复?learning_flink?获取《Learning Apache Flink》电子书 8、回复?Hadoop权威指南??获取?《Hadoop权威指南中文第三版》电子书 9、回复?flink未来?获取?《The Future of Apache Flink》 10、回复?Learning_PySpark?获取《Learning PySpark》电子书 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |