加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Rheem:可扩展且易于使用的跨平台大数据分析系统

发布时间:2020-12-14 03:16:42 所属栏目:大数据 来源:网络整理
导读:RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上允许,这其中包括

  RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上允许,这其中包括:PostgreSQL,Spark,Hadoop MapReduce或者Flink等;Rheem将选择经典处理框架的最佳配置来运行这些程序。RHEEM抽象完全基于用户定义函数(UDF),允许用户专注于其应用程序逻辑而不是物理细节。这就使得数据工程师和软件开发人员可以不去了解不同数据处理系统的API、优缺点以及不同平台之前通信的复杂性等繁琐工作。从上面的特点可以看出,其目标和去年Google开源的Apache Beam很类似。直到目前,Rheem内置支持以下的数据处理平台:

  • Java 8 Streams

  • Apache Spark

  • GraphChi

  • Postgres

  • SQLite

rheem的体系结构如下:


如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

? ? 如何使用Rheem

Rheem需要我们安装好Java8,然后根据自己的需求在pom.xml文件里面引入下面的依赖:

< dependency >
?? groupId >org.qcri.rheem</ >
artifactId >rheem-***</ >
version >0.2.1</ >?
</ >

注意上面的?***,因为Rheem包含了很多个模块,我们需要根据自己的需求选择不同的模块,主要模块介绍如下:

  • rheem-core: 提供了核心数据结构和优化器,这个模块必须引入;

  • rheem-basic: 提供了通用的运算符和数据类型;

  • rheem-api: 提供了Java和Scala语言的API供大家使用;

  • rheem-java,?rheem-spark,0.0392157); white-space: nowrap; ; ; ; ; ">rheem-graphchi,0.0392157); white-space: nowrap; ; ; ; ; ">rheem-sqlite3,0.0392157); white-space: nowrap; ; ; ; ; ">rheem-postgres: 适用于各种平台的适配器

  • rheem-profiler: provides functionality to learn operator and UDF cost functions from historical execution data

下面介绍如何使用RHEEM编写一个WordCount程序。这里以Scala API进行介绍:

从上面的代码可以看出,这个代码的函数和处理过程和使用Spark或者Flink开发程序流程很类似,然后我们可以使用下面命令运行这个程序:

java? com.iteblog.WordcountScala

然后就可以在Spark上运行这个程序。更多关于RHEEM的介绍可以参见期官方文档介绍:https://github.com/daqcri/rheem


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

0、回复?spark_2017_all?获取?Spark Summit East 2017高清视频和PPT

1、回复?hive_es?获取?基于 Hive/ES 金融大数据指标系统PPT

2、回复?bigdata_e?获取?《大规模数据处理演变》PPT

3、回复?大数据分析?获取?《Big Data Analytics》电子书

4、回复?spark2电子书?获取?《Apache Spark 2 for Beginners》电子书

5、回复?spark2_data?获取??《Spark for Data Science》电子书

6、回复?架构师大会ppt?获取?《2016年中国架构师[大数据场]》?PPT

7、回复?intro_flink?获取?《Introduction to Apache Flink》?电子书

8、回复?learning_flink?获取《Learning Apache Flink》电子书

8、回复?Hadoop权威指南??获取?《Hadoop权威指南中文第三版》电子书

9、回复?flink未来?获取?《The Future of Apache Flink》

10、回复?Learning_PySpark?获取《Learning PySpark》电子书

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读