加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ruby – 使用SequenceFile进行Hadoop流式处理(在AWS上)

发布时间:2020-12-17 02:02:30 所属栏目:百科 来源:网络整理
导读:我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本. 我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文
我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本.

我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文档,以及如何将输入提供给我的Ruby脚本.我很欣赏一些关于如何启动作业的指令(直接在EMR上,或者只是一个普通的Hadoop命令行)来使用SequenceFiles以及如何期望将数据提供给我的脚本的一些信息.

– 编辑:我之前提到过StreamFiles而不是SequenceFiles.我认为我的数据文档不正确,但道歉.变化很容易回答.

解决方法

答案是将输入格式指定为Hadoop的命令行参数.

-inputformat SequenceFileAsTextInputFormat

您可能希望将SequenceFile作为文本,但如果更合适,还有SequenceFileAsBinaryInputFormat.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读