ruby – 使用SequenceFile进行Hadoop流式处理(在AWS上)

发布时间：2020-12-17 02:02:30 所属栏目：百科来源：网络整理

导读：我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本. 我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文

我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本.

我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文档,以及如何将输入提供给我的Ruby脚本.我很欣赏一些关于如何启动作业的指令(直接在EMR上,或者只是一个普通的Hadoop命令行)来使用SequenceFiles以及如何期望将数据提供给我的脚本的一些信息.

– 编辑：我之前提到过StreamFiles而不是SequenceFiles.我认为我的数据文档不正确,但道歉.变化很容易回答.

解决方法

答案是将输入格式指定为Hadoop的命令行参数.

-inputformat SequenceFileAsTextInputFormat

您可能希望将SequenceFile作为文本,但如果更合适,还有SequenceFileAsBinaryInputFormat.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!