加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

将大型XML文件拆分为Hadoop的可管理部分

发布时间:2020-12-16 23:28:58 所属栏目:百科 来源:网络整理
导读:是否有一个输入类来处理基于Hadoop中树结构的[多个]大型 XML文件?我有一组具有相同模式的 XML文件,但我需要将它们拆分为数据部分,而不是打破部分. 例如,XML文件将是: root parent data /parent parent more data/parent parent even more data/parent/root
是否有一个输入类来处理基于Hadoop中树结构的[多个]大型 XML文件?我有一组具有相同模式的 XML文件,但我需要将它们拆分为数据部分,而不是打破部分.

例如,XML文件将是:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我将每个部分定义为:
/根/父母.

我要问的是:Hadoop是否已经包含了一个记录输入阅读器来执行此操作?

解决方法

我认为 Cloud9 project at UMD可能对你有帮助.

该库提供了一个可能有用的XMLInputFormat class.

同样令人感兴趣的是Cloud9文档中的这个页面,它介绍了如何处理XML dump of Wikipedia in MapReduce.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读