将大型XML文件拆分为Hadoop的可管理部分

发布时间：2020-12-16 23:28:58 所属栏目：百科来源：网络整理

导读：是否有一个输入类来处理基于Hadoop中树结构的[多个]大型 XML文件？我有一组具有相同模式的 XML文件,但我需要将它们拆分为数据部分,而不是打破部分. 例如,XML文件将是： root parent data /parent parent more data/parent parent even more data/parent/root

是否有一个输入类来处理基于Hadoop中树结构的[多个]大型 XML文件？我有一组具有相同模式的 XML文件,但我需要将它们拆分为数据部分,而不是打破部分.

例如,XML文件将是：

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我将每个部分定义为：
/根/父母.

我要问的是：Hadoop是否已经包含了一个记录输入阅读器来执行此操作？

解决方法

我认为 Cloud9 project at UMD可能对你有帮助.

该库提供了一个可能有用的XMLInputFormat class.

同样令人感兴趣的是Cloud9文档中的这个页面,它介绍了如何处理XML dump of Wikipedia in MapReduce.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!