将大型XML文件拆分为Hadoop的可管理部分
发布时间:2020-12-16 23:28:58 所属栏目:百科 来源:网络整理
导读:是否有一个输入类来处理基于Hadoop中树结构的[多个]大型 XML文件?我有一组具有相同模式的 XML文件,但我需要将它们拆分为数据部分,而不是打破部分. 例如,XML文件将是: root parent data /parent parent more data/parent parent even more data/parent/root
是否有一个输入类来处理基于Hadoop中树结构的[多个]大型
XML文件?我有一组具有相同模式的
XML文件,但我需要将它们拆分为数据部分,而不是打破部分.
例如,XML文件将是: <root> <parent> data </parent> <parent> more data</parent> <parent> even more data</parent> </root> 我将每个部分定义为: 我要问的是:Hadoop是否已经包含了一个记录输入阅读器来执行此操作? 解决方法
我认为
Cloud9 project at UMD可能对你有帮助.
该库提供了一个可能有用的XMLInputFormat class. 同样令人感兴趣的是Cloud9文档中的这个页面,它介绍了如何处理XML dump of Wikipedia in MapReduce. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |