python – 如何构建html5lib解析器来处理xml和html标签的混合

发布时间：2020-12-20 13:33:41 所属栏目：Python 来源：网络整理

导读：我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务. 我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档 / DOC的 DOC NUMBER = 1主体包围了.等

我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务.
我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个html标记(文件中的所有其他标记都是html).因此,使用常规html解析器时,树中不提供此标记.如何在bs4中构建一个解析器来获取这个xml标签？
我附上了html文件的相关部分：

<！ - 隐藏浏览器中的XML部分< DOC NUMBER = 1> < DOCFULL> – > BODY<！ - 隐藏浏览器中的XML部分< / DOCFULL> < / DOC> – >

最好
马里昂

解决方法

实例化BeautifulSoup对象时,可以在bs4中指定xml：

xml_soup = BeautifulSoup(xml_object,'xml')

这应该照顾你的问题.您可以使用xml_soup对象来解析剩余的html,但是我建议您专门为html实例化另一个汤对象：

soup = BeautifulSoup(html_object)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!