加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 如何构建html5lib解析器来处理xml和html标签的混合

发布时间:2020-12-20 13:33:41 所属栏目:Python 来源:网络整理
导读:我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务. 我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档 / DOC的 DOC NUMBER = 1主体包围了.等
我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务.
我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个html标记(文件中的所有其他标记都是html).因此,使用常规html解析器时,树中不提供此标记.如何在bs4中构建一个解析器来获取这个xml标签?
我附上了html文件的相关部分:

<! - 隐藏浏览器中的XML部分< DOC NUMBER = 1> < DOCFULL> – > BODY<! - 隐藏浏览器中的XML部分< / DOCFULL> < / DOC> – >

最好
马里昂

解决方法

实例化BeautifulSoup对象时,可以在bs4中指定xml:

xml_soup = BeautifulSoup(xml_object,'xml')

这应该照顾你的问题.您可以使用xml_soup对象来解析剩余的html,但是我建议您专门为html实例化另一个汤对象:

soup = BeautifulSoup(html_object)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读