加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 使用BeautifulSoup拆分HTML文档

发布时间:2020-12-20 13:22:15 所属栏目:Python 来源:网络整理
导读:我们处理长聚合的 HTML文档(转换为PDF). 在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的
我们处理长聚合的 HTML文档(转换为PDF).
在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的方式提取子文档(例如从第一个H1到下一个H2)的正确方法.

解决方法

我有使用BeautifulSoup的一些经验,我不确定它是否支持你想要直接做什么.这是两个想法

搜索

以下是它拥有的搜索工具的一些文档.也许您可以搜索H1和H2s,看看是否有助于提取子文档

http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree

漂亮的打印grep

BeautifulSoup有一个非常有用的美化功能,可以很好地打印html.一旦完成,每个H1或H2将在它自己的行上,在这种情况下,人们可以轻松地使用像grep这样的文本操作实用程序来轻松确定行号.包含H1和H2,简单地将文本放在中间.

http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读