python – 使用BeautifulSoup拆分HTML文档

发布时间：2020-12-20 13:22:15 所属栏目：Python 来源：网络整理

导读：我们处理长聚合的 HTML文档(转换为PDF). 在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的

我们处理长聚合的 HTML文档(转换为PDF).
在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的方式提取子文档(例如从第一个H1到下一个H2)的正确方法.

解决方法

我有使用BeautifulSoup的一些经验,我不确定它是否支持你想要直接做什么.这是两个想法

搜索

以下是它拥有的搜索工具的一些文档.也许您可以搜索H1和H2s,看看是否有助于提取子文档

http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree

漂亮的打印grep

BeautifulSoup有一个非常有用的美化功能,可以很好地打印html.一旦完成,每个H1或H2将在它自己的行上,在这种情况下,人们可以轻松地使用像grep这样的文本操作实用程序来轻松确定行号.包含H1和H2,简单地将文本放在中间.

http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!