python – 使用BeautifulSoup拆分HTML文档
发布时间:2020-12-20 13:22:15 所属栏目:Python 来源:网络整理
导读:我们处理长聚合的 HTML文档(转换为PDF). 在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的
我们处理长聚合的
HTML文档(转换为PDF).
在某些情况下,聚合的HTML文档必须按章节(以H1标签开头的专用HTML页面)或子章节(从每个H1或H2标签开始的专用HTML页面)拆分.到目前为止,我们使用BeautifulSoup来处理聚合的HTML,但我们找不到使用BeautifulSoup以适当的方式提取子文档(例如从第一个H1到下一个H2)的正确方法. 解决方法
我有使用BeautifulSoup的一些经验,我不确定它是否支持你想要直接做什么.这是两个想法
搜索 以下是它拥有的搜索工具的一些文档.也许您可以搜索H1和H2s,看看是否有助于提取子文档 http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree 漂亮的打印grep BeautifulSoup有一个非常有用的美化功能,可以很好地打印html.一旦完成,每个H1或H2将在它自己的行上,在这种情况下,人们可以轻松地使用像grep这样的文本操作实用程序来轻松确定行号.包含H1和H2,简单地将文本放在中间. http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |