加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

Python:将HTML片段分隔为段落

发布时间:2020-12-20 11:12:59 所属栏目:Python 来源:网络整理
导读:我有一段包含段落的 HTML代码. (我的意思是p标签.)我想把字符串分成不同的段落.例如: '''p class="my_class"Hello!/ppWhat's up?/pp style="whatever: whatever;"Goodbye!/p''' 应该成为: ['p class="my_class"Hello!/p','pWhat's up?/p' 'p style="whatev
我有一段包含段落的 HTML代码. (我的意思是p标签.)我想把字符串分成不同的段落.例如:

'''
<p class="my_class">Hello!</p>
<p>What's up?</p>
<p style="whatever: whatever;">Goodbye!</p>
'''

应该成为:

['<p class="my_class">Hello!</p>','<p>What's up?</p>'
 '<p style="whatever: whatever;">Goodbye!</p>']

什么是一个很好的方法来解决这个问题?

解决方法

如果你的字符串只包含段落,你可以使用精心设计的正则表达式和re.split().但是,如果您的字符串是更复杂的HTML,或者并不总是有效的HTML,您可能需要查看 BeautifulSoup包.

用法如下:

from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(some_html)

paragraphs = list(unicode(x) for x in soup.findAll('p'))

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读