加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 使用BeautifulSoup删除不必要的重复标记

发布时间:2020-12-20 13:33:44 所属栏目:Python 来源:网络整理
导读:我正在使用 Python和BeautifulSoup从html中提取一些文本.我有一些HTML格式的文本 h3b Abc /bb DEF /b /h3 我想删除重复的b标签.有快速的方法吗? 解决方法 对于bs4,这似乎工作得很好 In [4]: soup.h3Out[4]: h3b Abc /bb DEF /b /h3In [5]: soup.h3.textOut[
我正在使用 Python和BeautifulSoup从html中提取一些文本.我有一些HTML格式的文本

<h3><b> Abc </b><b> DEF </b> </h3>

我想删除重复的b标签.有快速的方法吗?

解决方法

对于bs4,这似乎工作得很好

In [4]: soup.h3
Out[4]: <h3><b> Abc </b><b> DEF </b> </h3>

In [5]: soup.h3.text
Out[5]: u' Abc  DEF  '

在这里查看文档和包:
https://beautiful-soup-4.readthedocs.org/en/latest/
https://pypi.python.org/pypi/beautifulsoup4

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读