加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

如何在保留html标签/结构的同时在html中查找/替换文本

发布时间:2020-12-14 18:49:09 所属栏目:资源 来源:网络整理
导读:我使用正则表达式来转换文本,但我想保留 HTML标记. 例如如果我想用“堆栈下溢”替换“堆栈溢出”,这应该工作 预期:如果输入是堆栈 sometag溢出 / sometag,我必须获得堆栈 sometag underflow / sometag (即完成字符串替换,但是 标签还在那里…… 解决方法 在
我使用正则表达式来转换文本,但我想保留 HTML标记.
例如如果我想用“堆栈下溢”替换“堆栈溢出”,这应该工作
预期:如果输入是堆栈< sometag>溢出< / sometag>,我必须获得堆栈< sometag> underflow< / sometag> (即完成字符串替换,但是
标签还在那里……

解决方法

在处理HTML时,请使用DOM库,而不是正则表达式:

> lxml:解析器,文档和HTML序列化程序.也可以使用BeautifulSoup和html5lib进行解析.
> BeautifulSoup:解析器,文档和HTML序列化程序.
> html5lib:解析器.它有一个序列化器.
> ElementTree:文档对象和XML序列化程序
> cElementTree:作为C扩展实现的文档对象.
> HTMLParser:解析器.
> Genshi:包括解析器,文档和HTML序列化程序.
> xml.dom.minidom:内置于标准库中的文档模型,html5lib可以解析该文档模型.

从http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/被盗.

其中我会推荐lxml,html5lib和BeautifulSoup.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读