过滤出HTML标签并解析python中的实体

发布时间：2020-12-14 21:28:32 所属栏目：资源来源：网络整理

导读：因为正则表达式吓倒我，我试图找到一种方法来删除所有HTML标签，并从Python中的字符串中解析HTML实体。解决方法使用 lxml这是python最好的xml / html库。 import lxml.htmlt = lxml.html.fromstring("...")t.text_content() 而且如果你只是想清理lxml.html

因为正则表达式吓倒我，我试图找到一种方法来删除所有HTML标签，并从Python中的字符串中解析HTML实体。

解决方法

使用 lxml这是python最好的xml / html库。

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

而且如果你只是想清理lxml.html.clean module上的html看法

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!