加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 从某些文本中删除损坏的标签和格式不佳的html

发布时间:2020-12-20 13:20:53 所属栏目:Python 来源:网络整理
导读:我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子.然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了.因此,总会出现迷路 strike LT b取代; /击 / DIV / B个帖子中的标签,当我添加15个论坛帖子时,最终会弄乱网页格式. 现在我刚刚将所有可能的
我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子.然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了.因此,总会出现迷路< strike> &LT b取代; < /击> < / DIV> < / B个帖子中的标签,当我添加15个论坛帖子时,最终会弄乱网页格式.

现在我刚刚将所有可能的结束标记附加到帖子上,以便它可以捕获任何打开的标记…有没有更好的方法来解决文本并尝试手动删除每个打开的标记.对于loooooong论坛帖子来说,这对于网络应用来说是一项昂贵的交易.

解决方法

看看 HTML Tidy

还有一个Python包装器lib:μTidylib

另外还有HTML Purifier

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读