python – 匹配结束HTML标记的正则表达式

发布时间：2020-12-20 13:02:07 所属栏目：Python 来源：网络整理

导读：我正在编写一个小的 Python脚本来清理HTML文档.它的工作原理是接受KEEP的标签列表,然后通过HTML代码解析不在列表中的垃圾标签我一直在使用正则表达式来完成它并且我已经能够匹配开始标签和自闭标签但不是关闭标签. 我一直在尝试匹配结束标签的模式是 /(？！a

我正在编写一个小的 Python脚本来清理HTML文档.它的工作原理是接受KEEP的标签列表,然后通过HTML代码解析不在列表中的垃圾标签我一直在使用正则表达式来完成它并且我已经能够匹配开始标签和自闭标签但不是关闭标签.

我一直在尝试匹配结束标签的模式是< /(？！a)>.这对我来说似乎合乎逻辑,为什么不工作呢？ (？！a)应匹配任何不是锚标签的东西(不是“a”可以是任何东西 – 它只是一个例子).

编辑：AGG！我想正则表达式没有显示！

>阅读：

> RegEx match open tags except XHTML self-contained tags
> Can you provide some examples of why it is hard to parse XML and HTML with a regex?

>悔改.
>使用真正的HTML解析器,如BeautifulSoup.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!