regex – 使用正则表达式来解析HTML：为什么不？

发布时间：2020-12-14 00:38:51 所属栏目：百科来源：网络整理

导读：看起来像stackoverflow上的每个问题，asker使用regex从HTML获取一些信息将不可避免地有一个“答案”说不使用regex来解析HTML。为什么不？我知道有引用引用的“真正的”HTML解析器在那里像Beautiful Soup，我相信它们是强大的和有用的，但如果你只是做一些简

看起来像stackoverflow上的每个问题，asker使用regex从HTML获取一些信息将不可避免地有一个“答案”说不使用regex来解析HTML。

为什么不？我知道有引用引用的“真正的”HTML解析器在那里像Beautiful Soup，我相信它们是强大的和有用的，但如果你只是做一些简单，快速，或脏，那么为什么打扰使用东西这么复杂，当几个regex语句将工作很好？

此外，有没有什么基本的，我不明白正则表达式，使他们一个不错的选择解析一般？

整个HTML解析是不可能与正则表达式，因为它取决于匹配开放和结束标记是不可能与正则表达式。

正则表达式只能匹配regular languages，但HTML是context-free language.在HTML上，使用正则表达式可以做的唯一的事情是启发式，但是不会在每个条件下工作。应该可以呈现一个将被任何正则表达式错误匹配的HTML文件。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!