加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

regex – 使用正则表达式来解析HTML:为什么不?

发布时间:2020-12-14 00:38:51 所属栏目:百科 来源:网络整理
导读:看起来像stackoverflow上的每个问题,asker使用regex从HTML获取一些信息将不可避免地有一个“答案”说不使用regex来解析HTML。 为什么不?我知道有引用引用的“真正的”HTML解析器在那里像Beautiful Soup,我相信它们是强大的和有用的,但如果你只是做一些简
看起来像stackoverflow上的每个问题,asker使用regex从HTML获取一些信息将不可避免地有一个“答案”说不使用regex来解析HTML。

为什么不?我知道有引用引用的“真正的”HTML解析器在那里像Beautiful Soup,我相信它们是强大的和有用的,但如果你只是做一些简单,快速,或脏,那么为什么打扰使用东西这么复杂,当几个regex语句将工作很好?

此外,有没有什么基本的,我不明白正则表达式,使他们一个不错的选择解析一般?

整个HTML解析是不可能与正则表达式,因为它取决于匹配开放和结束标记是不可能与正则表达式。

正则表达式只能匹配regular languages,但HTML是context-free language.在HTML上,使用正则表达式可以做的唯一的事情是启发式,但是不会在每个条件下工作。应该可以呈现一个将被任何正则表达式错误匹配的HTML文件。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读