加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式入坑笔记

发布时间:2020-12-14 00:35:33 所属栏目:百科 来源:网络整理
导读:最近想要写一个爬虫程序,发现现在的话基本是有两种处理爬取数据的处理。 (1)正则表达式 (2)类似jQuery的DOM的操作 因为正则表达式非常的强大,所以一直想要入坑,所以现在就选择第一种方式。 坑点1: 在使用正则表达式中,很多文档都只是在写如何去匹配

最近想要写一个爬虫程序,发现现在的话基本是有两种处理爬取数据的处理。

(1)正则表达式

(2)类似jQuery的DOM的操作

因为正则表达式非常的强大,所以一直想要入坑,所以现在就选择第一种方式。


坑点1:

在使用正则表达式中,很多文档都只是在写如何去匹配,但是对于一个新手的话非常的不友好。因为没有说明如何开始,只是给程序,而没有解释,所以非常的坑。这里面我发现要想使用正则匹配的话,都要写定界符/或#来包住你要写的正则表达式,不然是不清楚这是正则表达式来的。还有就是要匹配html标签的话会出现</div>的情况,这里必须要对/转义使用/的形式,不然会提前结束了正则表达式。然而你后面还有正则,那么就会警告了。

坑点2:

之前的话在使用(.*)匹配内容的时候,总会出现一些多余的字符,而且这是我们不想要的,例如title=‘xxx’,我只想要xxx但是它却给了xxx target=‘_blank’这样的字符串给我。之后发现这里是因为贪婪模式导致的,所以只要xxx就应该使用非贪婪模式,这个模式只要加在(.*$)这里加多一个$符就ok了。


持续更新。。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读