正则表达式入坑笔记
最近想要写一个爬虫程序,发现现在的话基本是有两种处理爬取数据的处理。 (1)正则表达式 (2)类似jQuery的DOM的操作 因为正则表达式非常的强大,所以一直想要入坑,所以现在就选择第一种方式。
坑点1: 在使用正则表达式中,很多文档都只是在写如何去匹配,但是对于一个新手的话非常的不友好。因为没有说明如何开始,只是给程序,而没有解释,所以非常的坑。这里面我发现要想使用正则匹配的话,都要写定界符/或#来包住你要写的正则表达式,不然是不清楚这是正则表达式来的。还有就是要匹配html标签的话会出现</div>的情况,这里必须要对/转义使用/的形式,不然会提前结束了正则表达式。然而你后面还有正则,那么就会警告了。 坑点2: 之前的话在使用(.*)匹配内容的时候,总会出现一些多余的字符,而且这是我们不想要的,例如title=‘xxx’,我只想要xxx但是它却给了xxx target=‘_blank’这样的字符串给我。之后发现这里是因为贪婪模式导致的,所以只要xxx就应该使用非贪婪模式,这个模式只要加在(.*$)这里加多一个$符就ok了。
持续更新。。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 使用typedef结构时,错误’类型为“X *”的值无法分配给“X
- iOS Google跟踪代码管理器在启动时因’NSParseErrorExcepti
- ruby-on-rails – 如何在select_tag / options_from_collec
- ZOJ 3818 正则表达式
- Flex 监听键盘事件
- 从Parse下载PFFile(Image)将其附加到数组并用该数组填充UII
- Sqlite 管理工具 SQLiteDeveloper 及破解
- hdu 1561 The more, The Better----树形dp+有依赖的背包
- c# – 为什么不调用我的基类的静态构造函数?
- ajaxsubmit提交表单返回json在ie浏览器下会出现下载json情况