加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

python 贪婪 非贪婪 匹配

发布时间:2020-12-13 20:15:06 所属栏目:PHP教程 来源:网络整理
导读:python re模块还是需要重新学习。 python readline 和 readlines(),readline(),read() 3者之间的区分,之前1直都不清楚,现在弄清楚是怎样回事了。 readlines() 可以1起显示出全部文件,这个也是迭代显示的,需要追行显示,迭代器的指针会被消耗的。 python

python re模块还是需要重新学习。
python readline 和 readlines(),readline(),read() 3者之间的区分,之前1直都不清楚,现在弄清楚是怎样回事了。
readlines() 可以1起显示出全部文件,这个也是迭代显示的,需要追行显示,迭代器的指针会被消耗的。

python 中的正则是匹配换行之外的所有的字符。.* 是匹配不了所有的字符的。在某些情况下,我的结论是正确的,但是在某些情况下,我的结论又是毛病的。刚才遇到的问题,现在终究知道是怎样回事了,原来是贪婪匹配和非贪婪匹配的问题,对这类情况,我也是相对迟钝了。
save.html 是我随意抓来的1个html,我要从这个html中抓出所有的 javascript代码段。

def getcss(): fh = open('save.html') html =fh.read() #js_pattern = re.compile(r'<script .*?">'); ans = re.findall(r'<script .*?>.*?</script>',html,re.S) src_pattern = re.compile(r'^"http.*"'); for i in ans: #ret = re.findall(src_pattern,i) print i

通过上面的程序,我得到了下面的结果。源文件是1个html,格式1般,这些代码段是分行的,我的目的是找出所有的代码段。下面做1个简单的解释。在尝试的进程中,我试了好几种正则表达式,下面讲1下我遇到的问题。

这里写图片描述


实现是跨行匹配的问题,.*是没法匹配 的,所以如果标签散布在不同的行,那末如何匹配中间的内容呢。为了解决跨行匹配的问题,找到了这个解决方案,可以用([dD]*)或([wW]*) 或([sS]*) 来代替。
然后又遇到了问题,我的正则总是会匹配太多的内容,最后发现,我的匹配模式是依照最多内容匹配的。默许的匹配模式是贪婪匹配,所以如果用了.*的话,总会匹配更多的内容。所以找到了这个参考。python贪婪匹配看到了贪婪匹配和非贪婪匹配的核心在1个?上,re.S标记是多行匹配的关键,类似的标记还有re.M标记,这个是1行的标记。re.M:^$标志将会匹配每行,默许^和$只会匹配第1行,文章里有几个例子还是很不错的,值得仔细研究1下,建议自己履行1下这些代码,看下结果,如果这些都很清楚,那末正则掌握的还算不错。

re.findall(r"a(d+?)","a23b") re.findall(r"a(d+)","a23b") re.findall(r"a(d+)b.+a(d+)b","a23b a34b") re.findall(r"a(d+)b.+a(d+)b","a23b a34b",re.S)

最后,实现了上面我提出的需求,主要利用了跨行匹配和非贪婪匹配。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读