正则表达式
http://blog.csdn.net/pipisorry/article/details/24143801 正则表达式正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。使用正则表达式进行匹配的流程正则表达式的大致匹配过程是
依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功; 一旦有匹配不成功的字符则匹配失败。 如果表达式中有量词或边界,这个过程会稍微有一些不同。 皮皮Blog Python支持的正则表达式元字符和语法基于Python2.4,不过一般通用,无论是c,java,python3,mysql,还是linux, notepad++。 可参考[notepad++正则表达式使用][Java正则表达式小记][linux通配符和正则表达式][mysql语法、特殊符号及正则表达式的使用][正则表达式 - C语言] python正则表达式中的其他特殊符号
皮皮Blog 正则表达式模式数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式"ab*"如果用于查找"abbbc",将找到"abbb"。而如果使用非贪婪的数量词"ab*?",将找到"a"。 Python中转义字符-反斜杠的困扰与大多数编程语言相同,正则表达式里使用""作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。 Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r""表示。同样,匹配一个数字的"d"可以写成r"d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。 Note:建议正则表达式使用时都使用原生字符串r''。 匹配模式正则表达式提供了一些可用的匹配模式,比如忽略大小写、多行匹配等,这与Pattern类的工厂方法re.compile(pattern[,flags])联系紧密。 皮皮Blog 正则表达式使用示例使用正则表达式对密码强度、Email 地址、身份证号码等信息的匹配验证1 . 校验密码强度密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。 ^(?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ 2. 校验中文 字符串仅能是中文。 ^[u4e00-u9fa5]{0,}$ 3. 由数字、26个英文字母或下划线组成的字符串 ^w+$ 4. 校验E-Mail 地址 同密码一样,下面是E-mail地址合规性的正则检查语句。 [w!#$%&'*+/=?^_`{|}~-]+(?:.[w!#$%&'*+/=?^_`{|}~-]+)*@(?:[w](?:[w-]*[w])?.)+[w](?:[w-]*[w])? 5. 校验身份证号码 下面是身份证号码的正则校验。15 或 18位。 15位: ^[1-9]d{7}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{3}$ 18位: ^[1-9]d{5}[1-9]d{3}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{3}([0-9]|X)$ 6. 校验日期 “yyyy-mm-dd“ 格式的日期校验,已考虑平闰年。 ^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$ 7. 校验金额 金额校验,精确到2位小数。 ^[0-9]+(.[0-9]{2})?$ 8. 校验手机号 下面是国内 13、15、18开头的手机号正则表达式。(可根据目前国内收集号扩展前两位开头号码) ^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$ 9. 判断IE的版本 IE目前还没被完全取代,很多页面还是需要做版本兼容,下面是IE版本检查的表达式。 ^.*MSIE [5-8](?:.[0-9]+)?(?!.*Trident/[5-9].0).*$ 10. 校验IP-v4地址 IP4 正则语句。 b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)b 11. 校验IP-v6地址 IP6 正则语句。 (([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,6}:[0-9a-fA-F]{1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}(:[0-9a-fA-F]{1,3}|([0-9a-fA-F]{1,3}(:[0-9a-fA-F]{1,2}(:[0-9a-fA-F]{1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,6})|:((:[0-9a-fA-F]{1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]).){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9])|([0-9a-fA-F]{1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9])) 12. 检查URL的前缀 应用开发中很多时候需要区分请求是HTTPS还是HTTP,通过下面的表达式可以取出一个url的前缀然后再逻辑判断。 if (!s.match(/^[a-zA-Z]+:///)) { s = 'http://' + s; } 13. 提取URL链接 下面的这个表达式可以筛选出一段文本中的URL。 ^(f|ht){1}(tp|tps)://([w-]+.)+[w-]+(/[w- ./?%&=]*)? 14. 文件路径及扩展名校验 验证windows下文件路径和扩展名(下面的例子中为.txt文件) ^([a-zA-Z]:|\)\([^\]+\)*[^/:*?"<>|]+.txt(l)?$ 15. 提取Color Hex Codes 有时需要抽取网页中的颜色代码,可以使用下面的表达式。 ^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$ 16. 提取网页图片 假若你想提取网页中所有图片信息,可以利用下面的表达式。 < *[img][^\>]*[src] *= *["']{0,1}([^"' >]*) 17. 提取页面超链接 提取html中的超链接。 (<as*(?!.*brel=)[^>]*)(href="https?://)((?!(?:(?:www.)?'.implode('|(?:www.)?',$follow_list).'))[^"]+)"((?!.*brel=)[^>]*)(?:[^>]*)> 18. 查找CSS属性 通过下面的表达式,可以搜索到相匹配的CSS属性。 ^s*[a-zA-Z-]+s*[:]{1}s[a-zA-Z0-9s.#]+[;]{1} 19. 抽取注释 如果你需要移除HMTL中的注释,可以使用如下的表达式。 <!--(.*?)--> 20. 匹配HTML标签 通过下面的表达式可以匹配出HTML中的标签属性。 </?w+((s+w+(s*=s*(?:".*?"|'.*?'|[^'">s]+))?)+s*|s*)/?> [ 使用正则表达式对密码强度、Email 地址、身份证号码等信息的匹配验证] 利用正则表达式排除特定字符串[
利用正则表达式排除特定字符串]
python正则表达式re模块[ python模块 - re模块]皮皮Blog 正则表达式可视化[regexper] from:http://www.52php.cn/article/p-zjluktvg-bbo.html ref:正则表达式 Python爬虫入门七之正则表达式 Python正则表达式指南 最全的常用正则表达式大全 Eigenstate : 正则表达式调试工具 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |