1,匹配所有标签
regex: &;.[^<>]*&;
source: <external_network_location_id>20130401_TXNONC100FFS3101TAUSNPN1733590048828A_0048828</external_network_location_id>
result: <external_network_location_id> </external_network_location_id>
2,匹配指定标签 eg:匹配指定的div标签
regex: &;bdiv.*&;/divb&;
source: <div>23dd</div> <div1>23dd</div1> <div>23dd33ff</div> result: <div>23dd</div> <div>23dd33ff</div>
3,匹配某种特定格式的字符串
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> regex: >.[^<>]+<
source: <li><a href="http://sports.sina.com.cn"target="_blank">新浪</a></li> <li><a href="http://news.yule.com.cn"target="_blank">中国娱乐网</a></li> <li><a href="http://pzh.scol.com.cn"target="_blank">四川在线</a></li> <li><a href="http://news.0755car.com"target="_blank">车神榜</a></li>
result: >新浪< >中国娱乐网< >四川在线< >车神榜<
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
regex 2: <li><a href="(.*?)"target="_blank">(.*?)</a></li>
source: <li><a href="http://sports.sina.com.cn"target="_blank">新浪</a></li> <li><a href="http://news.yule.com.cn"target="_blank">中国娱乐网</a></li> <li><a href="http://pzh.scol.com.cn"target="_blank">四川在线</a></li> <li><a href="http://news.0755car.com"target="_blank">车神榜</a></li>
result: http://sports.sina.com.cn新浪 http://news.yule.com.cn中国娱乐网 http://pzh.scol.com.cn四川在线 http://news.0755car.com车神榜
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
regex: http://([^s]+)".+?span.+?[(.+?)].+?>(.+?)<
source: <li><a href="http://www.wea.com/blog/a.html" title="怎样在百度空间添加友情链接"><span class="article-date">[2014/11/13]</span>怎样在百链接</a></li> <li><a href="http://www.a.com/blog/b.html2" title="怎样在百度空间添加友情链接2"><span class="article-date">[2014/11/12]</span>怎样在百度链接2</a></li>
result: http://www.wea.com/blog/a.html2014/11/13怎样在百链接 http://www.a.com/blog/b.html22014/11/12怎样在百度链接2
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
regex: <external_network_location_id>(.*?)</external_network_location_id>
source: <external_network_location_id>20130401_TXNONC100FFS3101TAUSNPN1733590048828A_0048828</external_network_location_id> <external_network_location_id>abcd1234004488877</external_network_location_id>
result: 20130401_TXNONC100FFS3101TAUSNPN1733590048828A_0048828 abcd1234004488877
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
regex: <requserid>([^<]+)</requserid>
source: <Request><Action>getuser</Action><UserLogin></UserLogin><Password></Password><Signature></Signature><VerifyText></VerifyText><requserid>535</requserid><requserid>5335</requserid></Request>
result: 535 5335
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
5,提取所有标签中的内容
regex 1: <.+?>(.+?)<.+?>
regex 2: (?is)(?<=>)[^<>]+(?=<)
source: <span style=''>内容1</span><img src=".."/>内容2<p><input .../>内容3</p><p>内容4</p><b>内容5</b><i>内容6</i>
result: 内容1 内容2 内容3 内容4 内容5 内容6
6,提取所有 img标签中的属性值 (其它标签可以借鉴)
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> regex: (?is)<imgs*((?<key>[^=]+)="(?<value>[^"]+)")+?s*/?>
source: <img src="acbdd"/><img src="33ff"/><img src="gggggeeee"/><a>33333</a>
result: key=srcvalue=acbdd key=srcvalue=33ff key=src value=gggggeeee
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
regex 1: (?is)<imgs*((?<key>[^=]+)=(["'])(?<value>[^'"]+)2)+?s*/?>([^<>]*?</img>)? regex 2: (?is)<imgs+((?<key>[^=]+)=(["']?)(?<value>[^'"]+)2s*)+?s*/?>([^<>]*?</img>)?
source: <img src="acbdd"/><img src="33ff"/><img src="gggggeeee"/><img src="bb"></img><a>33333</a>
result: key=srcvalue=acbdd key=srcvalue=33ff key=src value=gggggeeee key=srcvalue=bb
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
(?<=^<external_provider_group_id>).*(?=</external_provider_group_id>) 可取第一个 23dd0078243d4323 贪婪 匹配 <external_provider_group_id>23dd0078243d4323</external_provider_group_id> 可取第一个 23dd0078243d4323 贪婪 匹配 (?<=^<external_provider_group_id>).*0078243.*(?=</external_provider_group_id>) <[A-Za-z_-]+>w+0078243w+</[A-Za-z_-]+> 可取以下4项 w+ 表示 取1个或多个 <external_provider_group_id>23dd0078243d4323</external_provider_group_id> <a>dd0078243dsd</a> <b_b>dd0078243dsd33</b_b> <c-c>dd0078243dsd44</c-c> <[A-Za-z_-]+>w{0,}0078243w{0,}</[A-Za-z_-]+> 可取以下6项 w{0,} 表示取0个或多个 <external_provider_group_id>23dd0078243d4323</external_provider_group_id> <external_provider_group_id>442232323</external_provider_group_id> <external_provider_group_id>23dd0078243d432344</external_provider_group_id> <a>dd0078243dsd</a> <b_b>dd0078243dsd33</b_b> <c-c>dd0078243dsd44</c-c> <d-d>0078243</d-d>
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
其它:
(?<=^<[A-Za-z_-]+>).*(?=</[A-Za-z_-]+>) 只能取第一个 .*(?<=<w+>.*</w+>)*
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
(the end) (编辑:李大同)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|