加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式入门

发布时间:2020-12-13 22:11:07 所属栏目:百科 来源:网络整理
导读:编程语言主要用Python自带的re,用c++的话boost库里有对应的正则表达式的库 1,解析糗百上的用户名,点赞数等, # -*- coding:utf-8 -*- import urllib import urllib2 import repage = 1 url = 'http://www.qiushibaike.com/hot/' user_agent = 'Mozilla/4.

编程语言主要用Python自带的re,用c++的话boost库里有对应的正则表达式的库

1,解析糗百上的用户名,点赞数等,

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/hot/'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }

try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')

    pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?class="number">(.*?)</i>',re.S)


    items = re.findall(pattern,content)

    for item in items:
        print item[0],item[1]

except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

输出结果

我去哎哟喂 4926
渔舟唱挽 4781
五道岭子五号 4950
冰山上的一角! 4725
翼翼哟~~~ 8496
小方方- 5985
聆听问斜阳 2497
还差一步就变精神病 15273
随遇而安→_→ 3168
郭恶人。 4293
大明湖畔的王阿哥 3398
林夕21pp 3518
刘家大少》 1478
呀仁 592
凉风绕耳 3388
懒羊羊627 4267
翼翼哟~~~ 6808
请叫我素素姐 7290
甘若li 2509
冷面冷心冷温柔i 3678

参考资料
1,http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 这个我觉得更清楚
2,http://www.aspzz.cn/tools/zhengze.html 这个网上流传多,但是没太看明白

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读