正则表达式入门
发布时间:2020-12-13 22:11:07 所属栏目:百科 来源:网络整理
导读:编程语言主要用Python自带的re,用c++的话boost库里有对应的正则表达式的库 1,解析糗百上的用户名,点赞数等, # -*- coding:utf-8 -*- import urllib import urllib2 import repage = 1 url = 'http://www.qiushibaike.com/hot/' user_agent = 'Mozilla/4.
编程语言主要用Python自带的re,用c++的话boost库里有对应的正则表达式的库 1,解析糗百上的用户名,点赞数等, # -*- coding:utf-8 -*-
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushibaike.com/hot/'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?class="number">(.*?)</i>',re.S)
items = re.findall(pattern,content)
for item in items:
print item[0],item[1]
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
输出结果 我去哎哟喂 4926
渔舟唱挽 4781
五道岭子五号 4950
冰山上的一角! 4725
翼翼哟~~~ 8496
小方方- 5985
聆听问斜阳 2497
还差一步就变精神病 15273
随遇而安→_→ 3168
郭恶人。 4293
大明湖畔的王阿哥 3398
林夕21pp 3518
刘家大少》 1478
呀仁 592
凉风绕耳 3388
懒羊羊627 4267
翼翼哟~~~ 6808
请叫我素素姐 7290
甘若li 2509
冷面冷心冷温柔i 3678
参考资料 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |