【转载】一个简单的爬虫:爬取豆瓣的热门电影的信息
发布时间:2020-12-20 10:12:38 所属栏目:Python 来源:网络整理
导读:1 # ! /usr/bin/env python 2 -*- coding=utf-8 -*- 3 4 import requests 5 json 6 re 7 8 f = open( ' dianying.txt ' , a ' ) 9 count = 0 #用于记录编号,也可不用 10 def write__(htm): 11 with open('title.txt','a') as fff: 12 titl = re.findall( da
1 #! /usr/bin/env python 2 -*- coding=utf-8 -*- 3 4 import requests 5 json 6 re 7 8 f = open('dianying.txt',a') 9 count = 0 #用于记录编号,也可不用 10 def write__(htm): 11 with open('title.txt','a') as fff: 12 titl = re.findall(data-tit(.*?)data-enough找到data-tit和data-enough之间的所有匹配串,titl是列表类型 13 for each in titl: 依次迭代列表中元素,针对每一组元素 分别匹配相应的字段 ,并将字段内容写入文本 14 fff.write(each + "n") 15 info = {} 16 info[title'] = re.search(le="(.*?)") #匹配值的第一个 17 info[yeardata-release="(.*?)" data-rate #匹配值的第一个 18 info[Rating']= re.findall(data-rate="(.*?)" data-star,re.S)[0] #返回匹配元素(列表)中的一个值,实际上只有 一个 19 info[duration'] = re.findall(data-duration="(.*?)" data-region20 info[regiondata-region="(.*?)" data-director21 info[actordata-actors="(.*?)" data-intro22 global count 全局的定义 23 count = count + 1 24 f.write(%sn' %str(count)) 25 print(info['title'],info['year'],info['Rating'],info['time'],info['reg'],info['act'] ) 26 f.writelines(u电影名:'+info['] + n27 f.writelines(u主演:28 f.writelines(u电影地区:' + info[']+29 f.writelines(u上映年份:30 f.writelines(u电影时长:31 f.writelines(u评分:nn32 f.close() 33 getremen(): 34 url = http://movie.douban.com/' 35 html = requests.get(url,headers={User-Agent': Mozilla/5.0 (Windows NT 6.1; WOW64; rv:56.0) Gecko/20100101 Firefox/56.0}) 36 html.encoding = uft-837 print( html.text) 38 write__(html) 39 if __name__ == "__main__": 40 getremen() (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |