【转载】一个简单的爬虫：爬取豆瓣的热门电影的信息

发布时间：2020-12-20 10:12:38 所属栏目：Python 来源：网络整理

导读：1 # ! /usr/bin/env python 2 -*- coding=utf-8 -*- 3 4 import requests 5 json 6 re 7 8 f = open( ' dianying.txt ' , a ' ) 9 count = 0 #用于记录编号，也可不用 10 def write__(htm): 11 with open('title.txt','a') as fff: 12 titl = re.findall( da

 1 #! /usr/bin/env python
 2  -*- coding=utf-8 -*-
 3 
 4 import requests
 5  json
 6  re
 7 
 8 f = open('dianying.txt',a')
 9 count = 0 #用于记录编号，也可不用
10 def write__(htm):
11     with open('title.txt','a') as fff:
12     titl = re.findall(data-tit(.*?)data-enough找到data-tit和data-enough之间的所有匹配串，titl是列表类型
13     for each in titl:     依次迭代列表中元素，针对每一组元素 分别匹配相应的字段 ，并将字段内容写入文本
14         fff.write(each + "n")
15         info = {}
16         info[title'] = re.search(le="(.*?)") #匹配值的第一个
17         info[yeardata-release="(.*?)" data-rate #匹配值的第一个
18         info[Rating']= re.findall(data-rate="(.*?)" data-star,re.S)[0] #返回匹配元素（列表）中的一个值，实际上只有 一个
19         info[duration'] = re.findall(data-duration="(.*?)" data-region20         info[regiondata-region="(.*?)" data-director21         info[actordata-actors="(.*?)" data-intro22         global count 全局的定义
23         count = count + 1
24         f.write(%sn' %str(count))
25         print(info['title'],info['year'],info['Rating'],info['time'],info['reg'],info['act'] )
26         f.writelines(u电影名：'+info['] + n27         f.writelines(u主演：28         f.writelines(u电影地区：' + info[']+29         f.writelines(u上映年份：30         f.writelines(u电影时长：31         f.writelines(u评分：nn32     f.close()
33  getremen():
34     url = http://movie.douban.com/'
35     html = requests.get(url,headers={User-Agent': Mozilla/5.0 (Windows NT 6.1; WOW64; rv:56.0) Gecko/20100101 Firefox/56.0})
36     html.encoding = uft-837      print( html.text)
38     write__(html)
39 if __name__ == "__main__":
40     getremen()

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!