使用IP代理池和用户代理池爬取糗事百科文章
发布时间:2020-12-14 02:00:09 所属栏目:Windows 来源:网络整理
导读:简单使用IP代理池和用户代理池的爬虫 import reimport randomimport urllib.request as urlreqimport urllib.error as urlerr#用户代理池uapools = [ "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0","Mozilla/5.0 (Windows N
简单使用IP代理池和用户代理池的爬虫
import re import random import urllib.request as urlreq import urllib.error as urlerr #用户代理池 uapools = [ "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/59.0.3071.115 Safari/537.36",like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393" ] #ip代理池 ipools = [] #获取用户代理 def get_ua(uapools): thisua = random.choice(uapools) header = ("User-Agent",thisua) url_opener = urlreq.build_opener() url_opener.addheaders = [header] urlreq.install_opener(url_opener) #获取ip池,这里从西刺获取首页IP保存到列表中 def get_ipools(ipurl): get_ua(uapools) data = urlreq.urlopen(ipurl).read().decode("utf-8","ignore") pat = "/></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>" ret = re.compile(pat,re.S).findall(data) # print(ret) for i in ret: ips = i[0] + ":" + i[1] ipools.append(ips) return ipools #解析糗事百科的文章 def get_article(data): pat = ‘<div class="content">.*?<span>(.*?)</span>.*?</div>‘ rst = re.compile(pat,re.S).findall(data) print(rst) # down_file(rst,i) def get_html(urlweb): for i in range(1,6): #爬取前五页文章 while 1: try: page = urlweb + str(i) thisua = random.choice(uapools) header = ("User-Agent",thisua) #构建用户代理 ip = random.choice(ipools) print("当前使用的ip为" + ip) proxy = urlreq.ProxyHandler({"http": ip}) #构建IP代理 url_opener = urlreq.build_opener(proxy,urlreq.HTTPHandler) #添加IP代理头 url_opener.addheaders = [header] #添加用户代理头 urlreq.install_opener(url_opener) #设为全局变量 data = urlreq.urlopen(page).read().decode("utf-8","ignore") except Exception as e: print(e) ipools.remove(ip) #爬取失败时,从IP池中删除IP,重新爬取文章 continue get_article(data) #解析文章 break #完成一页的爬取 if __name__ == "__main__": ipurl = "https://www.xicidaili.com/nn/" ipools = get_ipools(ipurl) #获取ip池 urlweb = "https://www.qiushibaike.com/text/page/" get_html(urlweb) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- windows – 从命令行修复“此访问控制列表不是规范形式”错
- PowerShell减法是否在内部将uint32值转换为int32?
- win-universal-app – Windows 10获得DeviceFamilyVersion
- windows – 如何递归搜索文件,但只对使用批处理文件找到文件
- windows-server-2008-r2 – 为什么我不应该使用Windows Ser
- win提示通信端口初始化失败如何办?
- windows-phone-7 – 无尽的枢轴控制
- .net – 请描述一下使用Microsoft C/C++LI的经历
- [Universal Apps] 方案结构与共用的两个面向
- 设置Windows屏幕保护程序需要使用PowerShell密码
推荐文章
站长推荐
- 在IIS 7 w/Windows Server 2008上使用委派设置Ke
- 如何从命令行检查谁当前登录到Windows工作站?
- 如何在Windows中使用带代理的weka包管理器?
- windows-server-2008 – 安装Windows Server 200
- windows-services – 卸载后无法删除服务可执行文
- windows – 从RDP会话断开连接时停止注销
- 可以多次运行Windows服务(使用不同的设置)吗?
- 如何实现标准的Windows Phone 7 ComboBox替换UI
- winapi – 在Windows RT中从桌面应用加载“comct
- dll – 加载时间动态链接和运行时动态链接之间的
热点阅读