我说我是通过爬虫入门Python的!你信吗?爬虫简直太好玩了!
前言 什么是网络爬虫(也叫网络蜘蛛)?简单来说,是一种用来自动浏览万维网程序或脚本(网络爬虫的典型应用就是我们所熟知的搜索引擎)。既然如此,那么我们也可以写一个程序,用来自动浏览或者获取网页上的信息。本文将介绍利用python自带库编写一个简单的爬虫程序来获取网络信息。 进群:548377875 ?即可获取数十套PDF书籍哦!限前五十套呢! 准备 本次爬取实例可能涉及以下知识:
环境准备:
爬取目标 本次爬取的目标是知乎话题下的图片。 分析 以知乎话题你有哪些压箱底的表情包?为例 (链接地址:https://www.zhihu.com/question/48132860): 用chrome浏览器打开该链接。鼠标右键-检查元素,在elements页移动鼠标,当鼠标移动到某元素时,页面会被选中,因此我们可以找到第一张图片的img标签,而在标签中,我们可以找到图片的url地址,复制url地址,在浏览器打开,我们就看到了需要下载的表情包了。 至此,整体思路就很简单了:访问话题页--找到img标签--获取图片url地址--下载图片。 查找链接 代码 #!/usr/bin/python3 #coding=utf-8 import urllib.request as request import urllib.parse as parse import string import sys import re import os import urllib.error as error ''' 获取url中的图片 url:链接地址 dirpath:保存路径 ''' def getUrlImage(url,dirpath): dldNum=0 #存储目录不存在时,创建目录 if not os.path.isdir(dirpath): os.makedirs(dirpath) data = request.urlopen(url).read() page_data = data.decode('gbk','ignore') #获取img标签数据 page_image = re.compile(' |