使用总览
发布时间:2020-12-16 23:58:18 所属栏目:Python 来源:网络整理
导读:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取感兴趣的信息,抓取对于我们有价值的信息,爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取感兴趣的信息,抓取对于我们有价值的信息,爬虫技术是大数据和云计算的基础。 爬虫的实现可认为是模拟浏览据交互,伪造HTTP请求。 使用总览网页爬取库:
内容解析库:
查看网站爬虫协议
requests库基本使用安装:? sudo pip3 install requests
使用介绍: requests
res=requests.get()
(res.url)
res=requests.post()
filex={:(,)}
res=requests.post(urlx,files=
(res.cookies)
(res.cookies[])
coo={:,: res=ss.post(,cookies=
ss= res=ss.post( res=ss.post()
res=requests.post(,timeout=0.2)
headx={: ,: ,: res=requests.get(,headers= (res.request.headers)
(res.status_code)
(res.raise_for_status())
(res.encoding)
res.encoding=
(res.headers)
(res.headers[])
(res.text)
jsontt1=res.json()
(jsontt1.keys())
(jsontt1[])
res=requests.get(,timeout=5)
f=open( |