requests库
import requests headers={ 'User-Agent': Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/73.0.3683.86 Safari/537.36',} 1.处理get请求 我们以百度为例,当我们在百度中输入关键字"python"时,其链接地址为: 在https://www.baidu.com/s后面都是以键值进行连接的,而wd就是我们的关键字 我们定义原始url为"https://www.baidu.com/s?",则有 kw={"wd":中国"} url=https://www.baidu.com/s" #将kw用params传递到url中,通过get请求 response=requests.get(url,params=kw,headers=headers) 在response中就存有爬取下来的网页信息。 response.text (返回unicode数据) response.context.decode("utf-8") (返回字节流数据,再编码成utf-8) response。url(响应的url地址) https://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD response.encoding(response的编码方式) utf-8 response.status_code(HTTP请求状态码,200表示请求成功) 2.处理post请求 response=requests.post(url,headers=headers,data=data) print(response.json()) 3.使用代理 resp=requests.get(url,proxies=proxy) 4.cookie与session url=http://www.lagou.com/PLogin.do data={email":123,password:"123"} headers=requests.session() resp=session.post(url,headers=headers,1)">data) print(resp.text) ? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |