验证码不好处理吗?很难识别?那我教你绕过它好了啊!爬虫必会!
工具准备
如何操作? 看完之后,记得收藏+转发。 ---正经分割线--- 进群:548377875? 小编即可获取哦!还是非常实用的呢! 一、使用Fiddler抓包 1.一般登陆网站成功后,会生成一个已登录状态的cookie,那么只需要直接把这个值拿到,用selenium进行addCookie操作即可。 2.可以先手动登录一次,然后抓取这个cookie,这里我们就需要用抓包工具fiddler了 3.先打开博客园登录界面,手动输入账号和密码(不要点登录按钮) 4.打开fiddler抓包工具,此时再点博客园登录按钮 5.登录成功后,再查看cookie变化,发现多了两组参数,多的这两组参数就是我们想要的,copy出来,一会有用 二、cookie操作 driver.add_cookie() 1.add_cookie(cookie_dict)方法里面参数是cookie_dict,说明里面参数是字典类型。 2.源码官方文档介绍: add_cookie(self,cookie_dict) Adds a cookie to your current session. Args: - cookie_dict: A dictionary object,with required keys - "name" and "value"; optional keys - "path","domain","secure","expiry" Usage: driver.add_cookie({'name' : 'foo','value' : 'bar'}) driver.add_cookie({'name' : 'foo','value' : 'bar','path' : '/'}) driver.add_cookie({'name' : 'foo','path' : '/','secure':True}) 3.从官方的文档里面可以看出,添加cookie时候传入字典类型就可以了,等号左边的是name,等号左边的是value。 4.把前面抓到的两组数据(参数不仅仅只有name和value),写成字典类型: {'name':'.CNBlogsCookie','value':'2C3AE01E461B2D2F1572D02CB936D77A053089AA2xxxx...'} {'name':'.Cnblogs.AspNetCore.Cookies','value':'CfDJ8Mmb5OBERd5FqtiQlKZZIG4HKz_Zxxx...'} 三、参考代码 # coding:utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.maximize_window() driver.get("https://www.cnblogs.com/longronglang/") # # 添加cookie c1 = {u'domain': u'.cnblogs.com',u'name': u'.CNBlogsCookie',u'value': u'xxxx',u'expiry': 15412950521,u'path': u'/',u'httpOnly': True,u'secure': False} c2 = {u'domain': u'.cnblogs.com',u'name': u'.Cnblogs.AspNetCore.Cookies',u'secure': False} # 添加2个值 driver.add_cookie(c1) driver.add_cookie(c2) time.sleep(3) # 刷新下页面就见证奇迹了 driver.refresh() # 再来个登录后操作 driver.find_element_by_link_text(u"博客园").click() driver.find_element_by_link_text("Refain").click() 效果图 有几点需要注意: 1.登录时候要勾选下次自动登录按钮。 2.addCookie()只添加name和value,对于博客园的登录是不成功。 3.本方法并不适合所有的网站,一般像博客园这种记住登录状态的才会适合。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |