-
不用科学上网就可以上Google
所属栏目:[Python] 日期:2020-12-16 热度:180
-
Python的爬虫包Beautiful Soup中用正则表达式来搜索
所属栏目:[Python] 日期:2020-12-16 热度:100
Beautiful Soup使用时,一般可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。 但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合某一规律,此时,就无法写成固定的值了。 所以,[详细]
-
深入剖析Python的爬虫框架Scrapy的结构与运作流程
所属栏目:[Python] 日期:2020-12-16 热度:116
网络爬虫(Web Crawler,Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google[详细]
-
Python中urllib+urllib2+cookielib模块编写爬虫实战
所属栏目:[Python] 日期:2020-12-16 热度:73
超文本传输协议http构成了万维网的基础,它利用URI(统一资源标识符)来识别Internet上的数据,而指定文档地址的URI被称为URL(既统一资源定位符),常见的URL指向文件、目录或者执行复杂任务的对象(如数据库查找,internet搜索),而爬虫实质上正是通过对[详细]
-
使用Python编写爬虫的基本模块及框架使用指南
所属栏目:[Python] 日期:2020-12-16 热度:192
基本模块 python爬虫,web spider。爬取网站获取网页数据,并进行分析提[详细]
-
Python的Scrapy爬虫框架简单学习笔记
所属栏目:[Python] 日期:2020-12-16 热度:139
一、简单配置,获取单个网页上的内容。 (1)创建scrapy项目 scrapy startproject getblog (2)编辑 items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics[详细]
-
Python模拟百度登录实例详解
所属栏目:[Python] 日期:2020-12-16 热度:189
最近公司产品和百度贴吧合作搞活动,为了增加人气,打算做个自动签到的小程序。这个是测试登录的代码,写的比较随意,仅实现了登录并读取关注贴吧列表,下边的就比较简单。 百度登录还是有点麻烦的,由于用的ssl,所以要先获取token,然后再登录,这个用find[详细]
-
Python中使用urllib2模块编写爬虫的简单上手示例
所属栏目:[Python] 日期:2020-12-16 热度:93
提起python做网络爬虫就不得不说到强大的组件urllib2。在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。通过下面的代码简单感受一下urll[详细]
-
Python 列表排序方法reverse、sort、sorted详解
所属栏目:[Python] 日期:2020-12-16 热度:142
python语言中的列表排序方法有三个:reverse反转/倒序排序、sort正序排序、sorted可以获取排序后的列表。在更高级列表排序中,后两中方法还可以加入条件参数进行排序。 reverse()方法 将列表中元素反转排序,比如下面这样 x = [1,5,2,3,4] x.reverse() x[4,1[详细]
-
Python爬虫抓取手机APP的传输数据
所属栏目:[Python] 日期:2020-12-16 热度:110
大多数APP里面返回的是json格式数据,或者一堆加密过的数据 。这里以超级课程表APP为例,抓取超级课程表里用户发的话题。 1、抓取APP数据包 方法详细可以参考这篇博文:Fiddler如何抓取手机APP数据包 得到超级课程表登录的地址:http://120.55.151.61/V2/Stu[详细]
-
Fiddler如何抓取手机APP数据包
所属栏目:[Python] 日期:2020-12-16 热度:147
Fiddler,这个是所有软件开发者必备神器!这款工具不仅可以抓取PC上开发web时候的数据包,而且可以抓取移动端(Android,Iphone,WindowPhone等都可以)。 第一步:下载神器Fiddler,下载链接: http://w.x.baidu.com/alading/anquan_soft_down_ub/10963 下载完成[详细]
-
Python爬虫模拟登录带验证码网站
所属栏目:[Python] 日期:2020-12-16 热度:133
爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法。python提供了强大的url库,想做到这个并不难。这里以登录学校教务系统为例,做一个简单的例子。 首先得明白cookie的作用,cookie是某些网站为了辨别用户身份、进行session跟踪而储存[详细]
-
Python随手笔记第一篇(2)之初识列表和元组
所属栏目:[Python] 日期:2020-12-16 热度:164
Python中,列表和元组是一种数据结构:序列,序列中的每个元素都被分配一个序号,元素的位置,第一原元素的位置为0,因此类推。序列是最基本的数据结构,列表和元组他们之间具有一定的区别,即列表可以修改,而元组则不能修改!如果要添加元素最好是用列表。[详细]
-
Python字符串、元组、列表、字典互相转换的方法
所属栏目:[Python] 日期:2020-12-16 热度:118
废话不多说了,直接给大家贴代码了,代码写的不好还去各位大侠见谅。 #-*-coding:utf-8-*- #1、字典dict = {'name': 'Zara','age': 7,'class': 'First'}#字典转为字符串,返回:type 'str' {'age': 7,'name': 'Zara','class': 'First'}print type(str(dict))[详细]
-
21行Python代码实现拼写检查器
所属栏目:[Python] 日期:2020-12-16 热度:71
引入 大家在使用谷歌或者百度搜索时,输入搜索内容时,谷歌总是能提供非常好的拼写检查,比如你输入 speling,谷歌会马上返回 spelling。 下面是用21行python代码实现的一个简易但是具备完整功能的拼写检查器。 代码 import re,collectionsdef words(text):[详细]
-
基于Python Shell获取hostname和fqdn释疑
所属栏目:[Python] 日期:2020-12-16 热度:146
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了。 一、设置hostname/fqdn 在Linux系统内设置hostname很简单,如: $ hostname florian 如果要设置fqdn的话,需要对/etc/hosts进行配置。[详细]
-
谈谈Python进行验证码识别的一些想法
所属栏目:[Python] 日期:2020-12-16 热度:196
用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管[详细]
-
Python网站验证码识别
所属栏目:[Python] 日期:2020-12-16 热度:78
0x00 识别涉及技术 验证码识别涉及很多方面的内容。入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足。 验证码图像处理 验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符[详细]
-
详解Python验证码识别
所属栏目:[Python] 日期:2020-12-16 热度:140
以前写过一个刷校内网的人气的工具,Java的(以后再也不行Java程序了),里面用到了验证码识别,那段代码不是我自己写的:-) 校内的验证是完全单色没有任何干挠的验证码,识别起来比较容易,不过从那段代码中可以看到基本的验证码识别方式。这几天在写一个程序[详细]
-
Python编程中对文件和存储器的读写示例
所属栏目:[Python] 日期:2020-12-16 热度:64
1.文件的写入和读取 #!/usr/bin/python # -*- coding: utf-8 -*- # Filename: using_file.py # 文件是创建和读取 s = '''''我们都是木头人, 不许说话不许动!''' # 创建一个文件,并且写入字符 f = file('test_file.txt','w') f.write(s) f.close() # 读取[详细]
-
python黑魔法之编码转换
所属栏目:[Python] 日期:2020-12-16 热度:89
我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种): 抛异常 替换成替代字符 跳过 但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的[详细]
-
在MAC上搭建python数据分析开发环境
所属栏目:[Python] 日期:2020-12-16 热度:71
最近工作转型到数据开发领域,想在本地搭建一个数据开发环境。自己有三年python开发经验,马上想到使用numpy、scipy、sklearn、pandas搭建一套数据开发环境。 ubuntu的环境,百度中文章比较多,搭建起来非常顺利。MAC环境的资料比较少,百度出来的,已经不对[详细]
-
python中的编码知识整理汇总
所属栏目:[Python] 日期:2020-12-16 热度:122
问题 在平时工作中,遇到了这样的错误: UnicodeDecodeError: 'ascii' codec can't decode byte 想必大家也都碰到过,很常见 。于是决定对python的编码做一个整理和学习。 基础知识 在python2.x中,有两种数据类型,unicode和str,这两个都是basestring的子[详细]
-
Python函数中*args和**kwargs来传递变长参数的用法
所属栏目:[Python] 日期:2020-12-16 热度:140
单星号形式(*args)用来传递非命名键可变参数列表。双星号形式(**kwargs)用来传递键值可变参数列表。 下面的例子,传递了一个固定位置参数和两个变长参数。 def test_var_args(farg,*args): print "formal arg:",farg for arg in args: print "another arg:",[详细]
-
举例讲解Python设计模式编程中的访问者与观察者模式
所属栏目:[Python] 日期:2020-12-16 热度:105
访问者模式 我觉得Visitor模式是在补修改已有程序结构前提下,通过添加额外的访问者完成对代码功能的拓展 为什么这样用?当你的类层次较多,在某层结构中增加新的方法,要是在基类上面添加或者变更,可能破坏原来的设计, 有兼容问题,所以只在需要的类上面[详细]