Python_站长网

不用科学上网就可以上Google

所属栏目：[Python] 日期：2020-12-16 热度：180

[详细]
Python的爬虫包Beautiful Soup中用正则表达式来搜索

所属栏目：[Python] 日期：2020-12-16 热度：100

Beautiful Soup使用时，一般可以通过指定对应的name和attrs去搜索，特定的名字和属性，以找到所需要的部分的html代码。但是，有时候，会遇到，对于要处理的内容中，其name或attr的值，有多种可能，尤其是符合某一规律，此时，就无法写成固定的值了。所以，[详细]
深入剖析Python的爬虫框架Scrapy的结构与运作流程

所属栏目：[Python] 日期：2020-12-16 热度：116

网络爬虫（Web Crawler,Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google[详细]
Python中urllib+urllib2+cookielib模块编写爬虫实战

所属栏目：[Python] 日期：2020-12-16 热度：73

超文本传输协议http构成了万维网的基础，它利用URI（统一资源标识符）来识别Internet上的数据，而指定文档地址的URI被称为URL（既统一资源定位符），常见的URL指向文件、目录或者执行复杂任务的对象（如数据库查找，internet搜索），而爬虫实质上正是通过对[详细]
使用Python编写爬虫的基本模块及框架使用指南

所属栏目：[Python] 日期：2020-12-16 热度：192

基本模块 python爬虫，web spider。爬取网站获取网页数据，并进行分析提[详细]
Python的Scrapy爬虫框架简单学习笔记

所属栏目：[Python] 日期：2020-12-16 热度：139

一、简单配置，获取单个网页上的内容。（1）创建scrapy项目 scrapy startproject getblog （2）编辑 items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics[详细]
Python模拟百度登录实例详解

所属栏目：[Python] 日期：2020-12-16 热度：189

最近公司产品和百度贴吧合作搞活动，为了增加人气，打算做个自动签到的小程序。这个是测试登录的代码，写的比较随意，仅实现了登录并读取关注贴吧列表，下边的就比较简单。百度登录还是有点麻烦的，由于用的ssl，所以要先获取token，然后再登录，这个用find[详细]
Python中使用urllib2模块编写爬虫的简单上手示例

所属栏目：[Python] 日期：2020-12-16 热度：93

提起python做网络爬虫就不得不说到强大的组件urllib2。在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。通过下面的代码简单感受一下urll[详细]
Python 列表排序方法reverse、sort、sorted详解

所属栏目：[Python] 日期：2020-12-16 热度：142

python语言中的列表排序方法有三个：reverse反转/倒序排序、sort正序排序、sorted可以获取排序后的列表。在更高级列表排序中，后两中方法还可以加入条件参数进行排序。 reverse()方法将列表中元素反转排序，比如下面这样 x = [1,5,2,3,4] x.reverse() x[4,1[详细]
Python爬虫抓取手机APP的传输数据

所属栏目：[Python] 日期：2020-12-16 热度：110

大多数APP里面返回的是json格式数据，或者一堆加密过的数据。这里以超级课程表APP为例，抓取超级课程表里用户发的话题。 1、抓取APP数据包方法详细可以参考这篇博文：Fiddler如何抓取手机APP数据包得到超级课程表登录的地址：http://120.55.151.61/V2/Stu[详细]
Fiddler如何抓取手机APP数据包

所属栏目：[Python] 日期：2020-12-16 热度：147

Fiddler，这个是所有软件开发者必备神器！这款工具不仅可以抓取PC上开发web时候的数据包，而且可以抓取移动端(Android,Iphone,WindowPhone等都可以)。第一步：下载神器Fiddler,下载链接： http://w.x.baidu.com/alading/anquan_soft_down_ub/10963 下载完成[详细]
Python爬虫模拟登录带验证码网站

所属栏目：[Python] 日期：2020-12-16 热度：133

爬取网站时经常会遇到需要登录的问题，这是就需要用到模拟登录的相关方法。python提供了强大的url库，想做到这个并不难。这里以登录学校教务系统为例，做一个简单的例子。首先得明白cookie的作用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存[详细]
Python随手笔记第一篇（2）之初识列表和元组

所属栏目：[Python] 日期：2020-12-16 热度：164

Python中，列表和元组是一种数据结构：序列，序列中的每个元素都被分配一个序号，元素的位置，第一原元素的位置为0，因此类推。序列是最基本的数据结构，列表和元组他们之间具有一定的区别，即列表可以修改，而元组则不能修改！如果要添加元素最好是用列表。[详细]
Python字符串、元组、列表、字典互相转换的方法

所属栏目：[Python] 日期：2020-12-16 热度：118

废话不多说了，直接给大家贴代码了，代码写的不好还去各位大侠见谅。 #-*-coding:utf-8-*- #1、字典dict = {'name': 'Zara','age': 7,'class': 'First'}#字典转为字符串，返回：type 'str' {'age': 7,'name': 'Zara','class': 'First'}print type(str(dict))[详细]
21行Python代码实现拼写检查器

所属栏目：[Python] 日期：2020-12-16 热度：71

引入大家在使用谷歌或者百度搜索时，输入搜索内容时，谷歌总是能提供非常好的拼写检查，比如你输入 speling，谷歌会马上返回 spelling。下面是用21行python代码实现的一个简易但是具备完整功能的拼写检查器。代码 import re,collectionsdef words(text):[详细]
基于Python Shell获取hostname和fqdn释疑

所属栏目：[Python] 日期：2020-12-16 热度：146

一直以来被Linux的hostname和fqdn（Fully Qualified Domain Name）困惑了好久，今天专门抽时间把它们的使用细节弄清了。一、设置hostname/fqdn 在Linux系统内设置hostname很简单，如： $ hostname florian 如果要设置fqdn的话，需要对/etc/hosts进行配置。[详细]
谈谈Python进行验证码识别的一些想法

所属栏目：[Python] 日期：2020-12-16 热度：196

用python加“验证码”为关键词在baidu里搜一下，可以找到很多关于验证码识别的文章。我大体看了一下，主要方法有几类：一类是通过对图片进行处理，然后利用字库特征匹配的方法，一类是图片处理后建立字符对应字典，还有一类是直接利用ocr模块进行识别。不管[详细]
Python网站验证码识别

所属栏目：[Python] 日期：2020-12-16 热度：78

0x00 识别涉及技术验证码识别涉及很多方面的内容。入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足。验证码图像处理验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符[详细]
详解Python验证码识别

所属栏目：[Python] 日期：2020-12-16 热度：140

以前写过一个刷校内网的人气的工具，Java的(以后再也不行Java程序了)，里面用到了验证码识别，那段代码不是我自己写的:-) 校内的验证是完全单色没有任何干挠的验证码，识别起来比较容易，不过从那段代码中可以看到基本的验证码识别方式。这几天在写一个程序[详细]
Python编程中对文件和存储器的读写示例

所属栏目：[Python] 日期：2020-12-16 热度：64

1.文件的写入和读取 #!/usr/bin/python # -*- coding: utf-8 -*- # Filename: using_file.py # 文件是创建和读取 s = '''''我们都是木头人，不许说话不许动！''' # 创建一个文件，并且写入字符 f = file('test_file.txt','w') f.write(s) f.close() # 读取[详细]
python黑魔法之编码转换

所属栏目：[Python] 日期：2020-12-16 热度：89

我们在使用其他语言的库做编码转换时，对于无法理解的字符，通常的处理也只有两种（或三种）：抛异常替换成替代字符跳过但是在复杂的现实世界中，由于各种不靠谱，我们处理的文本总会出现那么些不和谐因素，比如混合编码。在这种情况下，又回到了上面的[详细]
在MAC上搭建python数据分析开发环境

所属栏目：[Python] 日期：2020-12-16 热度：71

最近工作转型到数据开发领域，想在本地搭建一个数据开发环境。自己有三年python开发经验，马上想到使用numpy、scipy、sklearn、pandas搭建一套数据开发环境。 ubuntu的环境，百度中文章比较多，搭建起来非常顺利。MAC环境的资料比较少，百度出来的，已经不对[详细]
python中的编码知识整理汇总

所属栏目：[Python] 日期：2020-12-16 热度：122

问题在平时工作中，遇到了这样的错误： UnicodeDecodeError: 'ascii' codec can't decode byte 想必大家也都碰到过，很常见。于是决定对python的编码做一个整理和学习。基础知识在python2.x中，有两种数据类型，unicode和str，这两个都是basestring的子[详细]
Python函数中*args和**kwargs来传递变长参数的用法

所属栏目：[Python] 日期：2020-12-16 热度：140

单星号形式(*args)用来传递非命名键可变参数列表。双星号形式(**kwargs)用来传递键值可变参数列表。下面的例子，传递了一个固定位置参数和两个变长参数。 def test_var_args(farg,*args): print "formal arg:",farg for arg in args: print "another arg:",[详细]
举例讲解Python设计模式编程中的访问者与观察者模式

所属栏目：[Python] 日期：2020-12-16 热度：105

访问者模式我觉得Visitor模式是在补修改已有程序结构前提下，通过添加额外的访问者完成对代码功能的拓展为什么这样用？当你的类层次较多，在某层结构中增加新的方法，要是在基类上面添加或者变更，可能破坏原来的设计，有兼容问题，所以只在需要的类上面[详细]

24045

首页

840