-
Python使用Mechanize模块编写爬虫的要点解析
所属栏目:[Python] 日期:2020-12-16 热度:178
mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。 下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和[详细]
-
Python使用BeautifulSoup库解析HTML基本使用教程
所属栏目:[Python] 日期:2020-12-16 热度:105
BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。 准备 1.Beautiful Soup安装 为了能够对页面中的内容进行解析,本文使用Beautiful[详细]
-
python基于隐马尔可夫模型实现中文拼音输入
所属栏目:[Python] 日期:2020-12-16 热度:87
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实[详细]
-
python制作爬虫并将抓取结果保存到excel中
所属栏目:[Python] 日期:2020-12-16 热度:126
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。 第一步:分析网站的请求过程 我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器[详细]
-
python文件的md5加密方法
所属栏目:[Python] 日期:2020-12-16 热度:174
本篇章节讲解python文件的md5加密方法。供大家参考研究具体如下: 简单模式: from hashlib import md5def md5_file(name): m = md5() a_file = open(name,'rb') #需要使用二进制格式读取文件内容 m.update(a_file.read()) a_file.close() return[详细]
-
python socket多线程通讯实例分析(聊天室)
所属栏目:[Python] 日期:2020-12-16 热度:131
本篇章节讲解python socket多线程通讯方法。供大家参考研究具体如下: #!/usr/bin/evn python"""这是一个Socket+多进程的例子(聊天服务端)"""import socketimport threading# 处理中文数据用的encoding = "GBK"def HKServer(client,addr): """[详细]
-
python多进程共享变量
所属栏目:[Python] 日期:2020-12-16 热度:146
本文实例为大家分享了python多进程共享变量的相关代码,供大家参考,具体内容如下 from multiprocessing import Process,Managerimport osimport time class MulFun(): def __init__(self): self.a = [1,2,3,4,5] self.b = 0 self.c = {} self.s = "hello wo[详细]
-
Python检测网站链接是否已存在
所属栏目:[Python] 日期:2020-12-16 热度:124
Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。 Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。 像Perl语言一样,Python 源代码同样遵循 GPL(GNU General Public License)协议。 早就听说Python语言操作简单,果[详细]
-
Python Requests 基础入门
所属栏目:[Python] 日期:2020-12-16 热度:166
首先,Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 不友好。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务,所以学习reuqests模块,比较简洁好用(以后慢慢会学[详细]
-
Python Requests安装与简单运用
所属栏目:[Python] 日期:2020-12-16 热度:70
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。 我也看了下requests[详细]
-
Python抓取电影天堂电影信息的代码
所属栏目:[Python] 日期:2020-12-16 热度:138
Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面。链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 import urllib2import osimport reimport string# 电影URL集合movieUrls = []# 获取电影列表def queryMovieLi[详细]
-
python调用fortran模块
所属栏目:[Python] 日期:2020-12-16 热度:58
在python中调用fortran代码,要用到f2py这个程序。它的项目主页在此。现在该项目已经合并到numpy中了,先安装python再装好numpy,就可以使用f2py。不过对windows平台必须使用gnu的fortran编译器gfortran,在此下载。装完了python,numpy和gfortran这三样东西[详细]
-
Python调用SQLPlus来操作和解析Oracle数据库的方法
所属栏目:[Python] 日期:2020-12-16 热度:189
先来看一个简单的利用python调用sqlplus来输出结果的例子: import osimport sysfrom subprocess import Popen,PIPE sql = """set linesize 400col owner for a10col object_name for a30 select owner,object_name from dba_objects where rownum=10;""" pr[详细]
-
Python使用gensim计算文档相似性
所属栏目:[Python] 日期:2020-12-16 热度:117
pre_file.py #-*-coding:utf-8-*-import MySQLdbimport MySQLdb as mdbimport os,sys,stringimport jiebaimport codecsreload(sys)sys.setdefaultencoding('utf-8')#连接数据库try: conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='t[详细]
-
python脚本实现xls(xlsx)转成csv
所属栏目:[Python] 日期:2020-12-16 热度:130
# xls_csv 把xls,xlsx格式的文档转换成csv格式 # 使用 python xls2csv.py xls or xlsx file path # -*- coding: utf-8 -*-import xlrdimport xlwtimport sysfrom datetime import date,datetime def read_excel(filename): workbook = xlrd.open_workbook(fi[详细]
-
python中的错误处理
所属栏目:[Python] 日期:2020-12-16 热度:178
用错误码来表示是否出错十分不便,因为函数本身应该返回的正常结果和错误码混在一起,造成调用者必须用大量的代码来判断是否出错: def foo(): r = some_function() if r==(-1): return (-1) # do something return rdef bar(): r = foo() if r==(-1): print[详细]
-
Python的Django REST框架中的序列化及请求和返回
所属栏目:[Python] 日期:2020-12-16 热度:53
序列化Serialization 1. 设置一个新的环境 在我们开始之前, 我们首先使用virtualenv要创建一个新的虚拟环境,以使我们的配置和我们的其他项目配置彻底分开。 $mkdir ~/env$virtualenv ~/env/tutorial$source ~/env/tutorial/bin/avtivate 现在我们处在一个[详细]
-
使用Python的Django框架结合jQuery实现AJAX购物车页面
所属栏目:[Python] 日期:2020-12-16 热度:121
Django中集成jquery 首先,静态的资源通常放入static文件夹中: static/ css/ djquery.css samples/ hello.css js/ jquery-1.7.1.min.js samples/ hello.js 其中css和js都按照应用名称(这里是samples)划分文件夹,如果文件较多,还可以再划分子文件夹。 Dj[详细]
-
对Python的Django框架中的项目进行单元测试的方法
所属栏目:[Python] 日期:2020-12-16 热度:128
Python中的单元测试 我们先来回顾一下Python中的单元测试方法。 下面是一个 Python的单元测试简单的例子: 假如我们开发一个除法的功能,有的同学可能觉得很简单,代码是这样的: def division_funtion(x,y): return x / y 但是这样写究竟对还是不对呢,有些[详细]
-
用Python写冒泡排序代码
所属栏目:[Python] 日期:2020-12-16 热度:136
python代码实现冒泡排序代码其实很简单,具体代码如下所示: 代码Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-- 1 def bubbleSort(numbers):for j in xrange(len(numbers),-1,-1):for i in xrange(0,[详细]
-
Python脚本简单实现打开默认浏览器登录人人和打开QQ的方法
所属栏目:[Python] 日期:2020-12-16 热度:62
本篇章节讲解Python脚本简单实现打开默认浏览器登录人人和打开QQ的方法。供大家参考研究具体如下: 每天打开电脑第一件事应该就是打开人人刷一下,然后登上QQ。每次都这样很麻烦,于是写了一个脚本,每次双击即可自动完成这两个工作。 注意:需要[详细]
-
Python脚本实现虾米网签到功能
所属栏目:[Python] 日期:2020-12-16 热度:152
本篇章节讲解Python脚本实现虾米网签到功能的方法。供大家参考研究具体如下: 概述 这个脚本完成了自动登录虾米网、签到的功能。 大致要用到urllib、urllib2、cookielib这几个模块。其实就是用python实现向指定的url去post数据。 至于我怎么知道在[详细]
-
python去除文件中空格、Tab及回车的方法
所属栏目:[Python] 日期:2020-12-16 热度:152
本篇章节讲解python去除文件中空格、Tab及回车的方法。供大家参考研究具体如下: 在最近的开发工作中,为了应付比赛赶进度,服务端的json文件都是人工写的,写完之后发现格式都是十分规整,易于人阅读的json,但是客户端请求不需要那些为了格式而[详细]
-
python字符串连接方法分析
所属栏目:[Python] 日期:2020-12-16 热度:150
本文实例分析了python字符串连接方法。供大家参考研究具体如下: python字符串连接有几种方法,把大家可能用到的列出来,第一个方法效率是最低的,另外给大家介绍后面的 2种效率高的方法,希望对大家有帮助。 先介绍下效率比较低的,有些新手朋友就[详细]
-
python 实时遍历日志文件
所属栏目:[Python] 日期:2020-12-16 热度:99
open 遍历一个大日志文件 使用 readlines() 还是 readline() 总体上 readlines() 不慢于python 一次次调用 readline(),因为前者的循环在C语言层面,而使用readline() 的循环是在Python语言层面。 但是 readlines() 会一次性把全部数据读到内存中,内存占用[详细]