-
python爬虫防止IP被封的方法
所属栏目:[Python] 日期:2020-12-16 热度:51
在编写爬虫爬取数据的时候,尤其是爬取大量数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了。本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。 伪造User-Agent 在请求头中把User-Ag[详细]
-
用python实现高性能测试工具(二)
所属栏目:[Python] 日期:2020-12-16 热度:130
在上一篇文章《用python实现高性能测试工具(一)》中我们通过换python的解析器来优化性能,但离实际需求还很远。本文介绍的是自动化测试的优化代码。 方案2: 优化代码 工欲善其事,必先利其器。要优化代码,必须先找到代码的瓶颈所在,最土的方法是添加log[详细]
-
用python实现高性能测试工具(一)
所属栏目:[Python] 日期:2020-12-16 热度:119
做过几年开发或者测试开发的人员,时常会觉得很迷茫,新功能的开发或者老功能的维护,基本是在堆代码了。本文主要讲述在系统设计和架构方面的性能优化供大家学习, 有些内容涉及到具体产品,做了些改动或者单独写了测试代码演示。 项目背景: 实现个高性能的[详细]
-
Python学习教程 Pycharm超实用使用教程
所属栏目:[Python] 日期:2020-12-16 热度:63
最近小编在苦学Python,正在用的编译器是PyCharm,本文就是总结了我在网上找到的资源,下面和大家一起分享一下。 一,PyChram下载 官网:http://www.jetbrains.com/pycharm Windows:http://www.jetbrains.com/pycharm/download/#section=windows Linux:http:[详细]
-
Python实现视频爬取
所属栏目:[Python] 日期:2020-12-16 热度:50
Python可以用来做什么?公司里主要是爬取数据,并把爬回来的数据进行分析和挖掘,然而我们自己可以用它来爬取一些资源去使用,比如,想看的剧。本文中,小编将分享爬取视频的代码,大家存起来试试吧! 下载流式文件,requests库中请求的stream设为True就可以[详细]
-
Python爬虫scrapy
所属栏目:[Python] 日期:2020-12-16 热度:76
今天带来scrapy的第二讲,讲道理这个爬虫框架确实不错,但是用起来很多地方好坑,需要大家自己总结了,接下来我们先好好讲讲scrapy的用法机制。 1 命令行工具 list 列出当前项目中所有可用的spider。每行输出一个spider。 $scrapylistspider1spider2 fetch[详细]
-
python爬虫scrapy(一)
所属栏目:[Python] 日期:2020-12-16 热度:102
今天我来教大家用scrapy写python爬虫,安装指南可以参考这里,我们来开始今天的内容。 1 创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令: scrapystartprojectdemo 该命令将会创建包含下列内容的 demo[详细]
-
TabError: Inconsistent use of tabs and spaces in indentation
所属栏目:[Python] 日期:2020-12-16 热度:123
问题现象 编辑python文件保存后运行出现如下报错 TabError: Inconsistent use of tabs and spaces in indentation 问题原因 用了tab键作缩进了 解决方法 找到报错的行,使用把Tab都换成空格就好了[详细]
-
puppeteer爬取数据 await与forEach的问题解决方法
所属栏目:[Python] 日期:2020-12-16 热度:160
在使用puppeteer爬取数据时,遇到了个报错问题,才发现了这个forEach与await的问题。 一、问题 利用搜集到的url,再去爬去对应数据时,我采用了forEach循环爬取,去遇到提示如下:UnhandledPromiseRejectionWarning: Error: Navigation failed because brows[详细]
-
python错误提示“TabError: inconsistent use of tabs and space
所属栏目:[Python] 日期:2020-12-16 热度:157
在遍历打印10以内的奇数是出现“TabError: inconsistent use of tabs and spaces in indentation”的错误提示: 代码如下: 第一感觉没什么错误,但是当我设置显示“空格与制表符”时候,问题出现了,在第4、5行前由制表符,如图所示: 在if和continue前有制[详细]
-
对pandas进行数据预处理的实例讲解
所属栏目:[Python] 日期:2020-12-16 热度:143
参加kaggle数据挖掘比赛,就第一个赛题Titanic的数据,学习相关数据预处理以及模型建立,本博客关注基于pandas进行数据预处理过程。包括数据统计、数据离散化、数据关联性分析 引入包和加载数据 import pandas as pdimport numpy as nptrain_df =pd.read_csv[详细]
-
通过Pandas读取大文件的实例
所属栏目:[Python] 日期:2020-12-16 热度:86
当数据文件过大时,由于计算机内存有限,需要对大文件进行分块读取: import pandas as pdf = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')reader = pd.read_csv(f,sep=',',iterator=True)loop = TruechunkSize = 100000chunks = []while l[详细]
-
Python中第三方库Requests库的高级用法详解
所属栏目:[Python] 日期:2020-12-16 热度:54
一、Requests库的安装 利用 pip 安装,如果你安装了pip包(一款Python包管理工具,不知道可以百度哟),或者集成环境,比如 Python(x,y) 或者anaconda的话,就可以直接使用pip安装Python的库。 $ pip install requests 安装完成之后,下面来看一下基本的方[详细]
-
python3 requests中使用ip代理池随机生成ip的实例
所属栏目:[Python] 日期:2020-12-16 热度:189
啥也不说了,直接上代码吧! # encoding:utf-8import requests # 导入requests模块用于访问测试自己的ipimport randompro = ['1.119.129.2:8080','115.174.66.148','113.200.214.164'] # 在(http://www.xicidaili.com/wt/)上面收集的ip用于测试# 没有使用字[详细]
-
Python操作MySQL数据库的方法
所属栏目:[Python] 日期:2020-12-16 热度:174
pymsql pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。 下载安装 pip3 install pymysql 使用操作 1、执行SQL import pymysql# 创建连接conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='123',db='t1')# 创建游标cu[详细]
-
Python如何读取MySQL数据库表数据
所属栏目:[Python] 日期:2020-12-16 热度:147
本文实例为大家分享了Python读取MySQL数据库表数据的具体代码,供大家参考,具体内容如下 环境:Python 3.6,Window 64bit 目的:从MySQL数据库读取目标表数据,并处理 代码: # -*- coding: utf-8 -*- import pandas as pdimport pymysql ## 加上字符集参数[详细]
-
Python中实现常量(Const)功能
所属栏目:[Python] 日期:2020-12-16 热度:101
python语言本身没有提供const,但实际开发中经常会遇到需要使用const的情形,由于语言本身没有这种支出,因此需要使用一些技巧来实现这一功能 定义const类如下 复制代码 代码如下: import sys class Const(object): class ConstError(TypeException): pass d[详细]
-
Python+pandas计算数据相关系数的实例
所属栏目:[Python] 日期:2020-12-16 热度:106
本文主要演示pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数、Kendall Tau相关系数和spearman秩相关)。 import numpy as np import pandas as pd df = pd.DataFrame({'A':np.random.rand[详细]
-
Python统计python文件中代码,注释及空白对应的行数示例【测试可
所属栏目:[Python] 日期:2020-12-16 热度:167
本篇章节讲解Python实现统计python文件中代码,注释及空白对应的行数。供大家参考研究具体如下: 其实代码和空白行很好统计,难点是注释行 python中的注释分为以#开头的单行注释 或者以'''开头以'''结尾 或以"""开头以"""结尾的文档注释,如: '''he[详细]
-
python 远程统计文件代码分享
所属栏目:[Python] 日期:2020-12-16 热度:79
python 远程统计文件 #!/usr/bin/python#encoding=utf-8import timeimport osimport paramikoimport multiprocessing#统计文件数量def get_total(ip,password,filepath): paramiko.util.log_to_file('paramiko.log') ssh=paramiko.SSHClient() ssh.set_missi[详细]
-
使用python统计文件行数示例分享
所属栏目:[Python] 日期:2020-12-16 热度:164
复制代码 代码如下: import time def block(file,size=65536): while True: nb = file.read(size) if not nb: break yield nb def getLineCount(filename): with open(filename,"r",encoding="utf-8") as f: return sum(line.count("n") for line in block([详细]
-
浅谈dataframe中更改列属性的方法
所属栏目:[Python] 日期:2020-12-16 热度:143
在读取文件时将整数变量读成了字符串,或者需要转换列属性时,通过方法astype Python中 举例: dataframe.numbers=dataframe.numbers.astype(float)province.id=province.id.astype(str) R中 举例: data-read.csv('data.csv',col.names = c('id','sex','numb[详细]
-
Python DataFrame设置/更改列表字段/元素类型的方法
所属栏目:[Python] 日期:2020-12-16 热度:183
Python DataFrame 如何设置列表字段/元素类型? 比如笔者想将列表的两个字段由float64设置为int64,那么就要用到DataFrame的astype属性,举例如图: 该例列表为“m_pred_survived”字段为“PassengerId”及“Survived”,设置为int64类型,最后可以输出检验[详细]
-
python pandas 对series和dataframe的重置索引reindex方法
所属栏目:[Python] 日期:2020-12-16 热度:98
reindex更多的不是修改pandas对象的索引,而只是修改索引的顺序,如果修改的索引不存在就会使用默认的None代替此行。且不会修改原数组,要修改需要使用赋值语句。 series.reindex() import pandas as pdimport numpy as npobj = pd.Series(range(4),index=['[详细]
-
python pandas中对Series数据进行轴向连接的实例
所属栏目:[Python] 日期:2020-12-16 热度:158
有时候我们想要的数据合并结果是数据的轴向连接,在pandas中这可以通过concat来实现。操作的对象通常是Series。 Ipython中的交互代码如下: In [17]: from pandas import Series,DataFrameIn [18]: series1 = Series(range(2),index = ['a','b'])In [19]: se[详细]
