使用pandas read_csv和nrows读取~13000行CSV文件的部分内容
发布时间:2020-12-16 21:41:19 所属栏目:Python 来源:网络整理
导读:我正在尝试将CS??V文件的片段读入pandas DataFrame,当我将nrows设置为超过某个点时,我遇到了麻烦.我的CSV文件被拆分为具有不同标题/数据类型的不同段,因此我浏览了该文件并找到了不同段的行号,并保存了行号.当我尝试做的时候: pd.io.parsers.read_csv('file
我正在尝试将CS??V文件的片段读入pandas DataFrame,当我将nrows设置为超过某个点时,我遇到了麻烦.我的CSV文件被拆分为具有不同标题/数据类型的不同段,因此我浏览了该文件并找到了不同段的行号,并保存了行号.当我尝试做的时候:
pd.io.parsers.read_csv('filename',skiprows=40,nrows=12646) 它工作正常.更多行,它会抛出一个错误: CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897,saw 71 确实,13897行有那么多行,这就是我试图使用nrows和skiprows的原因.我可以找到pandas将读取的最后一行,它与其余部分看起来没什么不同.在十六进制编辑器中查看文件,我仍然没有看到任何区别. 我也尝试过另一个CSV文件,我得到了类似的结果: pd.io.parsers.read_csv('file2',skiprows=112,nrows=18524) <class 'pandas.core.frame.DataFrame'> Int64Index: 18188 entries,0 to 18187 但: pd.io.parsers.read_csv('file2',nrows=18525) 得到: CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190,saw 71 有什么我想念的吗?还有另一种方法吗? 我在Windows上使用:pandas-0.10.1.win-amd64-py3.3,numpy-MKL-1.7.1rc1.win-amd64-py3.3和python-3.3.0.amd64.我在numpy-unoptimized-1.7.1rc1.win-amd64-py3.3中遇到了同样的问题. 解决方法
您可以使用warn_bad_lines和error_bad_lines来关闭坏线错误&警告:
import pandas as pd from StringIO import StringIO data = StringIO("""a,b,c 1,2,3 4,5,6 6,7,8,9 1,5 3,4,5""") pd.read_csv(data,warn_bad_lines=False,error_bad_lines=False) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |