Python pandas重复值错误
发布时间:2020-12-20 13:30:12 所属栏目:Python 来源:网络整理
导读:我有一个大的制表符分隔数据文件,我想使用pandas“read_csv或’read_table’函数在 python中读取它.当我读这个大文件时,它显示以下错误,即使关闭”index_col“值. read_csv("test_data.txt",sep = "t",header=0,index_col=None)Traceback (most recent call
我有一个大的制表符分隔数据文件,我想使用pandas“read_csv或’read_table’函数在
python中读取它.当我读这个大文件时,它显示以下错误,即使关闭”index_col“值.
>>> read_csv("test_data.txt",sep = "t",header=0,index_col=None) Traceback (most recent call last): File "<stdin>",line 1,in <module> File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 187,in read_csv return _read(TextParser,filepath_or_buffer,kwds) File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 160,in _read return parser.get_chunk() File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 613,in get_chunk raise Exception(err_msg) Exception: Implicit index (columns 0) have duplicate values [372,1325,1497,1636,2486,<br> 2679,3032,3125,4261,4669,5215,5416,5569,5783,5821,6053,6597,6835,7485,7629,7684,7827,8590,9361,10194,11199,11707,11782,12397,15134,15299,15457,15637,16147,17448,<br> 17659,18146,18153,18398,18469,19128,19433,19702,19830,19940,20284,21724,22764,23514,25095,25195,25258,25336,27011,28059,28418,28637,30213,30221,30574,30611,30871,31471,....... 我以为我的数据中可能有重复值,因此使用grep将其中一些值重定向到文件中. grep "9996744|9965107|740645|9999752" test_data.txt > delnow.txt 现在,当我读到这个文件时,它正确读取,如下所示. >>> read_table("delnow.txt",index_col=None) <class 'pandas.core.frame.DataFrame'> Int64Index: 20 entries,0 to 19 Data columns: 0740645 20 non-null values M 20 non-null values BLACK/CAPE VERDEAN 20 non-null values 这里发生了什么?我正在努力寻求解决方案,但无济于事. 我还尝试在unix中使用’uniq’命令来查看是否存在重复行但找不到任何行. 它是否必须使用大小的东西? 我正在使用以下版本的熊猫 >>> pandas.__version__ '0.7.3' >>> 解决方法
已安装的熊猫最新版本.
我现在能读. >>> import pandas >>> pandas.__version__ '0.8.1' (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |