Python pandas重复值错误

发布时间：2020-12-20 13:30:12 所属栏目：Python 来源：网络整理

导读：我有一个大的制表符分隔数据文件,我想使用pandas“read_csv或’read_table’函数在 python中读取它.当我读这个大文件时,它显示以下错误,即使关闭”index_col“值. read_csv("test_data.txt",sep = "t",header=0,index_col=None)Traceback (most recent call

我有一个大的制表符分隔数据文件,我想使用pandas“read_csv或’read_table’函数在 python中读取它.当我读这个大文件时,它显示以下错误,即使关闭”index_col“值.

>>> read_csv("test_data.txt",sep = "t",header=0,index_col=None)
Traceback (most recent call last):
  File "<stdin>",line 1,in <module>
  File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 187,in read_csv
    return _read(TextParser,filepath_or_buffer,kwds)
  File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 160,in _read
    return parser.get_chunk()
  File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/parsers.py",line 613,in get_chunk
    raise Exception(err_msg)
Exception: Implicit index (columns 0) have duplicate values [372,1325,1497,1636,2486,<br> 2679,3032,3125,4261,4669,5215,5416,5569,5783,5821,6053,6597,6835,7485,7629,7684,7827,8590,9361,10194,11199,11707,11782,12397,15134,15299,15457,15637,16147,17448,<br> 17659,18146,18153,18398,18469,19128,19433,19702,19830,19940,20284,21724,22764,23514,25095,25195,25258,25336,27011,28059,28418,28637,30213,30221,30574,30611,30871,31471,.......

我以为我的数据中可能有重复值,因此使用grep将其中一些值重定向到文件中.

grep "9996744|9965107|740645|9999752" test_data.txt > delnow.txt

现在,当我读到这个文件时,它正确读取,如下所示.

>>> read_table("delnow.txt",index_col=None)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries,0 to 19
Data columns:
0740645                                                                 20  non-null values
M                                                                       20  non-null values
BLACK/CAPE VERDEAN                                                      20  non-null values

这里发生了什么？我正在努力寻求解决方案,但无济于事.

我还尝试在unix中使用’uniq’命令来查看是否存在重复行但找不到任何行.

它是否必须使用大小的东西？

我正在使用以下版本的熊猫

>>> pandas.__version__
'0.7.3'
>>>

解决方法

已安装的熊猫最新版本.

我现在能读.

>>> import pandas
>>> pandas.__version__
'0.8.1'

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!