合并python或numpy中的记录

发布时间：2020-12-20 11:23:08 所属栏目：Python 来源：网络整理

导读：我有一个csv文件,其中第一列包含标识符,第二列包含相关数据.标识符被复制任意次数,因此文件看起来像这样. data1,123 data1,345 data1,432 data2,654 data2,431 data3,947 data3,673 我想合并记录,为每个标识符生成一条记录并获取. data1,123,345,432 data2,6

我有一个csv文件,其中第一列包含标识符,第二列包含相关数据.标识符被复制任意次数,因此文件看起来像这样.
data1,123
data1,345
data1,432
data2,654
data2,431
data3,947
data3,673

我想合并记录,为每个标识符生成一条记录并获取.
data1,123,345,432
data2,654,431
data3,947,673

有没有一种有效的方法在python或numpy中执行此操作？由于重复键,字典似乎没有了.目前,我在列表列表中有行,然后循环并使用列表中索引0处的先前值测试身份,但这非常笨拙.谢谢你的帮助.

解决方法

如果第一列中给定值的所有实例都是连续的,则这是 itertools.groupby的完美用例.它将使用如下所示：

from itertools import groupby
from csv import reader
from operator import itemgetter

with open(filename) as f:
     for k,g in groupby(reader(f),key=itemgetter(0)):
         record = ','.join(k,*g)
         # do something with record,e.g. write to a file

(你可能要做’,’.join(k,* list(g))或类似的东西,我现在无法测试它)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!