加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

合并python或numpy中的记录

发布时间:2020-12-20 11:23:08 所属栏目:Python 来源:网络整理
导读:我有一个csv文件,其中第一列包含标识符,第二列包含相关数据.标识符被复制任意次数,因此文件看起来像这样. data1,123 data1,345 data1,432 data2,654 data2,431 data3,947 data3,673 我想合并记录,为每个标识符生成一条记录并获取. data1,123,345,432 data2,6
我有一个csv文件,其中第一列包含标识符,第二列包含相关数据.标识符被复制任意次数,因此文件看起来像这样.
data1,123
data1,345
data1,432
data2,654
data2,431
data3,947
data3,673

我想合并记录,为每个标识符生成一条记录并获取.
data1,123,345,432
data2,654,431
data3,947,673

有没有一种有效的方法在python或numpy中执行此操作?由于重复键,字典似乎没有了.目前,我在列表列表中有行,然后循环并使用列表中索引0处的先前值测试身份,但这非常笨拙.谢谢你的帮助.

解决方法

如果第一列中给定值的所有实例都是连续的,则这是 itertools.groupby的完美用例.它将使用如下所示:

from itertools import groupby
from csv import reader
from operator import itemgetter

with open(filename) as f:
     for k,g in groupby(reader(f),key=itemgetter(0)):
         record = ','.join(k,*g)
         # do something with record,e.g. write to a file

(你可能要做’,’.join(k,* list(g))或类似的东西,我现在无法测试它)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读