加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – csv文件上的PySpark distinct().count()

发布时间:2020-12-16 23:36:51 所属栏目:Python 来源:网络整理
导读:我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count(). Csv结构(没有标题): id,country,type01,AU,s102,s203,GR,s2 加载.csv我输入: lines = sc.textFile("test.txt") 然后对行返回3的不同计数如预期: lines.distinct().count() 但我不知
我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count().

Csv结构(没有标题):

id,country,type
01,AU,s1
02,s2
03,GR,s2

加载.csv我输入:

lines = sc.textFile("test.txt")

然后对行返回3的不同计数如预期:

lines.distinct().count()

但我不知道如何基于让我们说id和国家来做出明显的计数.

解决方法

在这种情况下,您将选择要考虑的列,然后计数:
sc.textFile("test.txt")
  .map(lambda line: (line.split(',')[0],line.split(',')[1]))
  .distinct()
  .count()

这是为了清楚起见,您可以优化lambda以避免调用line.split两次.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读