scala – 多次火花数据帧组
发布时间:2020-12-16 19:17:45 所属栏目:安全 来源:网络整理
导读:val df = (Seq((1,"a","10"),(1,"b","12"),"c","13"),(2,"14"),"11"),"12" ),(3,"r","11")). toDF("col1","col2","col3")) 所以我有一个包含3列的火花数据帧. 我的要求实际上是我需要执行两个级别的groupby,如下所述. 1级: 如果我在col1上进行groupby并做一
val df = (Seq((1,"a","10"),(1,"b","12"),"c","13"),(2,"14"),"11"),"12" ),(3,"r","11")). toDF("col1","col2","col3")) 所以我有一个包含3列的火花数据帧. 我的要求实际上是我需要执行两个级别的groupby,如下所述. 1级: 级别2: 我的要求实际上是我需要执行两个级别的groupBy并且在最后一个数据帧中具有这两个列(level1的sum(col3),level2的sum(col3)). 我怎么能这样做,任何人都可以解释一下吗? 火花:1.6.2 解决方法
一种选择是分别进行两次求和,然后加入它们:
(df.groupBy("col1","col2").agg(sum($"col3").as("sum_level2")). join(df.groupBy("col1").agg(sum($"col3").as("sum_level1")),Seq("col1")).show) +----+----+----------+----------+ |col1|col2|sum_level2|sum_level1| +----+----+----------+----------+ | 2| c| 23.0| 37.0| | 2| a| 14.0| 37.0| | 1| c| 13.0| 47.0| | 1| b| 24.0| 47.0| | 3| r| 11.0| 11.0| | 1| a| 10.0| 47.0| +----+----+----------+----------+ 另一种选择是使用窗口函数,考虑到level1_sum是由col1分组的level2_sum的总和: import org.apache.spark.sql.expressions.Window val w = Window.partitionBy($"col1") (df.groupBy("col1","col2").agg(sum($"col3").as("sum_level2")). withColumn("sum_level1",sum($"sum_level2").over(w)).show) +----+----+----------+----------+ |col1|col2|sum_level2|sum_level1| +----+----+----------+----------+ | 1| c| 13.0| 47.0| | 1| b| 24.0| 47.0| | 1| a| 10.0| 47.0| | 3| r| 11.0| 11.0| | 2| c| 23.0| 37.0| | 2| a| 14.0| 37.0| +----+----+----------+----------+ (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |