scala – 如何比较多行？

发布时间：2020-12-16 09:24:36 所属栏目：安全来源：网络整理

导读：我想将两个连续的行i与col2的i-1进行比较(按col1排序). 如果第i行的item_i和item_ [i-1] _row不同,我想将item_ [i-1]的计数增加1. +--------------+| col1 col2 |+--------------+| row_1 item_1 || row_2 item_1 || row_3 item_2 || row_4 item_1 || row_5

我想将两个连续的行i与col2的i-1进行比较(按col1排序).

如果第i行的item_i和item_ [i-1] _row不同,我想将item_ [i-1]的计数增加1.

+--------------+
| col1 col2    |
+--------------+
| row_1 item_1 |
| row_2 item_1 |
| row_3 item_2 |
| row_4 item_1 |
| row_5 item_2 |
| row_6 item_1 |
+--------------+

在上面的示例中,如果我们一次向下扫描两行,我们会看到row_2和row_3不同,因此我们在item_1中添加了一行.接下来,我们看到row_3与row_4不同,然后将一个添加到item_2.继续,直到我们最终：

+-------------+
|  col2  col3 |
+-------------+
|  item_1  2  |
|  item_2  2  |
+-------------+

解决方法

您可以使用窗口函数和聚合的组合来执行此操作. window函数用于获取col2的下一个值(使用col1进行排序).然后聚合计算我们遇到差异的次数.这在以下代码中实现：

val data = Seq(
  ("row_1","item_1"),("row_2",("row_3","item_2"),("row_4",("row_5",("row_6","item_1")).toDF("col1","col2")

import org.apache.spark.sql.expressions.Window
val q = data.
  withColumn("col2_next",coalesce(lead($"col2",1) over Window.orderBy($"col1"),$"col2")).
  groupBy($"col2").
  agg(sum($"col2" =!= $"col2_next" cast "int") as "col3")

scala> q.show
17/08/22 10:15:53 WARN WindowExec: No Partition Defined for Window operation! Moving all data to a single partition,this can cause serious performance degradation.
+------+----+
|  col2|col3|
+------+----+
|item_1|   2|
|item_2|   2|
+------+----+

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!