加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – Spark DataFrame类的union()方法在哪里?

发布时间:2020-12-15 05:13:35 所属栏目:Java 来源:网络整理
导读:我正在使用Spark的JAVA连接器,并希望结合两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复? 解决方法 Is this intentional 如果认为可以安全地假设它是故意的.其他联合运算符如RDD.union和DataSet.union
我正在使用Spark的JAVA连接器,并希望结合两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复?

解决方法

Is this intentional

如果认为可以安全地假设它是故意的.其他联合运算符如RDD.union和DataSet.union也将保留重复.

如果你认为它是有道理的.虽然等同于UNION ALL的操作只是一个逻辑操作,它不需要数据访问或网络流量查找不同的元素需要随机播放,因此可能非常昂贵.

is there a way to union two DataFrames without duplicates?

df1.unionAll(df2).distinct()

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读