加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – Spark DataFrame中的条件连接

发布时间:2020-12-16 09:58:44 所属栏目:安全 来源:网络整理
导读:我正在尝试使用条件加入两个DataFrame. 我有两个数据帧A和B. A包含id,m_cd和c_cd列 B包含m_cd,c_cd和记录列 条件是 – 如果m_cd为null,则将A的c_cd与B连接 如果m_cd不为null,则将A的m_cd与B连接 我们可以在dataframe的withcolumn()方法中使用“when”和“oth
我正在尝试使用条件加入两个DataFrame.

我有两个数据帧A和B.

A包含id,m_cd和c_cd列
B包含m_cd,c_cd和记录列

条件是 –

>如果m_cd为null,则将A的c_cd与B连接
>如果m_cd不为null,则将A的m_cd与B连接

我们可以在dataframe的withcolumn()方法中使用“when”和“otherwise()”,那么对于数据帧中的join的情况有没有办法做到这一点.

我已经使用Union完成了这项工作.但是想知道是否有其他选项可用.

解决方法

您可以在连接条件中使用“when”/“otherwise”:

case class Foo(m_cd: Option[Int],c_cd: Option[Int])
val dfA = spark.createDataset(Array(
    Foo(Some(1),Some(2)),Foo(Some(2),Some(3)),Foo(None: Option[Int],Some(4))
))


val dfB = spark.createDataset(Array(
    Foo(Some(1),Some(5)),Some(6)),Foo(Some(10),Some(4))
))

val joinCondition = when($"a.m_cd".isNull,$"a.c_cd"===$"b.c_cd")
    .otherwise($"a.m_cd"===$"b.m_cd")

dfA.as('a).join(dfB.as('b),joinCondition).show

但是,使用联合可能仍然更具可读性.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读