scala – Spark DataFrame中的条件连接
发布时间:2020-12-16 09:58:44 所属栏目:安全 来源:网络整理
导读:我正在尝试使用条件加入两个DataFrame. 我有两个数据帧A和B. A包含id,m_cd和c_cd列 B包含m_cd,c_cd和记录列 条件是 – 如果m_cd为null,则将A的c_cd与B连接 如果m_cd不为null,则将A的m_cd与B连接 我们可以在dataframe的withcolumn()方法中使用“when”和“oth
我正在尝试使用条件加入两个DataFrame.
我有两个数据帧A和B. A包含id,m_cd和c_cd列 条件是 – >如果m_cd为null,则将A的c_cd与B连接 我们可以在dataframe的withcolumn()方法中使用“when”和“otherwise()”,那么对于数据帧中的join的情况有没有办法做到这一点. 我已经使用Union完成了这项工作.但是想知道是否有其他选项可用. 解决方法
您可以在连接条件中使用“when”/“otherwise”:
case class Foo(m_cd: Option[Int],c_cd: Option[Int]) val dfA = spark.createDataset(Array( Foo(Some(1),Some(2)),Foo(Some(2),Some(3)),Foo(None: Option[Int],Some(4)) )) val dfB = spark.createDataset(Array( Foo(Some(1),Some(5)),Some(6)),Foo(Some(10),Some(4)) )) val joinCondition = when($"a.m_cd".isNull,$"a.c_cd"===$"b.c_cd") .otherwise($"a.m_cd"===$"b.m_cd") dfA.as('a).join(dfB.as('b),joinCondition).show 但是,使用联合可能仍然更具可读性. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |