加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 如何在Spark中对嵌套的Dataframe进行flatmap

发布时间:2020-12-16 19:12:10 所属栏目:安全 来源:网络整理
导读:我有嵌套字符串,如下所示.我想平面映射它们以在Spark中生成唯一的行 我的数据框有 A,B,"x,y,z",D 我想将其转换为生成输出 A,x,DA,z,D 我怎样才能做到这一点. 基本上我如何做平面地图并在Dataframe中应用任何功能 谢谢 解决方法 Spark 2.0 Dataset.flatMap:
我有嵌套字符串,如下所示.我想平面映射它们以在Spark中生成唯一的行

我的数据框有

A,B,"x,y,z",D

我想将其转换为生成输出

A,x,D
A,z,D

我怎样才能做到这一点.

基本上我如何做平面地图并在Dataframe中应用任何功能

谢谢

解决方法

Spark 2.0

Dataset.flatMap:

val ds = df.as[(String,String,String)]
ds.flatMap { 
  case (x1,x2,x3,x4) => x3.split(",").map((x1,_,x4))
}.toDF

Spark 1.3.

使用拆分和爆炸functions:

val df = Seq(("A","B","D")).toDF("x1","x2","x3","x4")
df.withColumn("x3",explode(split($"x3",",")))

Spark 1.x

DataFrame.explode(Spark 2.x中不推荐使用)

df.explode($"x3")(_.getAs[String](0).split(",").map(Tuple1(_)))

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读