如何使用Scala从Spark中的List或Array创建Row

发布时间：2020-12-16 09:26:27 所属栏目：安全来源：网络整理

导读：我正在尝试根据用户输入创建一个Row(org.apache.spark.sql.catalyst.expressions.Row).我无法随机创建一行. 是否有任何功能可以从列表或数组创建行. 例如,如果我有一个.csv文件,格式如下, "91xxxxxxxxxx,21.31,15,0" 如果用户输入[1,2],那么我只需要第二列和

我正在尝试根据用户输入创建一个Row(org.apache.spark.sql.catalyst.expressions.Row).我无法随机创建一行.

是否有任何功能可以从列表或数组创建行.

例如,如果我有一个.csv文件,格式如下,

"91xxxxxxxxxx,21.31,15,0"

如果用户输入[1,2],那么我只需要第二列和第三列以及第一列customer_id

我尝试用代码解析它：

val l3 = sc.textFile("/SparkTest/abc.csv").map(_.split(" ")).map(r => (foo(input,r(0)))) `

其中foo定义为

def f(n: List[Int],s: String) : Row = {
    val n = input.length
    var out = new Array[Any](n+1)
    var r = s.split(",")
    out(0) = r(0)
    for (i <- 1 to n)
        out(i) = r(input(i-1)).toDouble
    Row(out)
}

和输入是一个List说

val input = List(1,2)

执行此代码我得到l3：

Array[org.apache.spark.sql.Row] = Array([[Ljava.lang.Object;@234d2916])

但我想要的是：

Array[org.apache.spark.sql.catalyst.expressions.Row] = Array([9xxxxxxxxxx,15])`

必须传递此内容才能在Spark SQL中创建模式

解决方法

像下面这样的东西应该工作：

import org.apache.spark.sql._

def f(n: List[Int],s: String) : Row =
  Row.fromSeq(s.split(",").zipWithIndex.collect{case (a,b) if n.contains(b) => a}.toSeq)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!