scala – 删除Spark DataFrame的第一行
发布时间:2020-12-16 18:08:46 所属栏目:安全 来源:网络整理
导读:我的Spark / Scala代码中有一个DataData类型的变量rawData. 我想删除第一个元素,如下所示: rawData.drop(1) 但是,丢弃功能不可用. 删除第一个元素的最简单方法是什么? 解决方法 要回答这个问题,我们首先必须澄清什么是DataFrame的第一个元素,因为我们不是
我的Spark /
Scala代码中有一个DataData类型的变量rawData.
我想删除第一个元素,如下所示: rawData.drop(1) 但是,丢弃功能不可用. 删除第一个元素的最简单方法是什么? 解决方法
要回答这个问题,我们首先必须澄清什么是DataFrame的第一个元素,因为我们不是在谈论放置在单个机器上的有序集合,而是在处理分布式集合而在分区之间没有特定的顺序,所以答案并不明显.
如果您想从每个分区中删除第一个元素,您可以使用: df.mapPartitions(iterator => iterator.drop(1)) 如果要从第一个分区中删除第一个元素,可以使用: val rdd = df.rdd.mapPartitionsWithIndex{ case (index,iterator) => if(index==0) iterator.drop(1) else iterator } sqlContext.createDataFrame(rdd,df.schema) 这两种解决方案都不是很优雅,而且看起来很糟糕,知道完整的用例会很有趣,也许有更好的方法. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |