scala中的MinMax规范化
发布时间:2020-12-16 09:27:45 所属栏目:安全 来源:网络整理
导读:我有一个包含多列的org.apache.spark.sql.DataFrame.我想使用MinMax Normalization或任何技术缩放1列(lat_long_dist)以在-1和1之间缩放数据,并将数据类型保留为org.apache.spark.sql.DataFrame scala val df = sqlContext.csvFile("tenop.csv")df: org.apach
我有一个包含多列的org.apache.spark.sql.DataFrame.我想使用MinMax Normalization或任何技术缩放1列(lat_long_dist)以在-1和1之间缩放数据,并将数据类型保留为org.apache.spark.sql.DataFrame
scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.spark.sql.DataFrame = [gst_id_matched: string,ip_crowding: string,lat_long_dist: double,stream_name_1: string] 我找到了StandardScaler选项,但是在我可以进行转换之前需要转换数据集.这是一种简单的干净方式. 解决方法
我猜你想要的是这样的
import org.apache.spark.sql.Row import org.apache.spark.sql.functions.{min,max,lit} val df = sc.parallelize(Seq( (1L,0.5),(2L,10.2),(3L,5.7),(4L,-11.0),(5L,22.3) )).toDF("k","v") val (vMin,vMax) = df.agg(min($"v"),max($"v")).first match { case Row(x: Double,y: Double) => (x,y) } val scaledRange = lit(2) // Range of the scaled variable val scaledMin = lit(-1) // Min value of the scaled variable val vNormalized = ($"v" - vMin) / (vMax - vMin) // v normalized to (0,1) range val vScaled = scaledRange * vNormalized + scaledMin df.withColumn("vScaled",vScaled).show // +---+-----+--------------------+ // | k| v| vScaled| // +---+-----+--------------------+ // | 1| 0.5| -0.3093093093093092| // | 2| 10.2| 0.27327327327327344| // | 3| 5.7|0.003003003003003...| // | 4|-11.0| -1.0| // | 5| 22.3| 1.0| // +---+-----+--------------------+ (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |