scala中的MinMax规范化

发布时间：2020-12-16 09:27:45 所属栏目：安全来源：网络整理

导读：我有一个包含多列的org.apache.spark.sql.DataFrame.我想使用MinMax Normalization或任何技术缩放1列(lat_long_dist)以在-1和1之间缩放数据,并将数据类型保留为org.apache.spark.sql.DataFrame scala val df = sqlContext.csvFile("tenop.csv")df: org.apach

我有一个包含多列的org.apache.spark.sql.DataFrame.我想使用MinMax Normalization或任何技术缩放1列(lat_long_dist)以在-1和1之间缩放数据,并将数据类型保留为org.apache.spark.sql.DataFrame

scala> val df = sqlContext.csvFile("tenop.csv")
df: org.apache.spark.sql.DataFrame = [gst_id_matched: string,ip_crowding: string,lat_long_dist: double,stream_name_1: string]

我找到了StandardScaler选项,但是在我可以进行转换之前需要转换数据集.这是一种简单的干净方式.

解决方法

我猜你想要的是这样的

import org.apache.spark.sql.Row
import org.apache.spark.sql.functions.{min,max,lit}

val df = sc.parallelize(Seq(
  (1L,0.5),(2L,10.2),(3L,5.7),(4L,-11.0),(5L,22.3)
)).toDF("k","v")

val (vMin,vMax) = df.agg(min($"v"),max($"v")).first match {
  case Row(x: Double,y: Double) => (x,y)
}

val scaledRange = lit(2) // Range of the scaled variable
val scaledMin = lit(-1)  // Min value of the scaled variable
val vNormalized = ($"v" - vMin) / (vMax - vMin) // v normalized to (0,1) range

val vScaled = scaledRange * vNormalized + scaledMin

df.withColumn("vScaled",vScaled).show

// +---+-----+--------------------+
// |  k|    v|             vScaled|
// +---+-----+--------------------+
// |  1|  0.5| -0.3093093093093092|
// |  2| 10.2| 0.27327327327327344|
// |  3|  5.7|0.003003003003003...|
// |  4|-11.0|                -1.0|
// |  5| 22.3|                 1.0|
// +---+-----+--------------------+

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!