加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

如何从Scala方法创建UDF(计算md5)?

发布时间:2020-12-16 18:06:46 所属栏目:安全 来源:网络整理
导读:我想从两个已经工作的函数构建一个UDF.我正在尝试将md5哈希计算为现有Spark Dataframe的新列. def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}def toHex(bytes: Array[Byte]): String = bytes.map("%
我想从两个已经工作的函数构建一个UDF.我正在尝试将md5哈希计算为现有Spark Dataframe的新列.

def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

结构(到目前为止我有什么)

val md5_hash: // UDF Implementation
val sqlfunc = udf(md5_hash)
val new_df = load_df.withColumn("New_MD5_Column",sqlfunc(col("Duration")))

不幸的是,我不知道如何将该函数作为UDF实现.

解决方法

您可以使用以下命名为md5的udf函数

import org.apache.spark.sql.functions._
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")
def md5 = udf((s: String) => toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8"))))

val new_df = load_df.withColumn("New_MD5_Column",md5(col("Duration")))

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读