scala – Spark Dataframe更改列值

发布时间：2020-12-16 18:42:01 所属栏目：安全来源：网络整理

导读：我得到了一些170列的数据帧.在一列中,我有一个“名称”字符串,当我将它们写入Postgres时,这个字符串有时会有一些特殊符号,如“’”,这些符号是不合适的. 我可以做那样的事情： Df[$'name']=Df[$'name'].map(x = x.replaceAll("'","")) ? 我不想解析完整的Dat

我得到了一些170列的数据帧.在一列中,我有一个“名称”字符串,当我将它们写入Postgres时,这个字符串有时会有一些特殊符号,如“’”,这些符号是不合适的.
我可以做那样的事情：

Df[$'name']=Df[$'name'].map(x => x.replaceAll("'","")) ?

我不想解析完整的DataFrame,因为它非常庞大.请帮助我

解决方法

您不能改变DataFrame,只能将它们转换为具有更新值的新DataFrame.在这种情况下 – 您可以使用regex_replace函数在name列上执行映射：

import org.apache.spark.sql.functions._
val updatedDf = Df.withColumn("name",regexp_replace(col("name"),",""))

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!