加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – pyspark:向数据框Row元素添加一个新字段

发布时间:2020-12-20 12:11:18 所属栏目:Python 来源:网络整理
导读:我有以下元素: a = Row(ts=1465326926253,myid=u'1234567',mytype=u'good') Row是火花数据框Row类.我可以在a中附加一个新字段,所以看起来像: a = Row(ts=1465326926253,mytype=u'good',name = u'john') 谢谢! 解决方法 这是一个有效的更新答案.首先,您必
我有以下元素:

a = Row(ts=1465326926253,myid=u'1234567',mytype=u'good')

Row是火花数据框Row类.我可以在a中附加一个新字段,所以看起来像:

a = Row(ts=1465326926253,mytype=u'good',name = u'john')

谢谢!

解决方法

这是一个有效的更新答案.首先,您必须创建一个字典,然后更新dict,然后将其写入pyspark Row.

代码如下:

from pyspark.sql import Row

#Creating the pysql row
row = Row(field1=12345,field2=0.0123,field3=u'Last Field')

#Convert to python dict
temp = row.asDict()

#Do whatever you want to the dict. Like adding a new field or etc.
temp["field4"] = "it worked!"

# Save or output the row to a pyspark rdd
output = Row(**temp)

#How it looks
output

In [1]:
Row(field1=12345,field3=u'Last Field',field4='it worked!')

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读