加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习 – 如何重新分区pyspark数据帧?

发布时间:2020-12-14 04:44:03 所属栏目:大数据 来源:网络整理
导读:data.rdd.getNumPartitions() # output 2456 然后我做 ????data.rdd.repartition(3000) 但 ????data.rdd.getNumPartitions()#output仍然是2456 如何更改分区数量.一种方法可以是首先将DF转换为rdd,重新分区然后将rdd转换回DF.但这需要很多时间. 越来越多的分
data.rdd.getNumPartitions() # output 2456

然后我做
????data.rdd.repartition(3000)

????data.rdd.getNumPartitions()#output仍然是2456

如何更改分区数量.一种方法可以是首先将DF转换为rdd,重新分区然后将rdd转换回DF.但这需要很多时间.
越来越多的分区是否使操作更加分散,因此更快?
谢谢

解决方法

您可以检查分区数量:

data.rdd.partitions.size

要更改分区数:

newDF = data.repartition(3000)

您可以检查分区数量:

newDF.rdd.partitions.size

在重新分区时要小心数据随机播放,这很昂贵.如果需要,看看合并.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读