机器学习 – 如何重新分区pyspark数据帧?
发布时间:2020-12-14 04:44:03 所属栏目:大数据 来源:网络整理
导读:data.rdd.getNumPartitions() # output 2456 然后我做 ????data.rdd.repartition(3000) 但 ????data.rdd.getNumPartitions()#output仍然是2456 如何更改分区数量.一种方法可以是首先将DF转换为rdd,重新分区然后将rdd转换回DF.但这需要很多时间. 越来越多的分
data.rdd.getNumPartitions() # output 2456 然后我做 如何更改分区数量.一种方法可以是首先将DF转换为rdd,重新分区然后将rdd转换回DF.但这需要很多时间. 解决方法
您可以检查分区数量:
data.rdd.partitions.size 要更改分区数: newDF = data.repartition(3000) 您可以检查分区数量: newDF.rdd.partitions.size 在重新分区时要小心数据随机播放,这很昂贵.如果需要,看看合并. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |