python – 如何确定对象是否是PySpark中的有效键值对
>如果我有一个rdd,我如何理解数据在key:value中 最佳答案
Python是一种动态类型语言,PySpark不对键值对使用任何特殊类型.对象被视为PairRDD操作的有效数据的唯一要求是它可以解压缩如下:
通常,由于其语义(固定大小的不可变对象)和与Scala Product类的相似性,您将使用两元素元组.但这只是一个惯例,没有什么可以阻止你这样的事情: key_value.py
并使任意类的行为类似于键值.因此,如果某些东西可以正确解压缩为一对对象,那么它就是一个有效的键值.实现__len__和__getitem__魔术方法也应该有效.可能最优雅的方法是使用namedtuples. 此外,type(rdd.take(1))返回长度为n的列表,因此其类型将始终相同. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |