scala – 将RDD分区写入其自己目录中的单个镶木地板文件
发布时间:2020-12-16 09:25:47 所属栏目:安全 来源:网络整理
导读:我正在努力处理我想要编写每个RDD分区以将镶木地板文件与其自己的目录分开的步骤.示例将是: root entity=entity1 year=2015 week=45 data_file.parquet 这种格式的优点是我可以直接在SparkSQL中使用它作为列,我不必在实际文件中重复这些数据.这是获得特定分
我正在努力处理我想要编写每个RDD分区以将镶木地板文件与其自己的目录分开的步骤.示例将是:
<root> <entity=entity1> <year=2015> <week=45> data_file.parquet 这种格式的优点是我可以直接在SparkSQL中使用它作为列,我不必在实际文件中重复这些数据.这是获得特定分区而不在其他地方存储单独的分区元数据的好方法. 作为前一步,我从大量gzip文件加载所有数据,并根据上述密钥进行分区. 可能的方法是将每个分区作为单独的RDD然后写入,但我找不到任何好的方法. 任何帮助将不胜感激.顺便说一句,我是这个堆栈的新手. 解决方法
我认为通过在要保存的RDD上调用foreachPartition(f:Iterator [T] => Unit)是可能的.
在foreachPartition中提供的函数中: >准备路径hdfs:// localhost:9000 / parquet_data / year = x / week = y (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |