scala – 使用spark-csv写入单个CSV文件
发布时间:2020-12-16 09:43:55 所属栏目:安全 来源:网络整理
导读:我正在使用 https://github.com/databricks/spark-csv,我试图写一个单一的CSV,但不能,它正在制作一个文件夹。 需要一个scala函数,它将采用路径和文件名等参数,并写入该CSV文件。 解决方法 它正在创建一个包含多个文件的文件夹,因为每个分区都是单独保
我正在使用
https://github.com/databricks/spark-csv,我试图写一个单一的CSV,但不能,它正在制作一个文件夹。
需要一个scala函数,它将采用路径和文件名等参数,并写入该CSV文件。 解决方法
它正在创建一个包含多个文件的文件夹,因为每个分区都是单独保存的。如果您需要单个输出文件(仍在文件夹中),则可以在保存之前重新分区数据框:
df // place all data in a single partition .coalesce(1) .write.format("com.databricks.spark.csv") .option("header","true") .save("mydata.csv") 所有数据将被写入mydata.csv / part-00000。在使用此选项之前,请确保您了解发生了什么,以及将所有数据传输给单个工作人员的成本是多少。如果您使用分布式文件系统进行复制,则数据将被多次传输 – 首先将其提取到单个工作程序,然后分布在存储节点上。 或者,您可以保留代码,并使用像猫或HDFS (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- bash – 输出特定行大文本文件
- bash – 为什么sed replace重定向会删除我的文件?
- angularjs – Angular ui bootstrap手风琴“一次只打开一个
- [转]可考虑在你下一个项目中使用的 50 个 Bootstrap 插件
- angular – Typescript编译器不能跳过导入的js文件
- scala – 创建Akka微内核init脚本的最佳实践
- WebService基础教程之一(概念,如何发布和调用一个简单的W
- scala – `val(A)=(3)`是正确的,但`val(A,B)=(2,3)`无法编译
- AngularJS ng-grid – > afterSelectionChange触发两次
- angularjs – 如何使用ngResource处理3级深层嵌套资源?