加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

如何使用linux或hdfs命令将多个镶木地板文件合并到单个镶木地板

发布时间:2020-12-13 18:49:22 所属栏目:Linux 来源:网络整理
导读:我有多个小的镶木地板文件作为hive ql作业的输出生成,我想将输出文件合并到单个镶木地板文件? 使用一些hdfs或linux命令执行此操作的最佳方法是什么? 我们曾经使用cat命令合并文本文件,但这对于镶木地板也适用吗? 我们可以在编写输出文件时使用HiveQL本身
我有多个小的镶木地板文件作为hive ql作业的输出生成,我想将输出文件合并到单个镶木地板文件?

使用一些hdfs或linux命令执行此操作的最佳方法是什么?

我们曾经使用cat命令合并文本文件,但这对于镶木地板也适用吗?
我们可以在编写输出文件时使用HiveQL本身吗,就像我们如何使用spark中的重新分区或coalesc方法一样?

解决方法

根据这个 https://issues.apache.org/jira/browse/PARQUET-460
现在您可以下载源代码并编译在merge命令中构建的镶木地板工具.
java -jar ./target/parquet-tools-1.8.2-SNAPSHOT.jar merge /input_directory/
        /output_idr/file_name

或者使用像https://github.com/stripe/herringbone这样的工具

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读