加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

将大量数据从Cassandra导出到CSV

发布时间:2020-12-14 03:18:18 所属栏目:大数据 来源:网络整理
导读:我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了: sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=?2Gb json),需
我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了:

> sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=?2Gb json),需要很多时间才能转储和Cassandra喜欢根据内部机制改变源文件名
> COPY – 在相当快的EC2实例上导致大量记录超时
> CAPTURE – 如上所述,导致超时
>分页阅读 – 我用了timeuuid,但它每秒返回大约15k的记录

我使用Amazon Ec2实例,快速存储,15 Gb RAM和4核

是否有更好的出口千兆字节数据从Cassandra到CSV?

解决方法

因为使用COPY将是非常具有挑战性的,当您尝试从Cassandra导出数百万行的表时,所以我所做的就是创建简单的工具,从Cassandra表中获取块(分页)的数据块,并将其导出为CSV 。

看看我的example solution使用数据仓库的java库。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读