将大量数据从Cassandra导出到CSV
发布时间:2020-12-14 03:18:18 所属栏目:大数据 来源:网络整理
导读:我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了: sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=?2Gb json),需
我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了:
> sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=?2Gb json),需要很多时间才能转储和Cassandra喜欢根据内部机制改变源文件名 我使用Amazon Ec2实例,快速存储,15 Gb RAM和4核 是否有更好的出口千兆字节数据从Cassandra到CSV? 解决方法
因为使用COPY将是非常具有挑战性的,当您尝试从Cassandra导出数百万行的表时,所以我所做的就是创建简单的工具,从Cassandra表中获取块(分页)的数据块,并将其导出为CSV 。
看看我的example solution使用数据仓库的java库。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |