unix – 当你有足够的内存时,最快的排序巨大的(50-100 GB)文件的
发布时间:2020-12-16 01:24:32 所属栏目:安全 来源:网络整理
导读:当数据不适合内存时,有关于在Unix上排序大量文件的主题,有很多关于网络的讨论.一般使用mergeesort和variant. 如果假设有足够的记忆来适应整个数据,那么可能是最有效/最快的排序方式呢? csv文件是?50 GB( 10亿行),并且有足够的内存(5倍的数据大小)来保存整个
当数据不适合内存时,有关于在Unix上排序大量文件的主题,有很多关于网络的讨论.一般使用mergeesort和variant.
如果假设有足够的记忆来适应整个数据,那么可能是最有效/最快的排序方式呢? csv文件是?50 GB(> 10亿行),并且有足够的内存(5倍的数据大小)来保存整个数据. 我可以使用Unix排序,但仍然需要> 1小时.我可以使用任何必要的语言,但我主要寻找的是速度.我明白我们可以把数据加载到一个柱状的db表和排序中,但这是一次性的努力,所以寻找更灵活的东西… 提前致谢.
对大数据使用并行排序算法.
有用的主题: (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |