针对R中非常大的数据集处理和机器学习的推荐包
发布时间:2020-12-14 04:59:41 所属栏目:大数据 来源:网络整理
导读:看起来R真的设计为处理可以完全拉入内存的数据集。什么R包建议用于信号处理和机器学习非常大的数据集,不能拉入内存? 如果R是简单的错误的方式做到这一点,我对其他强大的免费建议(例如scipy如果有一个很好的方式来处理非常大的数据集) 解决方法 看看CRAN上
看起来R真的设计为处理可以完全拉入内存的数据集。什么R包建议用于信号处理和机器学习非常大的数据集,不能拉入内存?
如果R是简单的错误的方式做到这一点,我对其他强大的免费建议(例如scipy如果有一个很好的方式来处理非常大的数据集) 解决方法
看看CRAN上
high performance computing task view的“大内存和内存数据”子部分。
bigmemory和
ff是两个流行的包。对于bigmemory(和相关的
biganalytics和
bigtabulate),
bigmemory website有一些非常好的演示文稿,短片和从杰·艾默生的概述。对于ff,我推荐阅读AdlerOehlschl?gel和他的同事在
ff website的优秀幻灯片演示。
此外,请考虑将数据存储在数据库中,并以较小的批量进行读取以供分析。可能有许多方法需要考虑。为了开始,consdier查看biglm包中的一些例子,以及从Thomas Lumley的this presentation。 并且调查其他包在高性能计算任务视图和其他答案中提到。我上面提到的包只是我碰巧有更多的经验。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |