加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

我如何知道当我的数据集在R是太大?

发布时间:2020-12-14 04:59:44 所属栏目:大数据 来源:网络整理
导读:我将要在R中进行一些日志文件分析(除非我不能在R中做),并且我理解我的数据需要适合RAM(除非我使用某种类型的修复像一个keyval存储的接口,也许?)。所以我想知道如何告诉提前时间我的数据将占用多少空间在RAM,以及我是否会有足够的。我知道我有多少RAM(不
我将要在R中进行一些日志文件分析(除非我不能在R中做),并且我理解我的数据需要适合RAM(除非我使用某种类型的修复像一个keyval存储的接口,也许?)。所以我想知道如何告诉提前时间我的数据将占用多少空间在RAM,以及我是否会有足够的。我知道我有多少RAM(不是一个巨大的金额 – 在XP下的3GB),我知道我的日志文件将结束为多少行和cols,并且col条目应该是什么数据类型(这可能是我需要检查它读取)。

我如何把这一起做一个go / nogo决定在R中进行分析? (可能R需要能够有一些RAM来做操作,以及保存数据!)我立即需要的输出是一堆简单的摘要统计,频率,意外事件等,所以我可能写某种解析器/制表符,它将给我的输出我需要短期,但我还想玩这个数据的许多不同的方法作为下一步,所以我看看使用R的可行性。

我已经看到很多关于R的大数据集的有用的建议,我已经阅读并将重读,但现在我想更好地了解如何确定是否应该(a)去那里,(b)去但是希望有一些额外的东西让它可管理,或者(c)跑得太早,在某些其他语言/环境中做某事(建议欢迎…!)。谢谢!

解决方法

R非常适合大数据集,使用开箱即用的解决方案,如bigmemory或 ff package(特别是read.csv.ffdf)或使用自己的脚本处理你的东西。在几乎所有情况下,一点点编程使得处理大数据集(>存储器,比方说100Gb)非常可能。做这种程序自己需要一些时间学习(我不知道你的水平),但使你真的灵活。如果这是你的杯茶,或者如果你需要运行取决于你想投资学习这些技能的时间。但一旦你有了它们,他们将使你的生活作为一个数据分析师更容易。

在分析日志文件方面,我知道使用Call of Duty 4(计算机多人游戏)生成的统计页面通过将日志文件迭代解析到数据库中,然后从数据库中检索每个用户的统计信息。有关接口的示例,请参见here。迭代(在块)方法意味着日志文件大小(几乎)无限。然而,获得良好的性能不是微不足道的。

很多东西你可以做R,你可以做Python或Matlab,甚至C或Fortran。但是只有当该工具具有对你想要的开箱即用的支持时,我才能看到该工具在R上的独特优势。对于处理大数据,请参见the HPC Task view.另请参阅reading a very large text file in chunks的最早答案。其他相关您可能会感兴趣的链接:

> Quickly reading very large tables as dataframes in R
> Suitable functional language for scientific/statistical computing?(讨论包括用于大数据处理)。
> Trimming a huge (3.5 GB) csv file to read into R
> A blog post of mine,显示如何估计数据集的RAM使用情况。注意,这假设数据将存储在矩阵或数组中,并且只是一个数据类型。
> Log file processing with R

关于选择R或其他工具,我会说,如果它足够好,谷歌对我来说是足够好的;)。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读