加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R:是否有可能将2000万行CSV中的读取并行/加速到R?

发布时间:2020-12-14 05:17:01 所属栏目:大数据 来源:网络整理
导读:一旦通过read.csv加载CSV,使用多核,segue等来处理CSV中的数据是相当简单的.然而,阅读它是时候下沉了. 意识到最好使用mySQL等. 假设使用运行R2.13的AWS 8xl集群计算实例 规格如下: Cluster Compute Eight Extra Large specifications:88 EC2 Compute Units (
一旦通过read.csv加载CSV,使用多核,segue等来处理CSV中的数据是相当简单的.然而,阅读它是时候下沉了.

意识到最好使用mySQL等.

假设使用运行R2.13的AWS 8xl集群计算实例

规格如下:

Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)

任何想法/想法都非常感激.

解决方法

如果在data.table中使用fread,则可能不需要并行.

library(data.table)
dt <- fread("myFile.csv")

对此question的评论说明了它的力量.这也是我自己经历的一个例子:

d1 <- fread('Tr1PointData_ByTime_new.csv')
Read 1048575 rows and 5 (of 5) columns from 0.043 GB file in 00:00:09

在10秒内,我能够读取104万行!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读