加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

使用sqldf()选择与一百万个项目匹配的行

发布时间:2020-12-14 04:42:16 所属栏目:大数据 来源:网络整理
导读:这是关于使用sqldf()提供的答案的后续跟进 https://stackoverflow.com/a/1820610 在我的特定情况下,我有一个制表符分隔的文件,超过1.1亿行.我想选择匹配460万个标签ID的行. 在以下代码中,标记ID位于tag.query中 但是,虽然该示例将使用较小的查询,但它不处理
这是关于使用sqldf()提供的答案的后续跟进

https://stackoverflow.com/a/1820610

在我的特定情况下,我有一个制表符分隔的文件,超过1.1亿行.我想选择匹配460万个标签ID的行.

在以下代码中,标记ID位于tag.query中

但是,虽然该示例将使用较小的查询,但它不处理上述更大的示例:

sql.query <- paste('select * from f where v2 in (',tag.query,')',sep='')
selected.df <- sqldf(sql.query,dbname = tempfile(),file.format = list(header = F,row.names = F,sep="t",skip=line.where.header.is))

关于替代appraoches的任何建议?

解决方法

如果问题是速度,请尝试在v2上创建索引.请参阅 sqldf home page上的示例4i.如果仍然不够快,您还可以尝试使用其他数据库.除了默认的SQLite,sqldf还支持H2,MySQL和PostgreSQL.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读