使用sqldf()选择与一百万个项目匹配的行

发布时间：2020-12-14 04:42:16 所属栏目：大数据来源：网络整理

导读：这是关于使用sqldf()提供的答案的后续跟进 https://stackoverflow.com/a/1820610 在我的特定情况下,我有一个制表符分隔的文件,超过1.1亿行.我想选择匹配460万个标签ID的行. 在以下代码中,标记ID位于tag.query中但是,虽然该示例将使用较小的查询,但它不处理

这是关于使用sqldf()提供的答案的后续跟进

https://stackoverflow.com/a/1820610

在我的特定情况下,我有一个制表符分隔的文件,超过1.1亿行.我想选择匹配460万个标签ID的行.

在以下代码中,标记ID位于tag.query中

但是,虽然该示例将使用较小的查询,但它不处理上述更大的示例：

sql.query <- paste('select * from f where v2 in (',tag.query,')',sep='')
selected.df <- sqldf(sql.query,dbname = tempfile(),file.format = list(header = F,row.names = F,sep="t",skip=line.where.header.is))

关于替代appraoches的任何建议？

解决方法

如果问题是速度,请尝试在v2上创建索引.请参阅 sqldf home page上的示例4i.如果仍然不够快,您还可以尝试使用其他数据库.除了默认的SQLite,sqldf还支持H2,MySQL和PostgreSQL.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!