python – pandas.DataFrame.to_sql中的最佳chunksize参数

发布时间：2020-12-20 13:09:54 所属栏目：Python 来源：网络整理

导读：使用需要转储到PostgreSQL表中的大型pandas DataFrame.从我所读到的,一次性转储所有并不是一个好主意,(我正在锁定数据库)而是使用 chunksize 参数.答案 here对工作流程很有帮助,但我只想问一下影响性能的chunksize的价值. In [5]: df.shapeOut[5]: (24594591

使用需要转储到PostgreSQL表中的大型pandas DataFrame.从我所读到的,一次性转储所有并不是一个好主意,(我正在锁定数据库)而是使用 chunksize参数.答案 here对工作流程很有帮助,但我只想问一下影响性能的chunksize的价值.

In [5]: df.shape
Out[5]: (24594591,4)

In [6]: df.to_sql('existing_table',con=engine,index=False,if_exists='append',chunksize=10000)

是否存在建议的默认值,并且在将参数设置为更高或更低时性能是否存在差异？假设我有内存支持更大的chunksize,它会执行得更快吗？

解决方法

我反过来尝试了一些东西.从sql到csv,我注意到chunksize越小,工作就越快.在作业中添加额外的cpu(多处理)并没有改变任何东西.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!