加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – pandas.DataFrame.to_sql中的最佳chunksize参数

发布时间:2020-12-20 13:09:54 所属栏目:Python 来源:网络整理
导读:使用需要转储到PostgreSQL表中的大型pandas DataFrame.从我所读到的,一次性转储所有并不是一个好主意,(我正在锁定数据库)而是使用 chunksize 参数.答案 here对工作流程很有帮助,但我只想问一下影响性能的chunksize的价值. In [5]: df.shapeOut[5]: (24594591
使用需要转储到PostgreSQL表中的大型pandas DataFrame.从我所读到的,一次性转储所有并不是一个好主意,(我正在锁定数据库)而是使用 chunksize参数.答案 here对工作流程很有帮助,但我只想问一下影响性能的chunksize的价值.

In [5]: df.shape
Out[5]: (24594591,4)

In [6]: df.to_sql('existing_table',con=engine,index=False,if_exists='append',chunksize=10000)

是否存在建议的默认值,并且在将参数设置为更高或更低时性能是否存在差异?假设我有内存支持更大的chunksize,它会执行得更快吗?

解决方法

我反过来尝试了一些东西.从sql到csv,我注意到chunksize越小,工作就越快.在作业中添加额外的cpu(多处理)并没有改变任何东西.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读