加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – Lazy从PostgreSQL / Cassandra创建Dask DataFrame

发布时间:2020-12-20 13:14:18 所属栏目:Python 来源:网络整理
导读:据我所知,Dask DataFrame是处理表格数据的正确方法. 我在PostgreSQL中有一个表,我知道将它加载到pandas.Dataframe中的方法. 我知道,odo可用于将pandas.DataFrame转换为dask.dataframe. 但 这不是延迟操作:这样的转换强制将整个PostgeSQL表加载到内存中,这很
据我所知,Dask DataFrame是处理表格数据的正确方法.
我在PostgreSQL中有一个表,我知道将它加载到pandas.Dataframe中的方法.

我知道,odo可用于将pandas.DataFrame转换为dask.dataframe.

这不是延迟操作:这样的转换强制将整个PostgeSQL表加载到内存中,这很糟糕.我更喜欢逐个读取项目或大块读取项目.这该怎么做?

> Cassandra的类似问题.但Cassandra就像分布式存储一样,可以针对分布式访问进行优化.但是如何用Dask做到这一点?

解决方法

至于MongoDB,我创建了以下解决方案:
https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包,然后将这些参数传递给loader.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读