python – Dask:非常低的CPU使用率和多线程?这是预期的吗?
我在how to parallelize many (fuzzy) string comparisons using apply in Pandas?使用dask 基本上我做一些计算(没有写任何东西到磁盘)调用Pandas和Fuzzywuzzy(可能不会释放GIL显然,如果这有帮助),我运行如下:
但是,代码的变体现在已经运行了10个小时,并且还没有结束.我在Windows任务管理器中注意到了 > RAM利用率非常低,与我的数据大小相对应 问题是:预期的行为是什么?在这里设置一些dask选项显然是非常错误的吗? 当然,我明白细节取决于我到底在做什么,但也许上面的模式已经可以说出某些事情是非常错误的? 非常感谢!! 最佳答案
这是很好的选择.识别性能问题很棘手,尤其是在并行计算发挥作用时.以下是一些想到的事情. >多处理调度程序必须在每次之间在不同进程之间移动数据.序列化/反序列化周期可能非常昂贵.使用distributed scheduler可以更好地处理这个问题. 通常,解决这些问题的一个好方法是创建一个minimal,complete,verifiable example来分享其他人可以轻松复制和播放的内容.通常在创建这样的示例时,无论如何都能找到问题的解决方案.但是,如果这种情况至少发生,那么你可以将其转移给图书馆维护者.在创建这样的示例之前,大多数图书馆维护者都懒得花时间,几乎总是有太多细节特定于手头的问题以保证免费服务. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |