加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Windows > 正文

windows – 请推荐替代Microsoft HPC

发布时间:2020-12-14 01:49:06 所属栏目:Windows 来源:网络整理
导读:我们的目标是在集群上实现分布式系统,该集群将使用大量存储I / O执行资源消耗的基于图像的计算,具有以下特征: 有一个专用的管理器计算机节点和多达100个计算节点.群集必须易于扩展. 它围绕工作任务概念构建.一份工作可能有一到100,000个任务. 由用户在管理
我们的目标是在集群上实现分布式系统,该集群将使用大量存储I / O执行资源消耗的基于图像的计算,具有以下特征:

>有一个专用的管理器计算机节点和多达100个计算节点.群集必须易于扩展.
>它围绕工作任务概念构建.一份工作可能有一到100,000个任务.
>由用户在管理器节点上启动的作业将导致在计算节点上创建任务.
>任务即时创建其他任务.
>某些任务可能会运行几分钟,而其他任务可能需要几个小时.
>任务根据依赖关系层次结构运行,可以动态更新.
>作业可能会暂停并稍后恢复.
>每个任务都需要CPU(核心),内存和本地硬盘空间方面的特定资源.在安排任务时,经理应该意识到这一点.
>任务将他们的进度和结果告诉经理.
>经理知道任务是活着还是被绞死.

我们发现Windows HPC Server 2008(HPCS)R2的概念与我们的需求非常接近.但是,有一些关键的缺点:

>随着任务数量的增加,任务的创建速度呈指数级增长.提交超过数千个任务在时间上是无法忍受的.
>任务无法将其进度报告给经理,只有工作可以.
>在运行时期间没有与任务进行通信,这使得无法检查任务是否正在运行或是否需要重新启动.
> HPCS仅将节点,CPU核心和内存视为资源单元.我们不能引入自己的资源单元(如可用磁盘空间,自定义硬件设备等).

这是我的问题:有没有人知道和/或有过分布式计算框架的经验可以帮助我们?我们正在使用Windows.

我将看看 Condor高吞吐量计算项目.它支持Windows(以及Linux和OSX)客户端和服务器,使用 DAGman处理任务之间的复杂依赖关系,并可以暂停(甚至移动)任务.我有基于Condor的系统经验,可以扩展到大学校园内的数千台机器.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读