你好,MLU 的调度策略和GPU不太一样。
根据我们的调研和客户返回,MPS目的是提高GPU 在多进程下并行处理异步的能力,这种能力的提升来自于在CUDA Driver和Application之间提供了以一个Proxy,从而减少GPU Context storage、switching的开销。故而猜测,MPS Proxy是对多进程任务进行转发,在通过一些调度算法把不同进程任务下发到同一个GPU Context上。
而对于MLU 调度来说并不存在Context switching的概念,所有进程的任务都是下发到MLU Device进行基于cnQueue的调度。因此是不需要类似MPS工具进行并行化优化的。
我们在某客户的交付经验来看,双进程打满调度效率的情况下,GPU+MPS调度性能 == MLU调度性能 <= 5%的调度效率损失。(调度效率根据任务pattern不同而不同,上述描述只作为参考)
请登录后评论