M.2上面有一个cluster,里面有4个小核。如果模型使用block模式(就是使用1个小核)的话,那能做到“同时”并行推理4个任务。如果使用union模式(使用1个cluster),那“同时”只能运行一个模型。但在应用层可以同时下发任务,底层会排队执行,相当于“分时”操作,且不能抢占。只要执行的足够快,上层应用感知到的就是实时。 所以,你说的这个“同时”要区分一下,上层应用的“同时”,我理解成任务下发,不受限制。底层硬件的“同时”,就是前面解释的那一段展开
那就是MLU220 M.2算力卡同时运行多个算法模型是可以支持的是吗
请登录后评论