离线模型只能整体载入一张芯片进行推理,无法再进行算子调度。你有多张芯片可以每张芯片都载入同一个离线模型,然后多路并行推理数据,提高吞吐。
如果我模型太大导致一张芯片放不下,我也不能将离线模型拆分,并放到多张芯片上进行推理?
离线模型无法再进行算子逐层调试。请问你那边是遇到了什么问题吗?是发现逐层正常,然后融合离线精度不对,所以想这样调试吗?
想提高模型的推理速度,需要离线地对模型进行算子调度。
请登录后评论