不知道你是用的是什么版本的sdk。8.1之后的版本已经不再使用 model_parallel 和 data_parallel 等参数,而是使用简单编译接口来自动设置,只需要设置 batch_size 和 core_num 为 32 一般就可以发挥 MLU100 的最大性能。如果是更旧的版本,我们一般设置 data_parallel 为 8,model_parallel 为 1,threads 为 4 来达到最大吞吐。
生成的离线模型可以自己编写代码来运行,具体的编写方法可以参照 MLU100 的cnrt文档中所提供的示例代码。