×

签到

分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

关于后端算子分发的问题 已完结 HjinnnKuo2025-02-20 19:34:59 回复 2 查看 技术答疑 经验交流
关于后端算子分发的问题
分享到:

如题,想请教一下 torch_mlu 后端算子分发相关的问题。以张量对位相加为例,pytorch profiler 可以看到 aten::add 被分发到了 cnnlOpTensor 算子,然后调起了 

MLUOpTensorElementParam110ThreePipeline;而单独在 .cpp 文件中使用 cnnlOpTensor 时,cnperf 可以看到该算子最终是被分发到了 MLUOpTensorElementDefault,性能上也与 torch_mlu 有差异。有什么参数可以指导 CNNL 调用性能更高的优化 mlu 算子吗?还是说 torch_mlu 后端有相关的 codegen 机制?


版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭