关于后端算子分发的问题 - 寒武纪软件开发平台 - 开发者论坛

×

基础软件平台

PyTorch开发

TensorFlow开发

编解码及SDK开发

BANG语言与计算库

开发工具链

MagicMind开发

软件栈百科

云平台集成

硬件产品专区

大模型专区

寒武纪® AIDC® MLU370®系列加速卡

MLU200系列AI加速产品

经验方案交流区

经验案例与实践分享

开发者服务

开发者活动

公告与版务

高校支持

《智能计算系统》

签到

首页 > 寒武纪开发者论坛>基础软件平台>PyTorch开发 >正文

分享到微信

打开微信，使用扫一扫进入页面后，点击右上角菜单，

点击“发送给朋友”或“分享到朋友圈”完成分享

关于后端算子分发的问题 已完结 HjinnnKuo2025-02-20 19:34:59 回复 3 查看 技术答疑 经验交流

0 赞 0 收藏
分享到:

关于后端算子分发的问题

0 赞 0 收藏快速回复

分享到:

如题，想请教一下 torch_mlu 后端算子分发相关的问题。以张量对位相加为例，pytorch profiler 可以看到 aten::add 被分发到了 cnnlOpTensor 算子，然后调起了

MLUOpTensorElementParam110ThreePipeline；而单独在 .cpp 文件中使用 cnnlOpTensor 时，cnperf 可以看到该算子最终是被分发到了 MLUOpTensorElementDefault，性能上也与 torch_mlu 有差异。有什么参数可以指导 CNNL 调用性能更高的优化 mlu 算子吗？还是说 torch_mlu 后端有相关的 codegen 机制？

热门帖子

精华帖子

Benchmark Docker 申请流程和使用指南 goodchong 22 回复
Proxmox直通-寒武纪MLU fengyunkai 0 回复
【PyTorch 大模型适配】通义千问在寒武纪MLU370板卡上的试用 jyjyjyjyjy 5 回复
FFMpeg-MLU命令行进行抽帧方法总结博博 2 回复
【PyTorch 大模型移植】CogView2适配 jyjyjyjyjy 0 回复

Github

开发平台

文档中心

新手必读

官方微信

版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号：京ICP备17003415号-1