cnrtTransOrderAndCast函数耗时过长 - 寒武纪软件开发平台 - 开发者论坛

×

基础软件平台

PyTorch开发

TensorFlow开发

编解码及SDK开发

BANG语言与计算库

开发工具链

MagicMind开发

软件栈百科

云平台集成

硬件产品专区

大模型专区

寒武纪® AIDC® MLU370®系列加速卡

MLU200系列AI加速产品

经验方案交流区

经验案例与实践分享

开发者服务

开发者活动

公告与版务

高校支持

《智能计算系统》

签到

首页 > 寒武纪开发者论坛>基础软件平台>PyTorch开发 >正文

分享到微信

打开微信，使用扫一扫进入页面后，点击右上角菜单，

点击“发送给朋友”或“分享到朋友圈”完成分享

cnrtTransOrderAndCast函数耗时过长 待解决 cambridge2023-02-14 13:17:43 回复 2 查看 技术答疑 使用求助 经验交流

0 赞 0 收藏
分享到:

cnrtTransOrderAndCast函数耗时过长

0 赞 0 收藏快速回复

分享到:

1. MLU220，模型有两个输出，维度分别是248*216*18=964224 ，248*216*42=2249856，模型推理部分耗时100ms左右，cnrtTransOrderAndCast函数将NHWC->NCHW half->float32，该函数耗时达到300ms左右，这个数据量这么耗时吗，是模型推理的3倍。有没有可能优化呢？

2. 后面还要接CPU后处理，有没有可能跳过cnrtTransOrderAndCast函数，直接在后处理函数中取模型输出的NHWC FLOAT16数据（当然这样读取数据比转换成NCHW更复杂），这样应该会有性能提升？

热门帖子

精华帖子

Benchmark Docker 申请流程和使用指南 goodchong 21 回复
Proxmox直通-寒武纪MLU fengyunkai 0 回复
【PyTorch 大模型适配】通义千问在寒武纪MLU370板卡上的试用 jyjyjyjyjy 5 回复
FFMpeg-MLU命令行进行抽帧方法总结博博 2 回复
【PyTorch 大模型移植】CogView2适配 jyjyjyjyjy 0 回复

Github

开发平台

文档中心

新手必读

官方微信

版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号：京ICP备17003415号-1