【经验分享帖】王正千分享实验经验一+1951317+19计科3班 - 理论课程 - 开发者论坛

×

基础软件平台

PyTorch开发

TensorFlow开发

编解码及SDK开发

BANG语言与计算库

开发工具链

MagicMind开发

软件栈百科

云平台集成

硬件产品专区

MLU370系列AI加速卡

MLU270系列AI加速卡

MLU220系列AI加速产品

经验方案交流区

经验案例与实践分享

开发者服务

开发者活动

公告与版务

高校支持

《智能计算系统》

签到

首页 > 寒武纪开发者论坛>高校支持>《智能计算系统》>理论课程 >正文

分享到微信

打开微信，使用扫一扫进入页面后，点击右上角菜单，

点击“发送给朋友”或“分享到朋友圈”完成分享

【经验分享帖】王正千分享实验经验一+1951317+19计科3班 Corviknight2022-07-01 14:57:03 回复查看 经验交流 社区交流

0 赞 0 收藏
分享到:

【经验分享帖】王正千分享实验经验一+1951317+19计科3班

0 赞 0 收藏快速回复

分享到:

【实验一——智能编程语言算子开发与集成实验（BCL 开发实验）】

有两点可以分享：

设置h1,h2,e的大小可以提高拟合度，原理是提高隐藏神经元个数、增加训练轮数。但是在测试时可以调小参数，方便更快地运行验证。
tensorflow编译报socket closed，解决方法：将编译脚本job_nums=32 改为job_nums=16。

【实验二——智能编程语言性能优化实验】

在DLP 上加速矩阵乘的计算需要注意的地方：

每个计算核每个从GDRAM上拷贝数据的时候要根据自己的CoreID来确定目标数据的内存地址，并且只将自己负责的数据块拷入到NRAM。
实验运行速度慢可能是因为从GDRAM到NRAM/WRAM拷贝数据时，会抢占该Cluster到GDRAM的带宽，从而导致数据读取速度降低。

解决方法：先从GDRAM拷贝到SRAM，再从SRAM分发到NRAM/WRAM，从而避免了带宽抢占问题。

【实验三——智能编程语言算子开发实验（BPL 开发实验）】

在模型运行完后，执行source run.sh，得到运行结果。通过观察比较，可以看出，在CPU和MLU做出来的三幅图像基本没有差别。但是，可能由于INT8的精度损失，MLU模型与CPU模型相比，图片的对比度增加了。
PowerDifference没有数据，解决方法：需要用Numpy计算PowerDifference的值，先取出Conv2D_13和StopGradient，直接将两个Tensor相减，然后平方，并填进去。

热门帖子

精华帖子

Benchmark Docker 申请流程和使用指南 goodchong 21 回复
Proxmox直通-寒武纪MLU fengyunkai 0 回复
【PyTorch 大模型适配】通义千问在寒武纪MLU370板卡上的试用 jyjyjyjyjy 3 回复
FFMpeg-MLU命令行进行抽帧方法总结博博 2 回复
【PyTorch 大模型移植】CogView2适配 jyjyjyjyjy 0 回复

Github

开发平台

文档中心

新手必读

官方微信

版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号：京ICP备17003415号-1