打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
【实验一——智能编程语言算子开发与集成实验(BCL 开发实验)】
有两点可以分享:
设置h1,h2,e的大小可以提高拟合度,原理是提高隐藏神经元个数、增加训练轮数。但是在测试时可以调小参数,方便更快地运行验证。
tensorflow编译报socket closed,解决方法:将编译脚本job_nums=32 改为job_nums=16。
【实验二——智能编程语言性能优化实验】
在DLP 上加速矩阵乘的计算需要注意的地方:
每个计算核每个从GDRAM上拷贝数据的时候要根据自己的CoreID来确定目标数据的内存地址,并且只将自己负责的数据块拷入到NRAM。
实验运行速度慢可能是因为从GDRAM到NRAM/WRAM拷贝数据时,会抢占该Cluster到GDRAM的带宽,从而导致数据读取速度降低。
解决方法:先从GDRAM拷贝到SRAM,再从SRAM分发到NRAM/WRAM,从而避免了带宽抢占问题。
【实验三——智能编程语言算子开发实验(BPL 开发实验)】
在模型运行完后,执行source run.sh,得到运行结果。通过观察比较,可以看出,在CPU和MLU做出来的三幅图像基本没有差别。但是,可能由于INT8的精度损失,MLU模型与CPU模型相比,图片的对比度增加了。
PowerDifference没有数据,解决方法:需要用Numpy计算PowerDifference的值,先取出Conv2D_13和StopGradient,直接将两个Tensor相减,然后平方,并填进去。
热门帖子
精华帖子