开发者论坛

全部回复

LV.2 #3 hxf0223回复
#2goodchong回复
您好，请问您的寒武纪板卡是什么型号的？如果是MLU270的话矩阵乘最好要经过量化后使用__bang_conv计算。您目前的程序使用循环标量累加计算，性能肯定是很难达到满意的效果的。
展开
您好， 1，上面的代码忘记更新了，乘法操作后来改成了向量操作 __bang_mul。 2，使用bang_conv的话，我这边也正在进行测试，估计精度应该是满足不了；我的问题没说清楚，补充如下：上面的示例，分别使用memcpy，以及async_memcpy（overlapping），发现整个时间是一样的。另外一方面，测试发现时间主要消耗在GDRAM<-->NRAM传输，所以怀疑上面测试代码里面写的async_memcpy没有起到overlapping作用。想请您分析下为什么会这样？
2021-07-09 15:31:04 0| 回复
LV.5 #2 goodchong回复
#1hxf0223回复
写了一个浮点矩阵乘法函数 C=A*B。使用pipeline::async_memcpy，发现执行时间没有减少。使用512*512的矩阵，我这边测试时间都是591ms（kernel执行时间）。想请问是哪里写的不对吗？
展开
您好，请问您的寒武纪板卡是什么型号的？如果是MLU270的话矩阵乘最好要经过量化后使用__bang_conv计算。您目前的程序使用循环标量累加计算，性能肯定是很难达到满意的效果的。
2021-07-02 15:35:38 0| 回复
LV.2 #1 hxf0223回复

写了一个浮点矩阵乘法函数 C=A*B。使用pipeline::async_memcpy，发现执行时间没有减少。

使用512*512的矩阵，我这边测试时间都是591ms（kernel执行时间）。
想请问是哪里写的不对吗？

2021-06-23 10:29:44 0| 回复

请登录后评论