您好,请问您的寒武纪板卡是什么型号的?如果是MLU270的话矩阵乘最好要经过量化后使用__bang_conv计算。您目前的程序使用循环标量累加计算,性能肯定是很难达到满意的效果的。
写了一个浮点矩阵乘法函数 C=A*B。使用pipeline::async_memcpy,发现执行时间没有减少。使用512*512的矩阵,我这边测试时间都是591ms(kernel执行时间)。想请问是哪里写的不对吗?
写了一个浮点矩阵乘法函数 C=A*B。使用pipeline::async_memcpy,发现执行时间没有减少。
使用512*512的矩阵,我这边测试时间都是591ms(kernel执行时间)。
想请问是哪里写的不对吗?
请登录后评论