全部回复
LV.2
#2
Ashelly
回复
您好,您上面的操作是是使用的循环和标量操作进行计算,没有很好利用到MLU硬件架构的优势。可以参考bangC开发手册上的api 函数 __bang_mul_const的用法。
2021-07-07 21:48:36
0
|
回复
LV.2
#1
hxf0223
回复
补充说下:已经去掉了初始化,加载等overhead时间。
去掉计算,host<-->device传输时间大约 2ms。
2021-05-28 17:12:02
0
|
回复
请
登录
后评论