×

签到

分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

使用mlu卡进行加速计算时,如果操作无法进行矢量化,性能很差该怎么办? 已完结 meebl2024-07-23 01:41:31 回复 1 查看 技术答疑
使用mlu卡进行加速计算时,如果操作无法进行矢量化,性能很差该怎么办?
分享到:

这是是我的kernel,如何进行修改才能发挥出mlu的性能优势:

__nram__ uint8_t nram_buffer0[10];

__nram__ uint8_t nram_buffer1[10];

__mlu_entry__ void resizeNearestKernel(uint8_t* dst, const uint8_t* src, int src_width, int src_height, int width, int height, int stepDst, int stepSrc, float scale_x, float scale_y) {

    for (int j = taskIdY; j < height; j+=taskDimY) {

        for (int i = taskIdX; i < width; i+=taskDimX) {

            int sx = (int)(i * scale_x);

            int sy = (int)(j * scale_y);

           __memcpy(&(nram_buffer0[0]), src+sy * src_width*3+sx*3 , 3* sizeof(uint8_t), GDRAM2NRAM);

           __memcpy(dst+j*width*3+i*3 , &(nram_buffer0[0]), 3* sizeof(uint8_t), NRAM2GDRAM);

        }

       

    }

}

【寒武纪硬件产品型号】必填*:MLU370





版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭