LV.1

sunxiaofeng

135积分0赞

10 帖子 61 回复 0 收藏

TA的动态

TA的帖子

TA的回复

使用CNplugin扩展pytorch算子时调用的问题 我的回复：#1tanhaojue回复您好，可以试一下用gdb --args进行调试。我想调试这个使用了我定义的算子的py文件，怎么才能调试到cpp文件然后再到mlu啊 0

编译catch部分遇到的问题 我的回复：#4tanhaojue回复您好，可以试一下，在路径：catch/script下执行命令 ./config_for_release.sh 1编译catch和torch。具体可参考《寒武纪PyTorch用户手册》-编译和安装。展开好的，我再去试试感谢您 0

编译catch部分遇到的问题 我的回复：#1tanhaojue回复您好，可以说一下怎么复现您的问题吗？您可以帮我分析一下可能是哪个部分导致的嘛，我查看setup.py文件的include目录也没找到问题所在 0

编译catch部分遇到的问题 我的回复：#1tanhaojue回复您好，可以说一下怎么复现您的问题吗？这个部分我也不知道怎么发生的，我想通过修改catch部分代码进行算子的补充，然后重新编译后就出现这个问题了 0

【经验总结】Yolov5移植流程指南 我的回复：感谢！正好尝试移植中也遇到了您写出的问题 10

以矩阵乘demo为例的BANG C编程指南 我的回复：您好，我想复现您的第三步使用__bang_conv替换原始标量乘法，阅读您的代码我有点疑惑，按照您说的先把右矩阵部分从GDRAM拷贝到NRAM使用的__memcpy(input2NRAM_tmp,inptu2+i*ROUND*K,K*ROUND*sizeof(int 8),GDRAM2NRAM)，我认为GDRAM的内存的排序方式应该是按照行进行排序，所以这样并不会像图画出来的取出来K*BOUND这样一个矩阵形状的内存，而是(n/ROUND)行的矩阵+(n%ROUND)列的这样一个形状的内存，不知道我的理解是否正确。下一个调整为NHWC格式我看了BANGC开发者手册是不是后面的count应该是63，因为seg_nun=<count+1>，我理解是将input2NRAM_tmp中的内存重新间隔排序，希望能够解答一下 21

函数定义时输出是half型，也就是uint16型，可是计算结果其实是小数怎么办？ 我的回复：那如果我使用混合编程，将host和dev端都写在mlu中，这样cpp的代码也可以使用half数据类型，这样的half运算实质上会变成uint16_t的运算嘛？我发现在mlu和cpu上的浮点数矩阵乘法运算结果并不相同，整数的相同 0

以矩阵乘demo为例的BANG C编程指南 我的回复：您好，我想问一下您是怎么half数据类型运算结果正确的呢 21

通过BANGC编程后多次运行结果不一致问题 我的回复：#2jiapeiyuan回复invokekernel后面有没有执行cnrtsyncqueue？invoke是异步的，要sync后才能得到正确的结果展开感谢！我把cnrtsyncqueue加在cnrtMemcpy后面了，导致结果不正确 0

使用BANGC编程错误代码632036，数据传输错误 我的回复：#10guowenxin回复如果使用通用的异构编程，在cncc编译时候需要加上--bang-device-only,具体使用可参考bangc开发这手册”Mixed Programming Model“该部分的说明展开感谢您，我更改了编译选项增加了--bang-device-only 这个问题解决了，这个编译指令有什么特殊的编译结果影响嘛 0

上一页 1 2 3 4 5 6 下一页