切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
sunxiaofeng
135
积分
0
赞
10
帖子
61
回复
0
收藏
TA的动态
TA的帖子
TA的回复
使用CNplugin扩展pytorch算子时调用的问题
我的回复:#1tanhaojue回复您好,可以试一下用gdb --args进行调试。我想调试这个使用了我定义的算子的py文件,怎么才能调试到cpp文件然后再到mlu啊
0
编译catch部分遇到的问题
我的回复:#4tanhaojue回复您好,可以试一下,在路径:catch/script下执行命令 ./config_for_release.sh 1编译catch和torch。具体可参考《寒武纪PyTorch用户手册》-编译和安装。展开好的,我再去试试 感谢您
0
编译catch部分遇到的问题
我的回复:#1tanhaojue回复您好,可以说一下怎么复现您的问题吗?您可以帮我分析一下可能是哪个部分导致的嘛,我查看setup.py文件的include目录也没找到问题所在
0
编译catch部分遇到的问题
我的回复:#1tanhaojue回复您好,可以说一下怎么复现您的问题吗?这个部分我也不知道怎么发生的,我想通过修改catch部分代码进行算子的补充,然后重新编译后就出现这个问题了
0
【经验总结】Yolov5移植流程指南
我的回复:感谢!正好尝试移植中也遇到了您写出的问题
10
以矩阵乘demo为例的BANG C编程指南
我的回复:您好,我想复现您的第三步使用__bang_conv替换原始标量乘法,阅读您的代码我有点疑惑,按照您说的先把右矩阵部分从GDRAM拷贝到NRAM使用的__memcpy(input2NRAM_tmp,inptu2+i*ROUND*K,K*ROUND*sizeof(int 8),GDRAM2NRAM),我认为GDRAM的内存的排序方式应该是按照行进行排序,所以这样并不会像图画出来的取出来K*BOUND这样一个矩阵形状的内存,而是(n/ROUND)行的矩阵+(n%ROUND)列的这样一个形状的内存,不知道我的理解是否正确。下一个调整为NHWC格式我看了BANGC开发者手册是不是后面的count应该是63,因为seg_nun=<count+1>,我理解是将input2NRAM_tmp中的内存重新间隔排序,希望能够解答一下
21
函数定义时输出是half型,也就是uint16型,可是计算结果其实是小数怎么办?
我的回复:那如果我使用混合编程,将host和dev端都写在mlu中,这样cpp的代码也可以使用half数据类型,这样的half运算实质上会变成uint16_t的运算嘛?我发现在mlu和cpu上的浮点数矩阵乘法运算结果并不相同,整数的相同
0
以矩阵乘demo为例的BANG C编程指南
我的回复:您好,我想问一下您是怎么half数据类型运算结果正确的呢
21
通过BANGC编程后多次运行结果不一致问题
我的回复:#2jiapeiyuan回复invokekernel后面有没有执行cnrtsyncqueue?invoke是异步的,要sync后才能得到正确的结果展开感谢!我把cnrtsyncqueue加在cnrtMemcpy后面了,导致结果不正确
0
使用BANGC编程错误代码632036,数据传输错误
我的回复:#10guowenxin回复如果使用通用的异构编程,在cncc编译时候需要加上--bang-device-only,具体使用可参考bangc开发这手册”Mixed Programming Model“该部分的说明展开感谢您,我更改了编译选项增加了--bang-device-only 这个问题解决了,这个编译指令有什么特殊的编译结果影响嘛
0
上一页
1
2
3
4
5
6
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭