切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
Xinqian
161
积分
0
赞
17
帖子
64
回复
2
收藏
TA的动态
TA的帖子
TA的回复
【MLU270】mlu pytorch tensor赋值时报错
我的回复:#5lhscau回复你好,CNML手册中对tensor输入描述如下:[in] input_tensor: Input. A 4‑dimensional MLU input tensor, the shape is [ni, ci, hi, wi] 你目前的输入,与MLU tensor要求不符合,可以扩充维度,如:xyz = torch.randn((4,1024,3,5),dtype=torch.float)或者就是参考上面回复的代码,在CPU中进行切片处理。展开好的,谢谢!
0
【MLU270】conv2d报错:RuntimeError: To do for CPU
我的回复:#1sunxiaofeng回复 是不是需要先量化一下啊好的,谢谢,量化后可以了,但是在对MLU上的高维(大于1维)tensor进行切片操作的时候,会报size不对的错误,请问这是什么原因呢
0
【MLU270】conv2d报错:RuntimeError: To do for CPU
我的回复:#2lhscau回复你好!在使用该算子前,需要量化,使用方法,可参考手册说明:https://www.cambricon.com/docs/pytorch/pytorch_5_quickguide/Pytorch_quickguide.html#id5代码可以参考框架中例子:/torch/src/catch/test/cnml/op_test/test_conv2d.py展开好的,谢谢,量化后可以了,但是在对MLU上的高维(大于1维)tensor进行切片操作的时候,会报size不对的错误,请问这是什么原因呢
0
【MLU270】mlu pytorch tensor赋值时报错
我的回复:#1lhscau回复你好!请贴出你的测试代码,方便排查问题。这是具体测试代码import torch import torch.nn as nn from torch.autograd import Variable import torch_mlu import torch_mlu import torch_mlu.core.mlu_model as ct torch.set_grad_enabled(False) torch.manual_seed(10) ct.set_core_number(16) ct.set_core_version('MLU270') xyz = torch.randn((4,1024,3),dtype=torch.float).to(ct.mlu_device()) tmp = xyz[0,10,:] # 正常 print(tmp.cpu()) a = tmp[0] # 正常 print(a.cpu()) b = tmp[1] # 报错 print(b.cpu())这里是报错情况
0
实验文件下载专帖
我的回复:请问这里的实验作业有参考代码吗,或者有正确答案的速度和错误率的baseline吗
2
用多卡跑MLU离线模型时出现Init kernel的报错
我的回复:#7weijipeng回复你好,生成离线模型时只有参数设置会影响生成结果,其他环境代码一致的话,应该不会影响到模型生成。我试了一下,确实是离线模型出现的问题用转的一个yolov5的权重就会报错,但换成一个转的squeeze net的权重就正常
0
用多卡跑MLU离线模型时出现Init kernel的报错
我的回复:#5weijipeng回复您好,对于“单独拿出来能够正常运行不报”,单独拿出来调用次数跟实际情况一样多吗?需要确认下,看着是否可能线程开多了内存不够?dmesg可以看下是不是报OOM了展开单独拿出来调用次数跟实际情况一样多,我在debug的时候发现,好像是离线模型文件出现的问题,我换了一个离线模型文件,就正常不报错,用原来那个离线模型文件就会出这个错误。模型在转换成cambricon文件时的什么操作会导致这个错误吗?
0
用多卡跑MLU离线模型时出现Init kernel的报错
我的回复:#1weijipeng回复您好,由于每个CNRT Runtime Context调用的卷积核张量和指令是相同的,所有线程可以共享一个CNRT Runtime Context卷积核张量和指令的内存空间。用户可以先创建一个原始的CNRT Runtime Context,再通过cnrtForkRuntimeContext()接口复制出一个CNRT Runtime Context。因此,对于多线程,建议您把上述代码“cnrtRuntimeContext_t tmp_ctx;”向上移动两行到for循环外看看是否有效。展开请问还有什么其他解决方法吗
0
用多卡跑MLU离线模型时出现Init kernel的报错
我的回复:#1weijipeng回复您好,由于每个CNRT Runtime Context调用的卷积核张量和指令是相同的,所有线程可以共享一个CNRT Runtime Context卷积核张量和指令的内存空间。用户可以先创建一个原始的CNRT Runtime Context,再通过cnrtForkRuntimeContext()接口复制出一个CNRT Runtime Context。因此,对于多线程,建议您把上述代码“cnrtRuntimeContext_t tmp_ctx;”向上移动两行到for循环外看看是否有效。展开尝试过了,把它移到循环外还是报相同的错误,且用上了多张卡,后续计算是正确的
0
用多卡跑MLU离线模型时出现Init kernel的报错
我的回复:#1weijipeng回复您好,由于每个CNRT Runtime Context调用的卷积核张量和指令是相同的,所有线程可以共享一个CNRT Runtime Context卷积核张量和指令的内存空间。用户可以先创建一个原始的CNRT Runtime Context,再通过cnrtForkRuntimeContext()接口复制出一个CNRT Runtime Context。因此,对于多线程,建议您把上述代码“cnrtRuntimeContext_t tmp_ctx;”向上移动两行到for循环外看看是否有效。展开好的,谢谢
0
上一页
1
2
3
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭