切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
含含
148
积分
2
赞
6
帖子
9
回复
0
收藏
TA的动态
TA的帖子
TA的回复
yolov5 cpu资源占用较多
我的回复:#8含含回复预处理是影响CPU的一个点,其它的地方也会占用CPU,需要看下你的json参数配置,如果时发布的版本:预处理是影响CPU的一个点,其它的地方也会占用CPU,需要看下你的json参数配置,如果时发布的版本:yolov5:https://gitee.com/cambricon/CNStream/blob/master/samples/cns_launcher/configs/yolov5_object_detection_mlu220.jsonyolov3:https://gitee.com/cambricon/CNStream/blob/master/samples/cns_launcher/configs/yolov3_object_detection_mlu220.json这里面的一些属性是不一样的,比如: "class_name" : "cnstream::Inferencer", "parallelism" : 1,
0
寒武纪yolov5移植多核结果不正确
我的回复:可以从几个角度去定位这个问题:1.逐层dump 下1core和4core逐层的情况,看结果是否一致2.如第一步结果一致,可能是后处理算子导致,可以去掉后处理算子,直接用CPU做NMS逐层dump 可以参看《寒武纪 PyTorch 用户手册》10.2 精度调试工具
0
【PyTorch 1.3】torch.nn.Conv2d是否支持分组卷积groups
我的回复:支持,详细可以参看<<寒武纪 PyTorch 用户手册>>。
0
MLU370— BANG 3.0 编程优化直播课【FAQ合集】
我的回复:#5JueXiao回复有没有切片的demo程序呀?部署好Bang 开发环境,会在本地生成samples目录,一些算子示例会有切片操作
0
yolov5 cpu资源占用较多
我的回复:#5ltmarks回复回复您需要确认的问题:a、我表述有误,不是两个cnstream,是在一个cnstream同时起了两路视频;b、同上另外,想确认的问题是:有没有对比过yolov5_v4.0和yolov5_v6.0转换好模型后,在cnstream运行占用资源的区别(即有无focus层的区别,目前mlu270暂时不在手边,无法自己转换模型)展开focus 在网络内部,会影响到MLU侧的资源使用,现在CPU侧的资源高很有可能是前处理导致的,可以使用cncv做前处理看是否会减轻CPU利用率。
0
mlu-exporter获取指标时mlu-exporter退出
我的回复:#2nxf129回复感谢支持,cntoolkit是从repo里安装的,以为最新的。切换到1.5.3版本后正常了。中间试过1.6.1,1.6.0都没有成功,没想到1.5.3可以。展开
0
yolov5 cpu资源占用较多
我的回复:#2ltmarks回复http://video.cambricon.com/models/MLU220/yolov5/yolov5_b4c4_rgb_mlu220.cambricon 这个链接的yolov5模型是v4.0版本的是吧?有没有转换好的v6.0版本的呢,v6.0之后focus去掉了展开# CPU 占用过高问题需要先确认下:a.为什么要启动2个cnstream进行检测?b.每个cnstream 一共跑了几路视频?1.当前Cnstream Yolov5 在220 默认的配置 模型是4batch以及前处理使用CPU,前处理使用CPU 会占用 CPU资源。可见配置文件:CNStream/yolov5_object_detection_mlu220.json at master · Cambricon/CNStream · GitHub。前处理是可以使用MLU进行cncv 进行处理的,环境安装cncv以及打开配置文件:// Uncomment the following 2 lines to use cncv //"preproc_name" : "CNCV", // "normalize" : true,2.另:后续也有一些其他的优化项,如:如果业务输入是1batch,后续可以生成1batch的模型。如果视频输入是一样的,可以在一个进程内处理多个场景的模型等(可以解决解码资源),如果只有一路 降低 engine_num和parallelism 也可以降低CPU利用率。
0
mlu-exporter获取指标时mlu-exporter退出
我的回复:从日志看是版本不匹配导致的,请确认您下您拉取的 mlu-exporter 版本,https://github.com/Cambricon/mlu-exporter master 分支 SDK 需要满足:The prerequisites for running Cambricon MLU Exporter: MLU270, MLU270-X5K, MLU220, MLU290, MLU370 devices MLU driver >= 4.20.9 cntoolkit >= 2.8.2 on your building machine For MLU driver version 4.9.x, please use release v1.5.3.可以尝试使用其它分支,如:v1.5.3
0
【求助】请问如何在寒武纪pytorch上集成自定义的算子
我的回复:Pytorch 添加自定义算子参见《寒武纪 PyTorch 用户手册》第7章如果希望这些算子在MLU 上运行,需要开发MLU端对应的算子,算子开发参见《CAMBRICON BANG C 开发者手册》。通过CNPlingin模块可以将自定义算子和框架进行衔接,CNPlugin 算子开发见《寒武纪 CNPlugin 开发者手册》
0
MLU270在生成量化模型后,代入测试数据报错,这个错误一般是什么原因导致的呢?
我的回复:先确认下你的流程是否正确,首先,需要对模型进行量化->基于MLU 运行量化后的模型->运行结果需要ouput.cpu(),详细的流程可以参看《寒武纪 PyTorch 用户手册》
0
上一页
1
2
3
4
5
6
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭