切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
tiger_k
168
积分
3
赞
23
帖子
113
回复
0
收藏
TA的动态
TA的帖子
TA的回复
关于cnstream的使用
我的回复:#11Gaoyujia回复我这边测试的性能数据是通过cnstream自带的工具获得的。 编译时打开编译选项,-Dbuild_get_model_perfinfo=ON 编译成功后,工具在,tools/bin下,执行 ./get_model_perfinfo -offline_model=data/models/yolov3_b4c4_argb_mlu220.cambricon获得性能数据。 替换离线模型为你自己的离线模型进行测试。展开(base) joyiot@joyiot-Default-string:~/Desktop/3/CNStream/tools/bin$ ./get_model_perfinfo -offline_model ../../data/models/yolov5_4c4b_rgb_220.cambricon ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.1 a884a9a Avg hardware time: 176.909 Avg software time: 178.651 Fps: 22.3901 我用的是工控机 我们是一个设备吗?这差距有点大
0
我的回复:#13tiger_k回复文档里说的优化 将focus用conv实现 修改了class Focus(nn.Module): 这是不是就相当于使用了firstconv呢?展开使用half优化之后,融合模式结果是对的,但是使用offline demo加载离线模型推理 就错了。没有使用half优化的话 就没问题。楼主有遇到这个问题吗?还是说需要修改offline的代码呢
0
我的回复:#12ssssan回复[图片]文档里说的优化 将focus用conv实现 修改了class Focus(nn.Module): 这是不是就相当于使用了firstconv呢?
0
关于yolov5m模型在cnstream中的适配
我的回复:#4jiapeiyuan回复1)内存占用主要是指运行时所使用的栈空间的内存,跟中间数据规模有关。模型本身的大小是指令+权值,这两个size不是一回事。 2)infer这个插件比较特殊,是client/server模式,parallelism表示有几个client,就是有几个线程去喂数据,engine_num表示有几个server,就是几个真正推理的线程在执行forward操作。使用的设备内存跟engine_num有关,跟parallelism无关展开好的 非常感谢
0
关于cnstream的使用
我的回复:#6Gaoyujia回复方便提供一下你的离线模型文件吗这个130MB 怎么上传呢?新开一个帖子吗? 我说的官方模型 就是 yolov5_4c4b_rgb_220.cambricon 这个离线模型,这个名字意思是这个模型是4核 并且batch size为4吗? 关于这个模型我有些疑问: 1.用这个模型在进行cnrt离线推理时,单张图的结果是 input shape: 4 640 640 3 output shape: 4 1 1 7232 HardwareTime:245.296000(ms) E2ETime:252.535000(ms) boxnum:1024 ========================= -1505 -1461 1193 164.375 0.854004 0.313477 -3138 -737.5 -72.5 860 0.71875 -2.07422 -2462 -821 -1420 -45.3125 0.692871 -4.17188 -1520 -362.5 -907.5 787 0.594238 -1.33203 -1236 -1049 1048 975.5 0.37207 -3.10742 511.25 453 568.5 623.5 0.290771 56 ....... ---------------------------------------- 结果来看 ,并没有进行后处理,是cnstream自己就带着后处理?这样的话相当于我自己的模型是把后处理做了两遍 2.模型的推理速度是245ms 那么最快也只能到4fps呀,cnstream中的17是怎么跑出来的呢
0
关于cnstream的使用
我的回复:#5Gaoyujia回复使用官方模型19fps,指的是转换为离线模型后,使用cnstream能到19fps吗?使用官方模型指的是 直接运行demo会自动下载一个yolov5的离线模型,用这个模型在cnstream中进行detect ,能达到19fps
0
关于cnstream的使用
我的回复:#3zhupengdong回复“3.配置文件是cnstream中的json文件吗” 是的,JSON文件。 输入帧率大概是多少我是直接修改官方的跟踪demo 将模型替换为我自己的模型,输入帧率是在解码模块吗?我在decode_config.json 中并没有看到相关的配置。但是使用官方的模型,整体速度能到19fps
0
关于cnstream的使用
我的回复:#1Gaoyujia回复有几个问题需要确认一下:1,什么平台的板卡。MLU270/MLU2202,离线模型的batch_size和core数目是多少3,麻烦提供一下配置文件4,几路视频,分辨率多少?展开1.使用的工控机 MLU220 2.离线模型的配置core4 batch4 代码如下 ct.set_core_number(4) trace_input = torch.randn(4, 3, 640, 640, dtype=torch.float) 3.配置文件是cnstream中的json文件吗 4.视频1路输入 分辨率1280*720
0
关于yolov5m模型在cnstream中的适配
我的回复:#2jiapeiyuan回复分配内存报错了,监视一下ddr内存,可能是内存不够同时跑4个yolo5m的模型好的,可是 X模型明明比m模型要大得多呀。 1.内存的占用和模型本身的大小是相关的吗? 2.这里说的跑四个yolov5m模型是哪个参数中设定的? \"engine_num\" \"parallelism\"
0
关于离线模型优化
我的回复:This is the Twins File of "y5x.cambricon". Function number: 1 ---------------kernel graph-------------------- Function #0 { Kernel num:1 Cache mode:0 Name: subnet0 Input number: 1 Input #0. Mask: 338036233 Shape(dim): 1 640 640 3 Name: Id: 3107 Data type: CNRT_FLOAT32 Dim Order: CNRT_NHWC Quantize position: 0 Quantize scale: 0.000000 Output number: 1 Output #0. Mask: 338036233 Shape(dim): 1 1 1 7232 Name: Id: 4478 Data type: CNRT_FLOAT32 Dim Order: CNRT_NHWC Quantize position: 0 Quantize scale: -0.000000 Kernel header #0: Name: subnet0710 Core version: Model Parallelism: 4 Core limit: 4 Inst data split: true }
0
上一页
1
2
3
4
5
6
7
8
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭