切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
大模型专区
寒武纪® AIDC® MLU370®系列加速卡
MLU200系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
Gaoyujia
92
积分
3
赞
1
帖子
9
回复
0
收藏
TA的动态
TA的帖子
TA的回复
关于cnstream的使用
我的回复:#18tiger_k回复我将频率设定为800之后使用get_model_perfinfo测试我自己的yolov5x模型 4核 batch=4 , half模型 速度只有是 11fps。 我可以理解为,理论上说,如果我继续优化的话,我的x模型的速度是可能赶上官方的yolov5_4c4b_rgb_220.cambricon,是这样吗展开我们现在提供了一个新的yolov5s模型,在220上可以到95fps。http://video.cambricon.com/models/MLU220/yolov5/yolov5_4c4b_rgb_220.cambricon。 你的网络生成的离线模型速度慢,这个问题可能需要框架相关同事来解答。
0
关于cnstream的使用
我的回复:#16tiger_k回复我看了我的板子是500 MHz,这个能设定吗?我自己模型测试数据 还是4fps,添加half优化后是9fps修改batch为4并没有明显的速度提升。 另外我测试了我的s模型能到158fps,但是在cnstream中会被解码速度给限制,整体最高只有25fps展开修改频率的命令:cnmon set -c 0 -f 800 run.sh脚本中有一个参数设置一下,目前是25fps改为不进行帧率控制。src_frame_rate=-1 你的模型使用get_model_perfinfo工具可以到158fps吗?你的模型是4core的吗?
0
关于cnstream的使用
我的回复:#12tiger_k回复(base) joyiot@joyiot-Default-string:~/Desktop/3/CNStream/tools/bin$ ./get_model_perfinfo -offline_model ../../data/models/yolov5_4c4b_rgb_220.cambricon ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.1 a884a9a Avg hardware time: 176.909 Avg software time: 178.651 Fps: 22.3901 我用的是工控机 我们是一个设备吗?这差距有点大展开看一下板子的频率命令: cnmon info,看Frequency Board,我这边是800 MHz。 这个格式,好像是别人回复你的评论的时候,显示的就是换行的了。。没关系,这样也能看懂。 另外,你自己的离线模型测试的数据是多少呢?
0
关于cnstream的使用
我的回复:#10Gaoyujia回复有关性能吞吐和数据输出,#9解释的比较清楚哈。 另外,我这边测出来的yolov5_4c4b_rgb_220.cambricon离线模型理论性能数据和你那里有一定偏差。 ``` ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.2 adb709e Avg hardware time: 108.068 Avg software time: 110.149 Fps: 36.3145 ``` 因为是4batch的模型,所以吞吐计算是1000 / 110 * 4 ~= 36fps。 但这个是理论吞吐,用cnstream 解码+推理,我这边测下来单路可以到36fps展开我这边测试的性能数据是通过cnstream自带的工具获得的。 编译时打开编译选项,-Dbuild_get_model_perfinfo=ON 编译成功后,工具在,tools/bin下,执行 ./get_model_perfinfo -offline_model=data/models/yolov3_b4c4_argb_mlu220.cambricon获得性能数据。 替换离线模型为你自己的离线模型进行测试。
0
关于cnstream的使用
我的回复:#8tiger_k回复这个130MB 怎么上传呢?新开一个帖子吗? 我说的官方模型 就是 yolov5_4c4b_rgb_220.cambricon 这个离线模型,这个名字意思是这个模型是4核 并且batch size为4吗? 关于这个模型我有些疑问: 1.用这个模型在进行cnrt离线推理时,单张图的结果是 input shape: 4 640 640 3 output shape: 4 1 1 7232 HardwareTime:245.296000(ms) E2ETime:252.535000(ms) boxnum:1024 ========================= -1505 -1461 1193 164.375 0.854004 0.313477 -3138 -737.5 -72.5 860 0.71875 -2.07422 -2462 -821 -1420 -45.3125 0.692871 -4.17188 -1520 -362.5 -907.5 787 0.594238 -1.33203 -1236 -1049 1048 975.5 0.37207 -3.10742 511.25 453 568.5 623.5 0.290771 56 ....... ---------------------------------------- 结果来看 ,并没有进行后处理,是cnstream自己就带着后处理?这样的话相当于我自己的模型是把后处理做了两遍 2.模型的推理速度是245ms 那么最快也只能到4fps呀,cnstream中的17是怎么跑出来的呢展开有关性能吞吐和数据输出,#9解释的比较清楚哈。 另外,我这边测出来的yolov5_4c4b_rgb_220.cambricon离线模型理论性能数据和你那里有一定偏差。 ``` ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.2 adb709e Avg hardware time: 108.068 Avg software time: 110.149 Fps: 36.3145 ``` 因为是4batch的模型,所以吞吐计算是1000 / 110 * 4 ~= 36fps。 但这个是理论吞吐,用cnstream 解码+推理,我这边测下来单路可以到36fps
0
关于cnstream的使用
我的回复:方便提供一下你的离线模型文件吗
0
关于cnstream的使用
我的回复:#4tiger_k回复我是直接修改官方的跟踪demo 将模型替换为我自己的模型,输入帧率是在解码模块吗?我在decode_config.json 中并没有看到相关的配置。但是使用官方的模型,整体速度能到19fps展开使用官方模型19fps,指的是转换为离线模型后,使用cnstream能到19fps吗?
0
关于cnstream的使用
我的回复:有几个问题需要确认一下:1,什么平台的板卡。MLU270/MLU2202,离线模型的batch_size和core数目是多少3,麻烦提供一下配置文件4,几路视频,分辨率多少?
0
关于cnstream框架的问题
我的回复:在MLU270板卡上,8路摄像头rtsp流,配置文件如图中所示。未复现到卡死问题。
0
关于cnstream框架的问题
我的回复:使用的是什么型号的板卡?
0
上一页
1
2
3
4
5
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭