新上传的这个是s模型,也比较小十几M。
我将频率设定为800之后使用get_model_perfinfo测试我自己的yolov5x模型 4核 batch=4 , half模型 速度只有是 11fps。 我可以理解为,理论上说,如果我继续优化的话,我的x模型的速度是可能赶上官方的yolov5_4c4b_rgb_220.cambricon,是这样吗展开
修改频率的命令:cnmon set -c 0 -f 800 run.sh脚本中有一个参数设置一下,目前是25fps改为不进行帧率控制。src_frame_rate=-1 你的模型使用get_model_perfinfo工具可以到158fps吗?你的模型是4core的吗?展开
我看了我的板子是500 MHz,这个能设定吗?我自己模型测试数据 还是4fps,添加half优化后是9fps修改batch为4并没有明显的速度提升。 另外我测试了我的s模型能到158fps,但是在cnstream中会被解码速度给限制,整体最高只有25fps展开
看一下板子的频率命令: cnmon info,看Frequency Board,我这边是800 MHz。 这个格式,好像是别人回复你的评论的时候,显示的就是换行的了。。没关系,这样也能看懂。 另外,你自己的离线模型测试的数据是多少呢?展开
(base) joyiot@joyiot-Default-string:~/Desktop/3/CNStream/tools/bin$ ./get_model_perfinfo -offline_model ../../data/models/yolov5_4c4b_rgb_220.cambricon ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.1 a884a9a Avg hardware time: 176.909 Avg software time: 178.651 Fps: 22.3901 我用的是工控机 我们是一个设备吗?这差距有点大展开
有关性能吞吐和数据输出,#9解释的比较清楚哈。 另外,我这边测出来的yolov5_4c4b_rgb_220.cambricon离线模型理论性能数据和你那里有一定偏差。 ``` ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.2 adb709e Avg hardware time: 108.068 Avg software time: 110.149 Fps: 36.3145 ``` 因为是4batch的模型,所以吞吐计算是1000 / 110 * 4 ~= 36fps。 但这个是理论吞吐,用cnstream 解码+推理,我这边测下来单路可以到36fps展开
我这边测试的性能数据是通过cnstream自带的工具获得的。 编译时打开编译选项,-Dbuild_get_model_perfinfo=ON 编译成功后,工具在,tools/bin下,执行 ./get_model_perfinfo -offline_model=data/models/yolov3_b4c4_argb_mlu220.cambricon获得性能数据。 替换离线模型为你自己的离线模型进行测试。展开
我这边测试的性能数据是通过cnstream自带的工具获得的。 编译时打开编译选项,-Dbuild_get_model_perfinfo=ON 编译成功后,工具在,tools/bin下,执行 ./get_model_perfinfo -offline_model=data/models/yolov3_b4c4_argb_mlu220.cambricon获得性能数据。 替换离线模型为你自己的离线模型进行测试。展开
有关性能吞吐和数据输出,#9解释的比较清楚哈。 另外,我这边测出来的yolov5_4c4b_rgb_220.cambricon离线模型理论性能数据和你那里有一定偏差。 ``` ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.2 adb709e Avg hardware time: 108.068 Avg software time: 110.149 Fps: 36.3145 ``` 因为是4batch的模型,所以吞吐计算是1000 / 110 * 4 ~= 36fps。 但这个是理论吞吐,用cnstream 解码+推理,我这边测下来单路可以到36fps展开
这个130MB 怎么上传呢?新开一个帖子吗? 我说的官方模型 就是 yolov5_4c4b_rgb_220.cambricon 这个离线模型,这个名字意思是这个模型是4核 并且batch size为4吗? 关于这个模型我有些疑问: 1.用这个模型在进行cnrt离线推理时,单张图的结果是 input shape: 4 640 640 3 output shape: 4 1 1 7232 HardwareTime:245.296000(ms) E2ETime:252.535000(ms) boxnum:1024 ========================= -1505 -1461 1193 164.375 0.854004 0.313477 -3138 -737.5 -72.5 860 0.71875 -2.07422 -2462 -821 -1420 -45.3125 0.692871 -4.17188 -1520 -362.5 -907.5 787 0.594238 -1.33203 -1236 -1049 1048 975.5 0.37207 -3.10742 511.25 453 568.5 623.5 0.290771 56 ....... ---------------------------------------- 结果来看 ,并没有进行后处理,是cnstream自己就带着后处理?这样的话相当于我自己的模型是把后处理做了两遍 2.模型的推理速度是245ms 那么最快也只能到4fps呀,cnstream中的17是怎么跑出来的呢展开
这个130MB 怎么上传呢?新开一个帖子吗? 我说的官方模型 就是 yolov5_4c4b_rgb_220.cambricon 这个离线模型,这个名字意思是这个模型是4核 并且batch size为4吗? 关于这个模型我有些疑问: 1.用这个模型在进行cnrt离线推理时,单张图的结果是 input shape: 4 640 640 3 output shape: 4 1 1 7232 HardwareTime:245.296000(ms) E2ETime:252.535000(ms) boxnum:1024 ========================= -1505 -1461 1193 164.375 0.854004 0.313477 -3138 -737.5 -72.5 860 0.71875 -2.07422 -2462 -821 -1420 -45.3125 0.692871 -4.17188 -1520 -362.5 -907.5 787 0.594238 -1.33203 -1236 -1049 1048 975.5 0.37207 -3.10742 511.25 453 568.5 623.5 0.290771 56 ....... ---------------------------------------- 结果来看 ,并没有进行后处理,是cnstream自己就带着后处理?这样的话相当于我自己的模型是把后处理做了两遍 2.模型的推理速度是245ms 那么最快也只能到4fps呀,cnstream中的17是怎么跑出来的呢展开
方便提供一下你的离线模型文件吗
请登录后评论