LV.1

tiger_k

168积分3赞

23 帖子 113 回复 0 收藏

TA的动态

TA的帖子

TA的回复

关于cnstream的使用 我的回复：#11Gaoyujia回复我这边测试的性能数据是通过cnstream自带的工具获得的。编译时打开编译选项，-Dbuild_get_model_perfinfo=ON 编译成功后，工具在，tools/bin下，执行 ./get_model_perfinfo -offline_model=data/models/yolov3_b4c4_argb_mlu220.cambricon获得性能数据。替换离线模型为你自己的离线模型进行测试。展开(base) joyiot@joyiot-Default-string:~/Desktop/3/CNStream/tools/bin$ ./get_model_perfinfo -offline_model ../../data/models/yolov5_4c4b_rgb_220.cambricon ----------------------input num: 1 model input shape 0: ShapeEx (4, 640, 640, 3) ---------------------output num: 1 model output shape 0: ShapeEx (4, 1, 1, 7232) CNRT: 4.10.1 a884a9a Avg hardware time: 176.909 Avg software time: 178.651 Fps: 22.3901 我用的是工控机我们是一个设备吗？这差距有点大 0

我的回复：#13tiger_k回复文档里说的优化将focus用conv实现修改了class Focus(nn.Module): 这是不是就相当于使用了firstconv呢？展开使用half优化之后，融合模式结果是对的，但是使用offline demo加载离线模型推理就错了。没有使用half优化的话就没问题。楼主有遇到这个问题吗？还是说需要修改offline的代码呢 0

我的回复：#12ssssan回复[图片]文档里说的优化将focus用conv实现修改了class Focus(nn.Module): 这是不是就相当于使用了firstconv呢？ 0

关于yolov5m模型在cnstream中的适配 我的回复：#4jiapeiyuan回复1）内存占用主要是指运行时所使用的栈空间的内存，跟中间数据规模有关。模型本身的大小是指令+权值，这两个size不是一回事。 2）infer这个插件比较特殊，是client/server模式，parallelism表示有几个client，就是有几个线程去喂数据，engine_num表示有几个server，就是几个真正推理的线程在执行forward操作。使用的设备内存跟engine_num有关，跟parallelism无关展开好的非常感谢 0

关于cnstream的使用 我的回复：#6Gaoyujia回复方便提供一下你的离线模型文件吗这个130MB 怎么上传呢？新开一个帖子吗？我说的官方模型就是 yolov5_4c4b_rgb_220.cambricon 这个离线模型，这个名字意思是这个模型是4核并且batch size为4吗？关于这个模型我有些疑问： 1.用这个模型在进行cnrt离线推理时，单张图的结果是 input shape: 4 640 640 3 output shape: 4 1 1 7232 HardwareTime:245.296000(ms) E2ETime:252.535000(ms) boxnum:1024 ========================= -1505 -1461 1193 164.375 0.854004 0.313477 -3138 -737.5 -72.5 860 0.71875 -2.07422 -2462 -821 -1420 -45.3125 0.692871 -4.17188 -1520 -362.5 -907.5 787 0.594238 -1.33203 -1236 -1049 1048 975.5 0.37207 -3.10742 511.25 453 568.5 623.5 0.290771 56 ....... ---------------------------------------- 结果来看，并没有进行后处理，是cnstream自己就带着后处理？这样的话相当于我自己的模型是把后处理做了两遍 2.模型的推理速度是245ms 那么最快也只能到4fps呀，cnstream中的17是怎么跑出来的呢 0

关于cnstream的使用 我的回复：#5Gaoyujia回复使用官方模型19fps，指的是转换为离线模型后，使用cnstream能到19fps吗？使用官方模型指的是直接运行demo会自动下载一个yolov5的离线模型，用这个模型在cnstream中进行detect ，能达到19fps 0

关于cnstream的使用 我的回复：#3zhupengdong回复“3.配置文件是cnstream中的json文件吗” 是的，JSON文件。输入帧率大概是多少我是直接修改官方的跟踪demo 将模型替换为我自己的模型，输入帧率是在解码模块吗？我在decode_config.json 中并没有看到相关的配置。但是使用官方的模型，整体速度能到19fps 0

关于cnstream的使用 我的回复：#1Gaoyujia回复有几个问题需要确认一下：1，什么平台的板卡。MLU270/MLU2202，离线模型的batch_size和core数目是多少3，麻烦提供一下配置文件4，几路视频，分辨率多少？展开1.使用的工控机 MLU220 2.离线模型的配置core4 batch4 代码如下 ct.set_core_number(4) trace_input = torch.randn(4, 3, 640, 640, dtype=torch.float) 3.配置文件是cnstream中的json文件吗 4.视频1路输入分辨率1280*720 0

关于yolov5m模型在cnstream中的适配 我的回复：#2jiapeiyuan回复分配内存报错了，监视一下ddr内存，可能是内存不够同时跑4个yolo5m的模型好的，可是 X模型明明比m模型要大得多呀。 1.内存的占用和模型本身的大小是相关的吗？ 2.这里说的跑四个yolov5m模型是哪个参数中设定的？ \"engine_num\" \"parallelism\" 0

关于离线模型优化 我的回复：This is the Twins File of "y5x.cambricon". Function number: 1 ---------------kernel graph-------------------- Function #0 { Kernel num:1 Cache mode:0 Name: subnet0 Input number: 1 Input #0. Mask: 338036233 Shape(dim): 1 640 640 3 Name: Id: 3107 Data type: CNRT_FLOAT32 Dim Order: CNRT_NHWC Quantize position: 0 Quantize scale: 0.000000 Output number: 1 Output #0. Mask: 338036233 Shape(dim): 1 1 1 7232 Name: Id: 4478 Data type: CNRT_FLOAT32 Dim Order: CNRT_NHWC Quantize position: 0 Quantize scale: -0.000000 Kernel header #0: Name: subnet0710 Core version: Model Parallelism: 4 Core limit: 4 Inst data split: true } 0

上一页 1 2 3 4 5 6 7 8 下一页