开发者论坛

全部回复

LV.6 #11 三叶虫回复

您好，因已超过30天，您侧未更新回复信息，此帖超时关闭，后续遇到问题，请您发起新帖，版主会及时分析处理。

2023-01-31 15:30:57 0| 回复
LV.2 #10 含含回复
#9雕刻时光回复
这个已经是INT16的量化了
重新梳理下当前的情况：

1.先在MLU的容器内将CPU结果和 370或者是GPU 保持一致。
MLU容器内的pt是需要unzip的，先保证unzip的模型在运行结果正确。
2.unzip 模型结果一致后进行模型量化
可以调整下后models/yolo.py的 class Detect(nn.Module): -> def forward(self, x): 中 x 直接return ；
参看如下：
for i in range(self.nl):
x[i] = self.m[i](x[i])
y = x[i].sigmoid()
print("Detect forward i:{}".format(i))
z.append(y)
return tuple(z)

3. 对比下cpu 和 mlu的结果情况

4.还有一个需要注意的点，如果MLU 容器结果不对，可以对下网络结构，可能是因为结构对齐导致的问题：
models/experimental.py 中默认会进行fuse，可以注释掉，参考如下
def attempt_load(weights, map_location=None):
# Loads an ensemble of models weights=[a,b,c] or a single model weights=[a] or weights=a
model = Ensemble()
for w in weights if isinstance(weights, list) else [weights]:
attempt_download(w)
ckpt = torch.load(w, map_location=map_location) # load
#model.append(ckpt['ema' if ckpt.get('ema') else 'model'].float().fuse().eval()) # FP32 model
model.append(ckpt['ema' if ckpt.get('ema') else 'model'].float().eval()) # FP32 model
2022-12-29 18:51:42 2| 回复
LV.1 #9 雕刻时光回复
#8含含回复
可以调整下量化参数，如更改成INT16。
这个已经是INT16的量化了
2022-12-28 09:43:03 0| 回复

LV.2 #8 含含回复

#6雕刻时光回复

[图片]dif.txt你好,我按照10.2精度调试测试的结果记录在附件dif.txt中,MLU在线推理(加载的量化模型),CPU推理,模拟量化推理工具进行推理.其中MLU在线推理和CPU推理一致,且这二者均和模拟量化推理不一致,在dump逐层对比中,余弦相似度似乎差异较大

展开

可以调整下量化参数，如更改成INT16。

2022-12-27 18:08:48 0| 回复

LV.1 #7 雕刻时光回复

量化模型检查,存在scale该key,部分信息如下
model.75.conv.weight
model.75.conv.bias
model.75.conv.scale
model.75.conv.quantized_mode : scale = tensor([2], dtype=torch.int32)
model.76.conv.weight
model.76.conv.bias
model.76.conv.scale
model.76.conv.quantized_mode : scale = tensor([2], dtype=torch.int32)

2022-12-27 18:08:25 0| 回复
LV.1 #6 雕刻时光回复

dif.txt
你好,我按照10.2精度调试测试的结果记录在附件dif.txt中,MLU在线推理(加载的量化模型),CPU推理,模拟量化推理工具进行推理.其中MLU在线推理和CPU推理一致,且这二者均和模拟量化推理不一致,在dump逐层对比中,余弦相似度似乎差异较大

2022-12-27 17:55:13 0| 回复

LV.1 #5 雕刻时光回复

#3含含回复

可以尝试基于框架去运行该模型，逐层DUMP下CPU和MLU的运行结果。逐层dump 可以参看《寒武纪 PyTorch 用户手册》10.2 精度调试工具

展开

逐层对比.png

逐层对比后是这样的

2022-12-27 16:30:13 0| 回复

LV.1 #4 雕刻时光回复
#3含含回复
可以尝试基于框架去运行该模型，逐层DUMP下CPU和MLU的运行结果。逐层dump 可以参看《寒武纪 PyTorch 用户手册》10.2 精度调试工具
展开
我转模型的在线推理在370卡上不只是输出框MLU和CPU一致，甚至网络的输出数值都相差不大，但是转离线模型部署在220盒子上就出问题了，这个采用精度调试工具应该无法定位吧
2022-12-27 15:14:05 0| 回复
LV.2 #3 含含回复
#2雕刻时光回复
YOLOv7在盒子端220运行是异常的，但是在线模型370结果是正常的，转模型的输出为3个特征图，没有采用DetectionOutput算子
展开
可以尝试基于框架去运行该模型，逐层DUMP下CPU和MLU的运行结果。逐层dump 可以参看《寒武纪 PyTorch 用户手册》10.2 精度调试工具
2022-12-26 12:55:03 0| 回复
LV.1 #2 雕刻时光回复
#1含含回复
问题没太看清楚，是生成的Yolov7模型在220 运行结果异常？现在Yolov7的是后处理是怎么处理的？是否使用DetectionOutput算子？
展开
YOLOv7在盒子端220运行是异常的，但是在线模型370结果是正常的，转模型的输出为3个特征图，没有采用DetectionOutput算子
2022-12-23 15:26:56 0| 回复
LV.2 #1 含含回复

问题没太看清楚，是生成的Yolov7模型在220 运行结果异常？
现在Yolov7的是后处理是怎么处理的？是否使用DetectionOutput算子？

2022-12-23 09:52:18 0| 回复

请登录后评论