开发者论坛

全部回复

LV.2 #2 sys回复

如果我想测它的延迟和吞吐量，应该怎么作呢

2021-10-10 16:48:47 0| 回复
LV.1 #1 bigbang回复

亲，如果想跑量化模型的话，可以直接使用量化后的模型做推理，所以可以去掉net_quantization.load_state_dict(torch.load('test_quantization.pth'))试一下；

如果想加载量化模型的话，可以使用
net=Net().eval()
net_quantization = mlu_quantize.quantize_dynamic_mlu(net)
net_quantization.load_state_dict(torch.load('test_quantization.pth'))
net_mlu = net_quantization.to(ct.mlu_device())
input_mlu = input_data.to(ct.mlu_device())
output=net_mlu(input_mlu)
print(output.cpu())

2021-09-23 17:13:45 0| 回复

请登录后评论