fp_to_int实现的量化过程不对。首先,量化的过程并不是调用mlu_quantize.quantize_dynamic_mlu()完成的,这一步只是传递了一些配置而已。量化的原理其实是在CPU上用一部分样本运行推理过程,从而在推理过程中统计各层的参数和input的数值范围,从而计算出最匹配的量化校准参数。所以需要在这一步之后,按照正常的流程,用部分真实的输入样本去推理若干次,然后再去save()才能得到量化校准后的模型。
fp_to_int实现的量化过程不对。
首先,量化的过程并不是调用mlu_quantize.quantize_dynamic_mlu()完成的,这一步只是传递了一些配置而已。量化的原理其实是在CPU上用一部分样本运行推理过程,从而在推理过程中统计各层的参数和input的数值范围,从而计算出最匹配的量化校准参数。所以需要在这一步之后,按照正常的流程,用部分真实的输入样本去推理若干次,然后再去save()才能得到量化校准后的模型。
请登录后评论