1)你现在用的cnrtConvertFloatToHalf这个接口,不能做量化,它的作用是float32转float16,直接截断成16bit浮点数2)想要量化,要用cnrtCreateQuantizedParam + cnrtCastDataType 这两个接口来做,先设置pos/scale,生成量化参数变量,然后再cast。pos和scale需要你自己设置。以下几个公式可参考:positon = floor(log(max)) - (n - 2)scale = (2^(n-1) - 1) * 2^pos / maxq = round(r * scale / 2^pos)注:log是以2为底的,r表示实数,q表示量化后的数,max是float32里面绝对值最大的数。这是按照绝对值最大值的方式计算量化参数的方法。可参考cnml用户文档里面关于量化的描述,或者参考公网的量化方法,都是一致的展开