LV.1

jiapeiyuan

190积分2赞

2 帖子 8 回复 2 收藏

TA的动态

TA的帖子

TA的回复

cnrtConvertFloatToHalf转换慢 我的回复：1）你现在用的cnrtConvertFloatToHalf这个接口，不能做量化，它的作用是float32转float16，直接截断成16bit浮点数2）想要量化，要用cnrtCreateQuantizedParam + cnrtCastDataType 这两个接口来做，先设置pos/scale，生成量化参数变量，然后再cast。pos和scale需要你自己设置。以下几个公式可参考：positon = floor(log(max)) - (n - 2)scale = (2^(n-1) - 1) * 2^pos / maxq = round(r * scale / 2^pos)注：log是以2为底的，r表示实数，q表示量化后的数，max是float32里面绝对值最大的数。这是按照绝对值最大值的方式计算量化参数的方法。可参考cnml用户文档里面关于量化的描述，或者参考公网的量化方法，都是一致的 0

关于并行程序中taskId、taskIdX、taskIdY、taskIdZ的疑惑 我的回复：1）这个是cngdb在显示内置变量时的bug，后面版本会修复。可以在代码里添加打印，把这几个变量打印出来，应该是符合那个公式的2）随机分的，挑空闲的cluster去调度，这样散热比较均匀 0

mlu220 显存疑问 我的回复：当然有显存，一般都是4G的，cnmon可以看到 0

长考解码h264数据，某一帧会突然卡在cnvideoDecFeedData里面timeout 我的回复：要关注一下，解码的输出内存和推理访问的内存，有没有重叠的。或者不排除有内存越界的问题，某个地方在mlu内存上越界了，导致推理计算内部死循环出不来了，或者循环次数太高导致超时了 0

长考解码h264数据，某一帧会突然卡在cnvideoDecFeedData里面timeout 我的回复：解码出来的数据，是(1)直接add ref，送给推理，推理结束才释放，还是(2)拷贝到另一块ddr内存上，然后直接释放。如果是(1)的话，可能是推理的环节卡住了，导致没有及时release ref。可以试试，不跑推理，只跑解码，会不会卡死，排除掉互相影响的因素。如果这样没有卡死，可以采用相同方式，逐渐缩小推理代码的范围，定位是哪块代码影响到了解码。还有一个办法，统计算法流程的执行时间，看能不能正常跑下去，有没有超过10s的 0

长考解码h264数据，某一帧会突然卡在cnvideoDecFeedData里面timeout 我的回复：要先检查一下，应用层有没有长时间拿住outputbuffer，是不是没有释放（release reference）。另外再看一下dmesg里有没有报什么异常 0

Delphi能用吗 我的回复：不支持 0

多路解码时创建解码器的硬件实例cnvideoDecInstance的设置问题 我的回复：feeddata时，flag 标志位加上CNVIDEODEC_FLAG_END_OF_FRAMEflags = xxx | CNVIDEODEC_FLAG_END_OF_FRAME（xxx为原有的标志） 0

cnrtConvertFloatToHalf转换慢 我的回复：你是要把float转成fp16，还是int16？这两个接口不一样，int16的话，可以用cnrtCastDataType这个转成half（fp16）跟“向量乘”，在计算复杂度上不在一个量级，前者的逻辑和操作要复杂的多，所以这样对比不是很合适cnrtConvertFloatToHalf这个接口是在cpu上做的，我们已经做到尽量最优了，如果cpu支持avx，也使用avx指令集加速，所以我们找不到什么优化空间。如果你有别的方法，也可以替换成自己的算法 0

half与float转换的关系是什么？ 我的回复：1）尾数位和指数位截断，跟量化不一样，可参考https://blog.csdn.net/qq_36533552/article/details/1058857142）精度损失，如果只看尾数位的话，就是从float的23bit变成half的10bit，损失掉了13bit，再结合half的指数位，还有考虑subnormal的情况，就比较复杂了 0

上一页 1 ... 4 5 6 7 8 9 10 11 12 13 下一页