切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
jiapeiyuan
190
积分
2
赞
2
帖子
8
回复
2
收藏
TA的动态
TA的帖子
TA的回复
cnrtConvertFloatToHalf转换慢
我的回复:1)你现在用的cnrtConvertFloatToHalf这个接口,不能做量化,它的作用是float32转float16,直接截断成16bit浮点数2)想要量化,要用cnrtCreateQuantizedParam + cnrtCastDataType 这两个接口来做,先设置pos/scale,生成量化参数变量,然后再cast。pos和scale需要你自己设置。以下几个公式可参考:positon = floor(log(max)) - (n - 2)scale = (2^(n-1) - 1) * 2^pos / maxq = round(r * scale / 2^pos)注:log是以2为底的,r表示实数,q表示量化后的数,max是float32里面绝对值最大的数。这是按照绝对值最大值的方式计算量化参数的方法。可参考cnml用户文档里面关于量化的描述,或者参考公网的量化方法,都是一致的
0
关于并行程序中taskId、taskIdX、taskIdY、taskIdZ的疑惑
我的回复:1)这个是cngdb在显示内置变量时的bug,后面版本会修复。可以在代码里添加打印,把这几个变量打印出来,应该是符合那个公式的2)随机分的,挑空闲的cluster去调度,这样散热比较均匀
0
mlu220 显存疑问
我的回复:当然有显存,一般都是4G的,cnmon可以看到
0
长考解码h264数据,某一帧会突然卡在cnvideoDecFeedData里面timeout
我的回复:要关注一下,解码的输出内存和推理访问的内存,有没有重叠的。或者不排除有内存越界的问题,某个地方在mlu内存上越界了,导致推理计算内部死循环出不来了,或者循环次数太高导致超时了
0
长考解码h264数据,某一帧会突然卡在cnvideoDecFeedData里面timeout
我的回复:解码出来的数据,是(1)直接add ref,送给推理,推理结束才释放,还是(2)拷贝到另一块ddr内存上,然后直接释放。如果是(1)的话,可能是推理的环节卡住了,导致没有及时release ref。可以试试,不跑推理,只跑解码,会不会卡死,排除掉互相影响的因素。如果这样没有卡死,可以采用相同方式,逐渐缩小推理代码的范围,定位是哪块代码影响到了解码。还有一个办法,统计算法流程的执行时间,看能不能正常跑下去,有没有超过10s的
0
长考解码h264数据,某一帧会突然卡在cnvideoDecFeedData里面timeout
我的回复:要先检查一下,应用层有没有长时间拿住outputbuffer,是不是没有释放(release reference)。另外再看一下dmesg里有没有报什么异常
0
Delphi能用吗
我的回复:不支持
0
多路解码时创建解码器的硬件实例cnvideoDecInstance的设置问题
我的回复:feeddata时,flag 标志位加上CNVIDEODEC_FLAG_END_OF_FRAMEflags = xxx | CNVIDEODEC_FLAG_END_OF_FRAME(xxx为原有的标志)
0
cnrtConvertFloatToHalf转换慢
我的回复:你是要把float转成fp16,还是int16?这两个接口不一样,int16的话,可以用cnrtCastDataType这个转成half(fp16)跟“向量乘”,在计算复杂度上不在一个量级,前者的逻辑和操作要复杂的多,所以这样对比不是很合适cnrtConvertFloatToHalf这个接口是在cpu上做的,我们已经做到尽量最优了,如果cpu支持avx,也使用avx指令集加速,所以我们找不到什么优化空间。如果你有别的方法,也可以替换成自己的算法
0
half与float转换的关系是什么?
我的回复:1)尾数位和指数位截断,跟量化不一样,可参考https://blog.csdn.net/qq_36533552/article/details/1058857142)精度损失,如果只看尾数位的话,就是从float的23bit变成half的10bit,损失掉了13bit,再结合half的指数位,还有考虑subnormal的情况,就比较复杂了
0
上一页
1
...
4
5
6
7
8
9
10
11
12
13
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭