切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
QiuJiang
106
积分
8
赞
5
帖子
23
回复
3
收藏
TA的动态
TA的帖子
TA的回复
生成离线模型失败
我的回复:#2qiuming回复上面的是我读取配置的部分了,另外目前还没到模型量化的过程,只是单纯的导出离线模型,难道说导出离线模型必须要量化才行吗?展开寒武纪200这一代产品主要是定点计算核,所有模型都需要先量化,再生成离线模型。看上去您对寒武纪产品暂时没有系统的了解,社区中有详细的产品和软件栈介绍视频,请查阅:https://developer.cambricon.com/index/curriculum/index/classid/7.html
0
caffe模型量化时不支持多个输入吗
我的回复:你好,寒武纪caffe 支持模型有2个输入的情况,量化方式请参考caffe 手册:https://www.cambricon.com/docs/caffe/Caffe_10_tools/Caffe_tools.html
0
MLU220 请教yolov5s6 多batchsize推理速度问题
我的回复:ini 配置文件的来源请参考手册:https://www.cambricon.com/docs/pytorch/pytorch_11_tools/Pytorch_tools.html?highlight=config%20ini#id23
0
MLU220 请教yolov5s6 量化问题及部署推理问题
我的回复:#16shimin.an回复请教下,MLU220上部署yolov5s-6.0时,有没有遇到流程正常未报错,但是离线模型无法生成的情况?quantized_net = torch_mlu.core.mlu_quantize.quantize_dynamic_mlu(model)state_dict = torch.load("./yolov5s_int8.pt") quantized_net.load_state_dict(state_dict, strict=False) ct.set_core_version('MLU220') quantized_net.eval().float()quantized_net.to(ct.mlu_device()) if opt.jit: print("### jit") ct.save_as_cambricon('yolov5s_int8_1_4') torch.set_grad_enabled(False) ct.set_core_number(4) trace_input = torch.randn(1, 3, 640, 640, dtype=torch.float).to(ct.mlu_device()) net = torch.jit.trace(quantized_net, trace_input, check_trace = False) #net(trace_input) ct.save_as_cambricon("")展开你好,#net(trace_input)这一行代码需要解开注释,在设置完(这里它只是一个标志位)ct.save_as_cambricon('yolov5s_int8_1_4')之后,需要对 trace 过的模型推理一次,然后他才会保存离线模型。
1
MLU220 请教yolov5s6 多batchsize推理速度问题
我的回复:#3QiuJiang回复从标题看上去您这个是yolov5_v6 版本吗? 这个模型里面包含SiLU激活,当前框架不能很好地对他进行融合优化,可以尝试使用下面的 config.ini 对其进行优化:config.ini文件:[代码]然后在生成模型之前设置这个环境变量:[代码]特别注意ini文件需要与入口函数所在py文件在同一路径展开利用上述config.ini文件重新生成220的离线模型,然后再次测试性能。
0
MLU220 请教yolov5s6 多batchsize推理速度问题
我的回复:#2dao027回复好的,了解了,非常感谢!!目前统计的是单独推理的时间,除去预处理后处理时间、cpu和MLU设备之间的数据拷贝时间、cnrtInvokeRuntimeContext_V2的时间,即仅仅是cnrtSyncQueue这一步的前后时间差,因为发现推理中这一步耗时占比最多[代码]batchsize=4的时候,这一步平均耗时约137msbatchsize=1的时候,这一步平均耗时约41ms展开从标题看上去您这个是yolov5_v6 版本吗? 这个模型里面包含SiLU激活,当前框架不能很好地对他进行融合优化,可以尝试使用下面的 config.ini 对其进行优化:config.ini文件:; Switchers for addr optimization. [AddrOpt] ; Datatype:bool. Desc:The main switch to disable addr optimization(reshape, transpose, split, concat, overlap operations). addrOptDisable=0 ; Switchers for cache model. [CacheModel] ; Datatype:std::string. Desc:Config cache model save path, using absolute path. cacheFilePath= ; Datatype:std::string. Desc:Config cache model space limit, 1 means 1MB, default space is 2048MB. cacheModelSpaceLimit= ; Variable for Cnlog [Cnlog] ; Datatype:bool. Desc:Dump operation info for core dump debug. opInfoEnable=0 ; Variable for Data [Data] ; Datatype:bool. Desc:if change sopa last layer's store type preConvertEnable=1 ; Switchers for debug tool. [DebugTool] ; Datatype:std::string. Desc:Config dump level to dump the input and output tensors. The argument of dumpLevel can be set as the following values. 0 is the default value, function is closed. If the config option is set as 1, this function will dump the selected output tensors. If the config option is set as 2, this function will dump the selected tensors no matter it is input or output. dumpLevel= ; Datatype:bool. Desc:Dump data with NHWC layout in default, dump NCHW layout if this value is set as 'true'. dumpOrderNHWCDisable=0 ; Datatype:std::string. Desc:Path to save dump files. dumpPath= ; Datatype:bool. Desc:Enable info log level. printInfo=0 ; Variable for Fusion [Fusion] ; Datatype:bool. Desc:if improve backfusion backFusionEnable=1 ; Switchers for general process optimization. [GeneralOpt] ; Datatype:bool. Desc:Disable cluster optimization. clusterOpOptDisable=0 ; Datatype:bool. Desc:Disable internal transpose optimization. transOptDisable=0 ; Switchers for graph optimization. [GraphOpt] ; Datatype:bool. Desc:The main switch to disable graph optimization. optimizeGraphDisable=0 ; Switchers for memory optimization. [MemDeviceOpt] ; Datatype:bool. Desc:Disable internal memory reuse optimization. closeIntmdReuse=0 ; Datatype:bool. Desc:Enable internal memory reuse optimization while closeIntmdReuse is false and core limit is 16. openFullCoreIntmdReuse=0 ; Switchers for operation opt. [OpOpt] ; Datatype:bool. Desc:Enable sigmoid and tanh high precision optimization. activeHighPrecision=0 ; Datatype:bool. Desc:Enable normalize,softmax,sigmoid and tanh high precision optimization. highPrecision=0 ; Datatype:bool. Desc:Enable normalize high precision optimization. normalizeHighPrecision=0 ; Datatype:bool. Desc:Enable softmax high precision optimization. softmaxHighPrecision=0 ; Datatype:bool. Desc:Enable big ci case in topk optimization. topkBigCiOpt=0 ; Switchers for TFU [Tfu] ; Datatype:bool. Desc:Whether to let deconv to be the final layer of tfu. deconvFinal=0 ; Datatype:bool. Desc:Whether to enable TFU fusion enable=1 ; Datatype:bool. Desc:Whether to enable tfu when run fp32/int16 network. fp32Int16Enable=1 ; Datatype:bool. Desc:Whether to fuse deconv op by tfu. fuseDeconv=0 ; Datatype:bool. Desc:Whether to enable tfu shared memory parity optimize. ioParity=1 ; Datatype:int. Desc:Max block number in tfu subgraph maxBlockNum=4 ; Datatype:int. Desc:Max deconv num fused in one tfu maxDeconvNum=2 ; Datatype:bool. Desc:Support multisegment active op. multiSegmentAct=1 ; Datatype:bool. Desc:Whether to skip firstconv skipFirstconv=0 ; Datatype:bool. Desc:Whether to disable TFU when w=1. skipWIsOne=0 ; Datatype:bool. Desc:Whether to enable small ci/co optimize in tfu. smallCiCo=1 ; Datatype:bool. Desc:Whether to enable special net check, which can infulence stride overlap detect by tfu. specialNetCheck=1 ; Datatype:bool. Desc:tfu split on batches. splitOnN=0 ; Datatype:int. Desc:Redundancy computing pixels threshhold in first op strideMaxOverlap=4 ; Datatype:bool. Desc:Swap weight between tfu subgraph(Tfu can fuse deeper). swapWeight=0 skipsimplecase=0 ; Switchers for partition optimize. [PartitionOpt] ; Datatype:bool. Desc:Enable dim H partition and op optimize in interp op. interpOptEnable=0 ; Datatype:bool. Desc:Enable all split concat op optimize based on addr opt in partition decision. partitionOpOptEnable=1 ; Datatype:bool. Desc:Optimize all overlap op in partition decision, overlap op main switch. partitionOverlapOpOptEnable=0然后在生成模型之前设置这个环境变量:export CNML_OPTIMIZE=USE_CONFIG:config.ini特别注意ini文件需要与入口函数所在py文件在同一路径
0
关于cnstream框架下使用USB摄像头的问题
我的回复:你好,不需要打开特殊的编译选项。使用方法可参考sample:
1
mlu220边缘驱动cndev init failed
我的回复:你好,如果之前系统能找到驱动和板卡,用的过程中掉驱动的原因可能是温度过高,请检查散热是否有问题。
0
文档中心的文档无法下载
我的回复:请稍等,工程师正在解决。目前建议先直接使用在线文档,谢谢。
0
请问 CNMON 工具能不能获取某一进程的 MLU 算力使用率?
我的回复:你好,目前暂时只能统计到整张卡的利用率,因为利用率是在硬件上直接统计的;当前只能统计不同进程的显存占用。
0
上一页
1
2
3
4
5
6
7
8
9
10
..
12
下一页
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭