哦哦 union1指的是转化模型时指定core_num为4吗?
是运行的union1模式(用4个小核)吗?下面回答是按照union1的模式去解释的。1)4 batch的硬件时间应该会小于1 batch的4倍,肯定不是线性的,至于具体有多大的收益,取绝于模型结构。2)4batch模型在n方向是4,底层算子在拆分任务时,可控制的维度比较充足,拆分的效果更好。1batch n方向是1,只能在hwc三个方向拆,选择的余地比较有限,会出现“1个小核在干活,其他3个小核在闲着”的情况比较多,吞吐就不如4batch的展开
请登录后评论