您好,因已超过30天,您侧未更新回复信息,此帖超时关闭,后续遇到问题,请您发起新帖,版主会及时分析处理。
从现象上看,基本是正常的。性能是否合理,还要看输入的shape,以及backbone以外的部分。是否方便提供一个GitHub上的公开参考模型链接呢?
另外,可以通过2种思路尝试去做:1、增加batchsize,一般在4个core的时候,batchsize=4的时候,整体的吞吐是最优的,但是如果是延时敏感性则另当别论。
2、可以将backbone以外的网络部分,逐段逐段的去掉一部分来验证性能,排查下性能瓶颈点在哪个算子或哪段子图,然后我们看看针对这段子图是否有优化手段。
请登录后评论