感谢您的回复。最近刚接触这方面的内容,我还想问一个问题。在那个cuda转bang c的帖子中,我看到说“BANG C并不是靠将计算拆分成多个线程来获得性能提升的”,那么MLU的优势主要是靠什么呢?展开
感谢您的回复。最近刚接触这方面的内容,我还想问一个问题。在那个cuda转bang c的帖子中,我看到说“BANG C并不是靠将计算拆分成多个线程来获得性能提升的”,那么MLU的优势主要是靠什么呢?展开
如果模型里面包含大量的标量计算,mlu270可能性能没有发挥出来,需要看实际情况具体分析,看看有无优化空间。另外由于硬件架构的特点,mlu270更有利于吞吐的模式,能发挥出很大的fps;只看单帧时延的话,单核不能达到最优,16核能快一点,但受限于模型结构,可能达不到线性的增加展开
请登录后评论