寒武纪思元270 DirectCV™加速计算机视觉应用 ssssan2020-03-30 17:40:07 回复 1 查看 综合话题
寒武纪思元270 DirectCV™加速计算机视觉应用

计算机视觉(CV)市场继续保持活力


AI在最近10年借助计算力增长逐步转化为行业生产力,最重要的原因之一,便是计算机视觉ComputerVision的实用化。从图像分类、物体检测、图像标注、物体定位等应用,逐步实现产业化落地,如视频分析、智能制造、智能零售和自动驶等。


医疗智能辅助诊断可以借助超过90%的医疗影像分析数据,包括X-ray、显微图片、B超、CT等,来帮助医生快速诊断病情,提升医生的诊断效率。以新冠病毒CT胸片筛查的图片为例,每名患者的胸片多达数十张,采用计算机视觉进行辅助筛查可以把时间从小时级缩减至秒级。可见计算机视觉已经完成从概念、实验室到实际部署的转换。


据多家分析机构统计,2020年计算机视觉在中国地区容量高达753亿元,比2019年增长超过120%,远高于人工智能53%的预期增长率。预计到2022年,CV在中国地区有高达48.2%的年复合增长率。

 

CV应用挑战:影像、图片素材全面进入高清时代,编解码对计算资源占用更可观


随着互联网的内容传播,由传统的OGC(Occupationally-generatedContent职业生产内容)、转向互联网时代更具内容爆发性PGC(Professionally-generated Content 专业生产内容)和UGC(Users-generated Content用户生产内容)内容即服务的模式。


内容服务商为了提供更高质量的内容媒体,通常会以H.264, JPEG等编码格式优化网络互连带宽和宝贵的存储空间;一旦要对这些内容借助AI进行分类、检测和标注时,数据中心将需要海量的编解码计算资源。

 

寒武纪MLU270 DirectCV™让AI更快地帮您完成内容的CV工作


基于寒武纪MLUv02架构的MLU270系列加速卡的峰值AI计算力达到128TOPs(INT8),相比第一代MLU100系列提升达4倍。芯片在设计时,将支持H.264和JPEG编解码格式的软硬加速方案DirectCV™集成到芯片中,为用户提供解码+AI+编码的 “One Stop”解决方案,充分发挥全新MLU270系列加速卡的性能。

 



  • 每条H.264 1080p 30fps视频流的解码和AI分析流程中,若CPU参与解码,CPU、主内存、PCIe通道都会带来额外的系统开销

  •  双路Intel® Xeon® Scalable双路服务器理论最大解码路数为84路,执行多路解码时,CPU开销非常可观

  • DirectCV™可以最小化CPU、主内存和PCIe开销

 

MLU270系列集成DirectCV™解决方案


计算机视觉通常处理的图片数据,均以压缩的方式通过互联网进行传输或保存,常见的图片压缩格式JEPG压缩率为20:1,视频常见的H.264可达到250:1,HEVC甚至达到300:1以上,这些编码格式可充分的帮助客户节约昂贵的网络带宽。但AI加速卡只能处理解码之后的图片或视频,在AI计算前势必要依赖CPU或加速卡本身进行解码。


寒武纪希望帮助客户节约宝贵的网络、PCIe总线带宽,所以在最新一代基于MLUv02构建的AI加速卡MLU270系列中,集成了DirectCV™解决方案。


DirectCV™解决方案可以帮助用户充分卸载计算机视觉应用对CPU的运算压力,编码的图片和视频文件可以直接通过MLU270智能加速卡进行加速,相比传统GPU内置的解码模块,可以支持更多的解码模式和更高的性能。



 DirectCV™支持JPEG编解码功能,可直接提供视觉加速,此时功耗在50w左右,性能功耗比高达42ips/w。当MLU270独立做JPEG解码时可提供超过2500ips的1920*1080图片的解码吞吐能力,此时MLU270-S4整体功耗不超过25w,能效比很高。



DirectCV™进行直接解码+AI算法时,能效比约39 ips/w;整体性能超过传统GPU 2倍以上。

Video Decode + ResNet50 inference:

Hardware:NF5280M5 up to 4*MLU270, Intel(R) Xeon® Gold6230 CPU@2.10GHz, Resnet50, batch size=16; MLU270 running on 52wpower consumption.

Video source:jellyfish-3-mbps-hd-h264_9000 (1080P, 9000 s)

Driver:2.2.3,Neuware: 1.2.2, MLU270 Firmware: v1.1.3

 


作纯解码应用时,可轻松帮助用户构建强大节能的解码计算平台,相比GPU具备更高性能。

Video Decode

Hardware:NF5280M5 up to 4*MLU270, Intel(R) Xeon® Gold6230 CPU@2.10GHz; MLU270 running on 22w power consumption.,Driver:2.2.3, Neuware: 1.2.2,MLU270 Firmware: v1.1.3

 

DirectCV™在ComputerVision应用中,可以帮助服务器系统节约网络、计算、总线的负载,轻松实现“所见即所得”,经实测在4*MLU270-S4和8*MLU270-S4机型上均可实现线性Scale-up,帮助客户充分服务器平台性能,并且保持极高的性能功耗比。

支持DirectCV™的寒武纪云端加速卡MLU270系列

来源:寒武纪微信公众号

 


版权所有 © 2019 寒武纪 Cambricon 备案/许可证号:京ICP备17003415
关闭