首页> 文档中心>白皮书>寒武纪 IP 白皮书
白皮书

寒武纪 IP 白皮书

 

1. IP简介

寒武纪系列IP是寒武纪科技推出的高性能、低功耗的深度学习处理器IP群,可广泛应用于各类智能终端,包括智能手机、IPC(IP camera)、辅助驾驶、机器人等方向。该系列IP目前包含1H/1M(Cambricon-1H/1M)两个子系列。


寒武纪系列IP拥有针对神经网络算法特性的独特处理器架构(图1-1所示为架构示意图)。相比传统的通用处理器和图形处理器,寒武纪1H/1M适用于各类低功耗智能终端芯片,可显著提升深度学习的处理速度和能效。


1567561992308012.png


图1.1 寒武纪1H/1M系列IP架构示意图


1.1 1H系列


1H 作为寒武纪第二代架构,较初代产品其能效比有着数倍提升,可以广泛应用于计算机视觉、语言识别、自然语言处理等智能处理关键领域。


1.1.1 Cambricon-1H16

该版本IP作为1H系列高性能版本,使用256MAC 16位浮点运算器以及512MAC 8位定点运算器。在1GHz主频下,进行16位浮点突触运算的峰值速度为0.5Tops;进行8位定点突触运算的峰值速度为1Tops。1H16还支持模型硬件稀疏化加速技术。


1.1.2 Cambricon-1H8

该版本IP作为1H系列中量级版本,使用512MAC 8位定点运算器。在1GHz主频下,进行8位定点突触运算的峰值速度为1Tops。


1.1.3 Cambricon-1H8mini

该版本IP作为1H系列轻量级版本,使用256MAC 8位定点运算器。在1GHz主频下,进行8位定点突触运算的峰值速度为0.5Tops。


1.2 1M系列


1M作为寒武纪第三代架构,具备了更高性能、更低功耗和更强的完备性,混合支持fp32/fp16/int32/int16/int8/int4位宽,增加了压缩解压缩模块。在上代产品的基础上,可支持个性化深度学习,也可使用于多路视频实时处理和自动驾驶等领域。


1.2.1 Cambricon-1M-4K

该版本IP作为1M系列高性能版本,使用了4096MAC 8位定点运算器。在1GHz主频下,进行8位定点突触运算的峰值速度为8Tops,进行16位定点突触运算的峰值速度为4Tops,进行32位定点突触运算的峰值速度为1Tops。


1.2.2 Cambricon-1M-2K

该版本IP作为1M系列中量级版本,使用了2048MAC 8位定点运算器。在1GHz主频下,进行8位定点突触运算的峰值速度为4Tops,进行16位定点突触运算的峰值速度为2Tops,进行32位定点突触运算的峰值速度为0.5Tops。


1.2.3 Cambricon-1M-1K

该版本IP作为1M系列轻量级版本,使用了1024MAC 8位定点运算器。在1GHz主频下,进行8位定点突触运算的峰值速度为2Tops,进行16位定点突触运算的峰值速度为1Tops,进行32位定点突触运算的峰值速度为0.25Tops。


1.3 产品总览


寒武纪IP Family的算力范围涵盖了从0.5Tops-8Tops各区间。无论是智能手机SoC、IPC SoC或车载平台SOC,在各种算力规模功耗限制的场景下都能通过简单快速的集成寒武纪1H/1M标准IP,从而获得强大的深度学习本地处理能力。每一款IP型号的片上SRAM的容量都是灵活可配置的,并且可以提供基于多核的IP架构。图1-2为寒武纪IP Family算力分布图,图1-3为多核架构示意图。


WX20190904-095648.png


图1.2 寒武纪IP Family算力分布图


WX20190904-095717.png


图1.3 寒武纪1H/1M系列多核IP架构示意图


 

2. 应用领域

寒武纪IP Family目前支持所有现有的神经网络算法,包括但不限于CNN/DNN/DBN/ RNN/LSTM/SOM/DeepID等,且会不断的更新以便支持新型算法。


2.1 机器视觉


典型技术:追踪、识别和属性分析,行人、车辆的检测、追踪、识别和属性分析、文字检测和识别、物体检测和识别、视觉寻路。

典型应用:IPC、自动驾驶、智能交通、机器人视觉(如无人机等)、图像搜索引擎、图像和视频理解、图像和视频美化。


2.2 语音技术

典型技术:语音识别、语音合成、声纹识别、多麦克风阵列系统。

典型应用:语音输入、语音控制、智能助手、机器翻译、机器人听觉。


2.3 自然语言

典型技术:词句嵌入、语义建模。

典型应用:聊天机器人、智能助手、智能客服、图像/视频理解、机器翻译。

 

3. 特性和优势


3.1 1H/1M通用特性


  • 在极小的面积下,提供高性能低功耗的深度学习解决方案;


  • 极高的能效比 ,相比传统处理器,有数倍至数十倍的能效提升;


  • 支持对神经网络输入进行批处理(batch),相较于单batch,多batch下权值不需要重复的读写,可以有效的提高利用率和吞吐量;


  • 采用广泛应用的AXI接口,易于集成。可根据客户需求定制接口参数(数据位宽,地址位宽,队列深度等);


  • 灵活的授权方式,包括单次授权,多次授权等;


  • 可根据用户需求快速定制IP,从0.5T算力到8T算力核可供选择,并提供多核架构以满足不同场景的算力覆盖。


3.2 1M系列新增特性

  • 可以混合fp32/fp16/int32/int16/int8/int4位宽,在不同精度需求场景下可以在保证精度的同时最大限度发挥性能;


  • 硬件支持对权值和中间计算数据进行无损的压缩解压缩,在不损失精度的前提下大大节省带宽,DRAM容量。

 

4. 软件支持

详见《寒武纪科技端云一体白皮书.docx》。

 

官方微博 官方微信
版权所有 © 2019 寒武纪 Cambricon 备案/许可证号:京ICP备17003415
关闭