寒武纪 IP 白皮书
1. IP简介
寒武纪系列IP是寒武纪科技推出的高性能、低功耗的深度学习处理器IP群,可广泛应用于各类智能终端,包括智能手机、IPC(IP camera)、辅助驾驶、机器人等方向。该系列IP目前包含1H/1M(Cambricon-1H/1M)两个子系列。
寒武纪系列IP拥有针对神经网络算法特性的独特处理器架构(图1-1所示为架构示意图)。相比传统的通用处理器和图形处理器,寒武纪1H/1M适用于各类低功耗智能终端芯片,可显著提升深度学习的处理速度和能效。
图1.1 寒武纪1H/1M系列IP架构示意图
1.1 1H系列
1H 作为寒武纪第二代架构,较初代产品其能效比有着数倍提升,可以广泛应用于计算机视觉、语言识别、自然语言处理等智能处理关键领域。
1.1.1 Cambricon-1H16
该版本IP作为1H系列高性能版本,使用256MAC 16位浮点运算器以及512MAC 8位定点运算器。在1GHz主频下,进行16位浮点神经网络运算的峰值速度为0.5Tops;进行8位定点神经网络运算的峰值速度为1Tops。
1.1.2 Cambricon-1H8
该版本IP作为1H系列中量级版本,使用512MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为1Tops。
1.1.3 Cambricon-1H8mini
该版本IP作为1H系列轻量级版本,使用256MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为0.5Tops。
1.2 1M系列
1M作为寒武纪第三代架构,具备了更高性能、更低功耗和更强的完备性,混合支持fp32/fp16/int32/int16/int8/int4位宽,增加了压缩解压缩模块。在上代产品的基础上,可支持个性化深度学习,也可使用于多路视频实时处理和自动驾驶等领域。
1.2.1 Cambricon-1M-4K
该版本IP作为1M系列高性能版本,使用了4096MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为8Tops,进行16位定点神经网络运算的峰值速度为4Tops,进行32位定点神经网络运算的峰值速度为1Tops。
1.2.2 Cambricon-1M-2K
该版本IP作为1M系列中量级版本,使用了2048MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为4Tops,进行16位定点神经网络运算的峰值速度为2Tops,进行32位定点神经网络运算的峰值速度为0.5Tops。
1.2.3 Cambricon-1M-1K
该版本IP作为1M系列轻量级版本,使用了1024MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为2Tops,进行16位定点神经网络运算的峰值速度为1Tops,进行32位定点神经网络运算的峰值速度为0.25Tops。
1.3 产品总览
寒武纪IP Family的算力范围涵盖了从0.5Tops-8Tops各区间。无论是智能手机SoC、IPC SoC或车载平台SOC,在各种算力规模功耗限制的场景下都能通过简单快速的集成寒武纪1H/1M标准IP,从而获得强大的深度学习本地处理能力。每一款IP型号的片上SRAM的容量都是灵活可配置的,并且可以提供基于多核的IP架构。图1-2为寒武纪IP Family算力分布图,图1-3为多核架构示意图。
图1.2 寒武纪IP Family算力分布图
2. 应用领域
寒武纪IP Family目前支持所有现有的神经网络算法,包括但不限于CNN/DNN/DBN/ RNN/LSTM/SOM/DeepID等,且会不断的更新以便支持新型算法。
2.1 机器视觉
典型技术:追踪、识别和属性分析,行人、车辆的检测、追踪、识别和属性分析、文字检测和识别、物体检测和识别、视觉寻路。
典型应用:IPC、自动驾驶、智能交通、机器人视觉(如无人机等)、图像搜索引擎、图像和视频理解、图像和视频美化。
2.2 语音技术
典型技术:语音识别、语音合成、声纹识别、多麦克风阵列系统。
典型应用:语音输入、语音控制、智能助手、机器翻译、机器人听觉。
2.3 自然语言
典型技术:词句嵌入、语义建模。
典型应用:聊天机器人、智能助手、智能客服、图像/视频理解、机器翻译。
3. 特性和优势
3.1 1H/1M通用特性
在极小的面积下,提供高性能低功耗的深度学习解决方案;
极高的能效比 ,相比传统处理器,有数倍至数十倍的能效提升;
支持对神经网络输入进行批处理(batch),相较于单batch,多batch下权值不需要重复的读写,可以有效的提高利用率和吞吐量;
采用广泛应用的AXI接口,易于集成。可根据客户需求定制接口参数(数据位宽,地址位宽,队列深度等);
灵活的授权方式,包括单次授权,多次授权等;
可根据用户需求快速定制IP,从0.5T算力到8T算力核可供选择,并提供多核架构以满足不同场景的算力覆盖。
3.2 1M系列新增特性
可以混合fp32/fp16/int32/int16/int8/int4位宽,在不同精度需求场景下可以在保证精度的同时最大限度发挥性能;
4. 软件支持
详见《寒武纪科技端云一体白皮书》。
链接:http://forum.cambricon.com/list-79-1.html