×
分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

学习过程经验分享 mulin2022-07-01 09:33:46 回复 查看 经验交流 高校课程
学习过程经验分享
分享到:

随着社会层面对深度学习处理问题的需求量增大,专精于深度学习的深度学习处理器架构也提上了议程。当下,该架构设计需要解决的两个主要问题是提高处理器的能效比、提高处理器的可编程性。公认条件下,该类处理器被大致分为单核深度学习处理器(DLP-S)以及多核深度学习处理器(DLP-M)。

以单核深度学习处理器为例,大致分为三大模块--控制模块、运算模块、存储模块

image.png

详细执行流程:

1.取指单元(IFU)通过直接内存存取单元(DMA)从DRAM读取程序,然后送入指令译码单元(IDU)进行译码,译码完成后分发到向量运算单元(VFU),矩阵运算单元(MFU)以及DMA中。

2.DMA在接收到访存指令后将会从DRAM读取神经元tensor到神经元存储单元NRAM,读取权值tensor到权重存储单元(WRAM)。

3.VFU接收来自NRAM中的神经元tensor,并对神经元tensor进行预处理,处理完成后发送给MFU

4.MFU接收来自VFU中经过预处理的神经元tensor,并从WRAM读取权重tensor,完成矩阵运算后将结果发送给VFU

5.VFU对神经元tensor进行后处理

6.处理完成后,VFU将运算结果tensor写回NRAM

7.DMA输出神经元tensor,并从NRAM写回DRAM

版权所有 © 2022 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭