【学习心得】AlexNet-1951308-叶瑞娟 - 理论课程 - 开发者论坛

×

基础软件平台

PyTorch开发

TensorFlow开发

编解码及SDK开发

BANG语言与计算库

开发工具链

MagicMind开发

软件栈百科

云平台集成

硬件产品专区

大模型专区

寒武纪® AIDC® MLU370®系列加速卡

MLU200系列AI加速产品

经验方案交流区

经验案例与实践分享

开发者服务

开发者活动

公告与版务

高校支持

《智能计算系统》

签到

首页 > 寒武纪开发者论坛>高校支持>《智能计算系统》>理论课程 >正文

分享到微信

打开微信，使用扫一扫进入页面后，点击右上角菜单，

点击“发送给朋友”或“分享到朋友圈”完成分享

【学习心得】AlexNet-1951308-叶瑞娟 Edith叶2022-07-13 12:00:52 回复查看 经验交流

1 赞 1 收藏
分享到:

【学习心得】AlexNet-1951308-叶瑞娟

1 赞 1 收藏快速回复

分享到:

上图所示是caffe中alexnet的网络结构，上图采用是两台GPU服务器，所有会看到两个流程图。下边把AlexNet的网络结构示意一下：

网络结构：

其实AlexNet的结构很简单，只是LeNet的放大版，输入是一个224x224的图像，经过5个卷积层，3个全连接层（包含一个分类层），达到了最后的标签空间。

AlexNet学习出来的特征是什么样子的？

第一层：都是一些填充的块状物和边界等特征

中间层：学习一些纹理特征

更高层：接近于分类器的层级，可以明显的看到物体的形状特征

最后一层：分类层，完全是物体的不同的姿态，根据不同的物体展现出不同姿态的特征了。

即无论对什么物体，学习过程都是：边缘→ \to→部分→ \to→整体

该方法训练了一个端到端的卷积神经网络实现对图像特征提取和分类，网络结构共7层，包含5层卷积层和2层全连接层。

AlexNet包含了6亿三千万个连接，6000万个参数和65万个神经元，拥有5个卷积层，其中3个卷积层后面连接了最大池化层，最后还有3个全连接层。

AlexNet可以说是神经网络在低谷期后的第一次发声，确立了深度学习（深度卷积神经网络）在计算机界的统治地位，同时也推动了深度学习在语音识别、自然语言处理、强化学习等方面的拓展。

训练技巧：dropout防止过拟合，提高泛化能力

训练阶段使用了Dropout技巧随机忽略一部分神经元，缓解了神经网络的过拟合现象，和防止对网络参数优化时陷入局部最优的问题，Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。

该网络是利用Dropout在训练过程中将输入层和中间层的一些神经元随机置零，使得训练过程收敛的更慢，但得到的网络模型更加具有鲁棒性。

数据扩充 / 数据增强：防止过拟合

通过图像平移、水平翻转、调整图像灰度等方法扩充样本训练集，扩充样本训练集，使得训练得到的网络对局部平移、旋转、光照变化具有一定的不变性，数据经过扩充以后可以达到减轻过拟合并提升泛化能力。进行预测时，则是取图像的四个角加上中间共5个位置，并进行左右翻转，一共获得10张图像，对它们进行预测并对10次结果求均值。

池化方式：

AlexNet全部使用最大池化的方式，避免了平均池化所带来的模糊化的效果，并且步长<池化核的大小，这样一来池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。

此前的CNN一直使用平均池化的操作。

激活函数：ReLU

Relu函数：f(x)=max(0,x)

采用非饱和线性单元——ReLU代替传统的经常使用的tanh和sigmoid函数，加速了网络训练的速度，降低了计算的复杂度，对各种干扰更加具有鲁棒性，并且在一定程度上避免了梯度消失问题。

优势：

ReLU本质上是分段线性模型，前向计算非常简单，无需指数之类操作；

ReLU的偏导也很简单，反向传播梯度，无需指数或者除法之类操作；

ReLU不容易发生梯度发散问题，Tanh和Logistic激活函数在两端的时候导数容易趋近于零，多级连乘后梯度更加约等于0；

ReLU关闭了右边，从而会使得很多的隐层输出为0，即网络变得稀疏，起到了类似L1的正则化作用，可以在一定程度上缓解过拟合。

缺点：

当然，ReLU也是有缺点的，比如左边全部关了很容易导致某些隐藏节点永无翻身之日，所以后来又出现pReLU、random ReLU等改进，而且ReLU会很容易改变数据的分布，因此ReLU后加Batch Normalization也是常用的改进的方法。

提出了LRN层（Local Response Normalization）：

LRN即Local Response Normalization，局部响应归一化处理，实际就是利用临近的数据做归一化，该策略贡献了1.2%的准确率，该技术是深度学习训练时的一种提高准确度的技术方法，LRN一般是在激活、池化后进行的一种处理方法。

LRN是对局部神经元的活动创建竞争机制，使得其中响应较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

热门帖子

精华帖子

Benchmark Docker 申请流程和使用指南 goodchong 21 回复
Proxmox直通-寒武纪MLU fengyunkai 0 回复
【PyTorch 大模型适配】通义千问在寒武纪MLU370板卡上的试用 jyjyjyjyjy 4 回复
FFMpeg-MLU命令行进行抽帧方法总结博博 2 回复
【PyTorch 大模型移植】CogView2适配 jyjyjyjyjy 0 回复

Github

开发平台

文档中心

新手必读

官方微信

版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号：京ICP备17003415号-1