VGG-白红宇

VGG

阅读量：5094 次

发布时间：2019-06-13

本文共 3224 字，大约阅读时间需要 10 分钟。

2019-04-08 13:30:58

VGG模型是2014年ILSVRC竞赛的第二名，第一名是GoogLeNet。但是VGG模型在多个迁移学习任务中的表现要优于googLeNet。而且，从图像中提取CNN特征，VGG模型是首选算法。它的缺点在于，参数量有140M之多，需要更大的存储空间。但是这个模型很有研究价值。

模型的名称——“VGG”代表了牛津大学的Oxford Visual Geometry Group，该小组隶属于1985年成立的Robotics Research Group，该Group研究范围包括了机器学习到移动机器人。

目前使用比较多的网络结构主要有ResNet(152-1000层），GooleNet(22层），VGGNet（19层）。大多数模型都是基于这几个模型上改进，采用新的优化算法，多模型融合等，这里重点介绍VGG。

VGG模型最大的贡献在于第一次深入研究了

网络的深度对模型效果的影响。VGG中大量使用了小的卷积，即3 * 3的卷积来将网络的深度推到16 - 19，实验证明这种加深网络的方式对提高网络的性能有非常显著的作用。

一、VGG 网络的架构

VGG的网络输入是224 * 224 的RGB图像，唯一做的preprocess是对每个像素减去了总的训练集上的均值。

VGG使用3 * 3卷积（strip = 1；padding = 1）代替5 * 5和7 * 7的卷积核，这点和AlexNet有显著的区别，另外，相比AlexNet的3x3的池化核，VGG全部为2x2的池化核，strip = 2。激活使用的RELU。

VGG中使用了1 * 1卷积来在不改变卷积层接受域的前提下加入了非线性变换（由于在卷积后有激活函数的存在）。

VGG论文中提出了如下的几种架构：

二、VGG网络的特点

将网络的深度加深到了19层，可以说证明了Depth在深度学习领域的核心作用，为之后的ResNet打下了伏笔；

使用了更小的3 * 3卷积核，和更深的网络。两个3 * 3卷积核的堆叠相对于5 * 5卷积核的视野，三个3 * 3卷积核的堆叠相当于7 * 7卷积核的视野。这样一方面可以有更少的参数，另一方面拥有更多的非线性变换，增加了CNN对特征的学习能力；

对于输入通道为cin，输出通道为cout的卷积层来说，7 * 7的卷积核参数量是：7 * 7 * cin * cout = 49 * cin * cout；

对于输入通道为cin，输出通道为cout的卷积层来说，3 * 3的卷积核达到相同的接受域参数量是：3 * 3 * 3 * cin * cout = 27 * cin * cout；

显然小卷积核的参数量要大大少于大卷积核的参数量，同时由于卷积层的最后会引入Relu进行激活，这样也增加了更多的非线性变换。

使用了1 * 1卷积，作者首先认为1x1卷积可以增加决策函数（decision function，这里的决策函数就是softmax）的非线性能力，非线性是由激活函数ReLU决定的，本身1x1卷积则是线性映射，即将输入的feature map映射到同样维度的feature map；

层数更深特征图更宽。基于前两点外，由于卷积核专注于扩大通道数、池化专注于缩小宽和高，使得模型架构上更深更宽的同时，计算量的增加放缓；

VGG网络模型泛化能力强，在做年龄估计时候，采用VGG误差比GoogLeNet还要好；

采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量，防止模型过拟合，提升预测准确率。

三、VGG网络复杂度分析

论文中给出了各种架构下的参数量，如图：

下面着重分析一下VGG16：

在内存使用方面最初的卷积层使用的内存最多；

在参数使用方面最后的卷积层参数数量最大；

四、模型评估方法

预初始化权重

对于深度网络来说，网络权值的初始化十分重要。为此，论文中首先训练一个浅层的网络结构A(网络结构见上图)，训练这个浅层的网络时，随机初始化它的权重就足够得到比较好的结果。然后，当训练深层的网络时，前四层卷积层和最后的三个全连接层使用的是学习好的A网络的权重来进行初始化，而其余层则随机初始化。这也就是上一点提到的某些层的预初始化。(随机初始化权重时，使用的是0均值，方差0.01的正态分布；偏置则都初始化为0)。