1-10 卷积神经网络示例

2023年4月8日上午1:17 • 卷积神经网络

卷积神经网络示例（Convolutional neural network example）

假设，有一张大小为 32×32×3 的输入图片，这是一张 RGB 模式的图片，你想做手写体数字识别。 32×32×3 的 RGB 图片中含有某个数字，比如 7，你想识别它是从 0-9 这 10 个字中的哪一个，我们构建一个神经网络来实现这个功能。

输入是 32×32×3 的矩阵，假设第一层使用过滤器大小为 5×5，步幅是 1， padding是 0，过滤器个数为 6，那么输出为 28×28×6。将这层标记为 CONV1，它用了 6 个过滤器，增加了偏差，应用了非线性函数，可能是 ReLU 非线性函数，最后输出 CONV1 的结果。

1-10 卷积神经网络示例

然后构建一个池化层，这里选择用最大池化，参数f = 2， s = 2，因为 padding 为 0。现在开始构建池化层，最大池化使用的过滤器为 2×2，步幅为 2，表示层的高度和宽度会减少一半。因此， 28×28 变成了 14×14，通道数量保持不变，所以最终输出为 14×14×6，将该输出标记为 POOL1。

1-10 卷积神经网络示例

卷积有两种分类，这与所谓层的划分存在一致性。一类卷积是一个卷积层和一个池化层一起作为一层，这就是神经网络的 Layer1。另一类卷积是把卷积层作为一层，而池化层单独作为一层。人们在计算神经网络有多少层时，通常只统计具有权重和参数的层。因为池化层没有权重和参数，只有一些超参数。这里，我们把 CONV1和 POOL1 共同作为一个卷积，并标记为 Layer1。

我们再为它构建一个卷积层，过滤器大小为 5×5，步幅为 1，这次我们用 16 个过滤器，最后输出一个 10×10×16 的矩阵，标记为 CONV2。

然后做最大池化，超参数f = 2， s = 2。高度和宽度会减半，最后输出为 5×5×16，标记为 POOL2，这就是神经网络的第二个卷积层，即 Layer2。

1-10 卷积神经网络示例

5×5×16 矩阵包含 400 个元素，现在将 POOL2 平整化为一个大小为 400 的一维向量。我们可以把平整化结果想象成这样的一个神经元集合，然后利用这 400 个单元构建下一层。下一层含有 120 个单元，这就是我们第一个全连接层，标记为 FC3。这 400 个单元与 120 个单元紧密相连，这就是全连接层。这是一个标准的神经网络。它的权重矩阵为${{rm{W}}^{[3]}}$ ，维度为 120×400。这就是所谓的“全连接”，因为这 400 个单元与这 120 个单元的每一项连接，还有一个偏差参数。最后输出 120 个维度，因为有 120 个输出。

1-10 卷积神经网络示例