【深度学习理论】一文看懂卷积神经网络

2023年4月8日上午2:10 • 卷积神经网络

【深度学习理论】一文看懂卷积神经网络

https://mp.weixin.qq.com/s/wzpMtMFkVDDH6scVcAdhlA

选自Medium 作者： Pranjal Yadav 经机器之心授权，禁止二次转载参与：Nurhachu Null、路雪

本文主要介绍了神经网络中的卷积神经网络，适合初学者阅读。

概述

深度学习和人工智能是 2016 年的热词；2017 年，这两个词愈发火热，但也更加容易混淆。我们将深入深度学习的核心，也就是神经网络。大多数神经网络的变体是难以理解的，并且它们的底层结构组件使得它们在理论上和图形上是一样的。

下图展示了最流行的神经网络变体，可参考这篇博客 (http://www.asimovinstitute.org/neural-network-zoo/)。

【深度学习理论】一文看懂卷积神经网络

本文介绍卷积神经网络（CNN）。在开始之前，我们首先了解一下感知机。神经网络是一些被称作感知机的单元的集合，感知机是二元线性分类器。

【深度学习理论】一文看懂卷积神经网络

如上图所示，输入 x1 和 x2 分别和各自的权重 w1 和 w2 相乘、求和，所以函数 f=x1*w1+x2*w2+b（偏置项，可以选择性地添加）。函数 f 可以是任意的运算，但是对于感知机而言通常是求和。函数 f 随后会通过一个激活函数来评估，该激活函数能够实现期望分类。Sigmoid 函数是用于二元分类的最常见的激活函数。如果您想进一步了解感知机，推荐阅读这篇文章（https://appliedgo.net/perceptron/）。

如果我们把多个输入堆叠在一起，并且使用函数 f 将其与位于另一层的多个堆叠在一起的单元连接在一起，这就形成了多个全连接的感知机，这些单元（隐藏层）的输出成为最后一个单元的输入，再通过函数 f 和激活函数得到最终的分类。如下图所示，这个就是最简单的神经网络。

【深度学习理论】一文看懂卷积神经网络

神经网络有一个独特的能力，被称作「泛逼近函数」（Universal Approximation function），所以神经网络的拓扑和结构变体是很多样化的。这本身就是一个很大的话题，Michael Nielsen 在文章中做了详细的描述（http://neuralnetworksanddeeplearning.com/chap4.html）。读完这个我们可以相信：神经网络可以模拟任何函数，不管它是多么的复杂。上面提到的神经网络也被称为前馈神经网络（FFNN），因为信息流是单向、无环的。现在我们已经理解了感知机和前馈神经网络的基本知识，我们可以想象，数百个输入连接到数个这样的隐藏层会形成一个复杂的神经网络，通常被称为深度神经网络或者深度前馈神经网络。

【深度学习理论】一文看懂卷积神经网络

那么深度神经网络和卷积神经网络有什么不同呢？让我们来探讨一下。

CNN 由于被应用在 ImageNet 等竞赛中而广受欢迎，最近也被应用在自然语言处理和语音识别中。需要记住的关键点是，其他的变体，如 RNN、LSTM、GRU 等，基于和 CNN 类似的结构，不过架构存在一些差异。

【深度学习理论】一文看懂卷积神经网络

CNN 由三种不同的层组成，即「卷积层」、「池化层」、「密集层或全连接层」。我们之前的神经网络都是典型的全连接层神经网络。如果想了解更多卷积和池化层的知识，可以阅读 Andrej Karpathy 的解释（https://cs231n.github.io/convolutional-networks/）。现在继续我们关于层的讨论，下面我们来看一下卷积层。

（在下面的内容里，我们会以图像分类为例来理解卷积神经网络，后面再转移到自然语言处理和视频任务中。）

卷积层：假设一张图像有 5*5 个像素，1 代表白，0 代表黑，这幅图像被视为 5*5 的单色图像。现在用一个由随机地 0 和 1 组成的 3*3 矩阵去和图像中的子区域做乘法，每次迭代移动一个像素，这样该乘法会得到一个新的 3*3 的矩阵。下面的动图展示了这个过程。

【深度学习理论】一文看懂卷积神经网络

上述的 3*3 的矩阵被称作「滤波器」，它的任务是提取图像特征，它使用「优化算法」来决定 3*3 矩阵中具体的 0 和 1。我们在神经网络的卷积层中使用好几个这样的滤波器来提取多个特征。3*3 矩阵的每一个单个步骤被称作「步幅」（stride）。

下图展示了使用两个三通道滤波器从三通道（RGB）图像中生成两个卷积输出的详细过程。

【深度学习理论】一文看懂卷积神经网络

滤波器 w0 和 w1 是「卷积」，输出是提取到的特征，包含这些滤波器的层叫做卷积层。

池化层：这个层主要使用不同的函数为输入降维。通常，最大池化层（max-pooling layer）出现在卷积层之后。池化层使用 2*2 的矩阵，以卷积层相同的方式处理图像，不过它是给图像本身降维。下面分别是使用「最大池化」和「平均池化」的示例。

【深度学习理论】一文看懂卷积神经网络

全连接层：这个层是位于之前一层和激活函数之间的全连接层。它和之前讨论过的简单「神经网络」是类似的。

注意：卷积神经网络结果也会使用正则化层，不过本文将分开讨论。此外，池化层会损失信息，所以也不是首选的。通常的做法是在卷机层中使用一个较大的步幅。

ILSVRC 2014 的亚军 VGGNet 是一个流行的卷积神经网络，它使用 16 个层来帮助我们理解 CNN 中深度的重要性，AlexNet 是 ILSVRC 2012 的冠军，它只有 8 层。Keras 中有可以直接使用的模型 VGG-16。【深度学习理论】一文看懂卷积神经网络

在 Keras 中加载了这个模型之后，我们可以观察每一层的「output shape」来理解张量维度，观察「Param#」来了解如何计算参数来得到卷积特征。「Param#」是每一次获取卷积特征时的所有权重更新。

【深度学习理论】一文看懂卷积神经网络

现在我们已经熟悉了卷积神经网络的结构，理解了每一层都是如何运行的，那么我们可以进一步去理解它是如何用在自然语言处理和视频处理中的了。您可以在这个链接中了解自 2012 年以来所有获得 ImageNet 竞赛冠军的 CNN 模型（https://adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html）。

原文链接：https://towardsdatascience.com/a-deeper-understanding-of-nnets-part-1-cnns-263a6e3ac61

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【深度学习理论】一文看懂卷积神经网络 - Python技术站

人工智能卷积神经网络

0 0 打赏

微信扫一扫

支付宝扫一扫

思考卷积神经网络（CNN）中各种意义

上一篇 2023年4月8日上午2:09

卷积神经网络CNNs的理解与体会

下一篇 2023年4月8日上午2:10

GAN生成对抗网络

【神经网络与深度学习】生成式对抗网络GAN研究进展（五）——Deep Convolutional Generative Adversarial Nerworks，DCGAN

【前言】本文首先介绍生成式模型，然后着重梳理生成式模型（Generative Models）中生成对抗网络（Generative Adversarial Network）的研究与发展。作者按照GAN主干论文、GAN应用性论文、GAN相关论文分类整理了45篇近两年的论文，着重梳理了主干论文之间的联系与区别，揭示生成式对抗网络的研究脉络。本文涉及的论…

2023年4月6日
000
《python深度学习》笔记—5、CNN的多个卷积核为什么能提取到不同的特征

一、总结一句话总结：过滤器的权重是随机初始化的只有卷积核学习到不同的特征，才会减少成本函数随机初始化的权重可能会确保每个过滤器收敛到成本函数的不同的局部最小值。每个过滤器开始模仿其他过滤器是不可能的，因为这几乎肯定会导致成本函数的增加，梯度下降算法不会让模型朝这个方向发展。二、CNN的多个卷积核为什么能提取到不同的特征转自或参考：CNN的…

卷积神经网络 2023年4月8日
000
GAN生成对抗网络

吴恩达Deeplearning.ai国庆节上新：生成对抗网络（GAN）专项课程

公众号关注 “ML_NLP” 设为 “星标”，重磅干货，第一时间送达！ Coursera 刚刚上新了 GAN 的专项课程，或许在这个国庆假期，你应该学习一波了。生成对抗网络（Generative Adversarial Network，GAN）是当前功能最强大的机器学习模型之一，其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛，比如防…

2023年4月5日
000
TensorFlow模型转为caffe模型

最近由于要将训练好的模型移植到硬件上，因此需要将TensorFlow转为caffe模型。 caffe模型需要两个文件，一个是定义网络结构的prototxt，一个是存储了参数的caffemodel文件。只要生成这两个文件，caffe模型就算转好了。在模型转换的过程中，我主要参考了https://github.com/lFatality/tensorflow2…

Caffe 2023年4月8日
000
caffe的python接口学习（1）生成配置文件

—恢复内容开始— 看了denny的博客，写下自己觉得简短有用的部分想用caffe训练数据首先要学会编写配置文件：（即便是用别人训练好的模型也要进行微调的，所以此关不可跨越）代码就不粘贴了，我只总结文字部分的内容： 1 写好各文件/数据的路径； 2 创建数据层，向上传递图像数据和标签数据； 3 卷积层；（创建层主要就是输入参数，要不怎么体现框架带…

Caffe 2023年4月6日
000
检测到目标服务器启用了TRACE方法

TRACE方法是HTTP（超文本传输）协议定义的一种协议调试方法，该方法使得服务器原样返回任何客户端请求的内容。启用TRACE方法存在如下风险： 1、恶意攻击者可以通过TRACE方法返回的信息了解到网站前端的某些信息，如缓存服务器等，从而为进一步的攻击提供便利。 2、恶意攻击者可以通过TRACE方法进行XSS攻击。 3、即使网站对关键页面启用了HttpOn…

目标检测 2023年4月7日
000
不用ChatGPT，只用CodeGeeX with Chat！一样实现智能问答

在ChatGPT推出后，许多人发现，它在编程方面也具有强大的能力——在编写代码过程中，如果遇到问题，可以不必去搜索引擎寻找答案，而是直接向ChatGPT提问。不过，在申请使用一些功能时，需要先等待各种waitlist，很多用户表示等了挺久还没用上。有没有更快的方式，能够在代码编写环境中，用上智能问答的功能呢？答案是肯定的。本周CodeGeeX功能更新，为…

人工智能概论 2023年4月22日
000
目标检测：R-CNN、SPP,Fast R-CNN、Faster R-CNN

R-CNN SPP Net Fast R-CNN Faster R-CNN 总结传统目标检测的主要问题 1）基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余 2）手工设计的特征对于多样性的变化没有很好的鲁棒性候选区域/窗 + 深度学习分类也因此应运而生。有人想到一个好方法：预先找出图中目标可能出现的位置，即region proposals或…

目标检测 2023年4月7日
000

【深度学习理论】一文看懂卷积神经网络

相关文章