《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

2023年4月13日下午11:02 • 深度学习

出处： Michael Nielsen的《Neural Network and Deep Learning》，点击末尾“阅读原文”即可查看英文原文。

本节译者：哈工大SCIR硕士生李忠阳 (https://github.com/eecrazy)

声明：我们将在每周一，周四，周日定期连载该书的中文翻译，如需转载请联系wechat_editors@ir.hit.edu.cn，未经授权不得转载。

使用神经网络识别手写数字
反向传播算法是如何工作的

热身：一个基于矩阵的快速计算神经网络输出的方法
关于损失函数的两个假设
Hadamard积
反向传播背后的四个基本等式
四个基本等式的证明（选读）
反向传播算法
什么时候反向传播算法高效
反向传播算法再理解

改进神经网络的学习方法

神经网络能够计算任意函数的视觉证明

为什么深度神经网络的训练是困难的

在讨论反向传播算法之前，我们先介绍一个基于矩阵的快速计算神经网络输出的方法来热热身。实际上在上一章的末尾我们经见过这个方法了，但是那时我说得很快，因此有必要详细回顾一下。另外在熟悉的上下文背景中，也能让你对反向传播会用到的符号记法感到习惯一些。

我们先介绍一种符号来表示网络中的权重参数，这种表示法不会引发歧义。我们用wljk来表示从第l−1层的第k个神经元到第l层的第j个神经元的连接的权重。例如，下图展示了从第二层的第四个神经元到第三层的第二个神经元的连接的权重：

《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

一开始你会觉得这种表示很麻烦，而且的确需要一些功夫来掌握它。但是经过一些努力，你就会发现这种表示简单而自然。这种表示的一个奇怪之处就是j和k下标的顺序。你可能会认为用j表示输入神经元，用k表示输出神经元更加合理。然而并不是这样的。在下面我会解释其中的原因。

我们用一种相似的记法来表示网络的偏置和激活值。确切地，我们用blj表示第l层第j个神经元的偏置，用a^l_j表示第l层的第j个神经元的激活值。下图展示了这种记法的一个例子：

《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

利用这些记法，第l层第j个神经元的激活值a^l_j通过下面的式子与第l−1层神经元的激活值联系起来（比较上一章节中的等式（4）和它附近的讨论内容）：

《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

这里的求和针对的是第l−1层的所有神经元k。为了将这个式子写成矩阵形式，我们为每一层l定义一个权重矩阵wl。矩阵wl的每一项就是连接到第l层神经元的权重，这就是说，wl中第j行第k列的元素就是wljk。相似地，我们为每一层定义一个偏置向量b^l。你大概可以猜到这是如何工作的——偏置向量的每一项就是b^l_j的值，每一项对应第l层中的一个神经元。最后，我们定义一个激活向量al，其中的每一项就是激活值a^l_j。

最后一个我们需要改写成矩阵形式的想法就是把σ这样的函数向量化。我们在上一章中简单提到了向量化，这里面的思想就是我们想把一个函数比如σ，应用到一个向量v中的每一项。我们用一个直观的记号σ(v)来表示这种作用在每一个元素上的函数操作。就是说，σ(v)的每一项就是σ(v)j=σ(vj)。比如，如果我们有一个函数f(x)=x2，f的向量化形式具有如下作用：

《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

就是说，向量化的函数f是对向量中的每一个元素求平方。

如果你记住了这些记法，那么等式（23）可以改写成下面简洁优美的矩阵形式：

《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法

这个式子给我们对一层的激活值是如何与上一层中激活值产生关联的进行全局思考：我们仅仅将权重矩阵作用于上一层的激活值，然后加上偏置向量，最后用σ函数作用于这个结果，（就得到了本层的激活函数值）。相比于之前我们采用的神经元到神经元的视角，这种全局的视角通常更加简明和容易理解（涉及到更少的下标！）。你可以把它当做一种脱离下标魔咒，同时还能对正在进行的事情保持精确的阐释。这种表达式在实际操作中也非常有用，因为大多数矩阵库提供了更快的方式来实现矩阵乘法，向量加法以及函数向量化操作。实际上，上一章节中的代码隐式地使用了这种表达式来计算网络的行为。

当使用等式（25）来计算a^l的时候，我们顺便也计算出了中间结果z^l≡w^la^l−1+b^l的值。这个数值非常有用，以至于值得我们专门给它一个名字：我们称z^l为对第l层神经元的加权输入（weighted input）。在本章的后续部分中我们将大量地使用到加权输入z^l。等式（25）有时候会被写成与加权输入有关的形式，即a^l=σ(z^l)。值得注意的是z^l由z^l_j=∑_kw^l_jka^l−1_k+b^l_j组成，这就是说，z^l_j就是第l层第j个神经元激活函数的加权输入。

下一节我们将介绍“关于损失函数的两个假设”，敬请关注！

“哈工大SCIR”公众号
编辑部：郭江，李家琦，徐俊，李忠阳，俞霖霖
本期编辑：李家琦

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《神经网络和深度学习》系列文章十：[热身]一个基于矩阵的快速计算神经网络输出的方法 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【计算机视觉】【神经网络与深度学习】YOLO v2 detection训练自己的数据2

上一篇 2023年4月13日

《神经网络和深度学习》系列文章十一：关于损失函数的两个假设

下一篇 2023年4月13日

深度学习乱记一通

到目前为止，深度学习是被炒得很火热的一个词，我一个刚出茅庐的小菜鸟，甚至还不能说全面了解深度学习的情况下，仅以个人有限的见解以及跟其他人的交流，说说我的看法。为什么是过热呢？看看无论是互联网市场，还是大小商品市场，无论是做硬件的，还是倒腾软件的，只要跟信息相关，总想跟大数据或者深度学习扯上关系。貌似在这些人眼中，这些词已经成了高科技的象征，能获得人们无…

深度学习 2023年4月13日
000
转：浅谈深度学习(Deep Learning)的基本思想和方法

浅谈深度学习(Deep Learning)的基本思想和方法参考：http://blog.csdn.net/xianlingmao/article/details/8478562 深度学习（Deep Learning），又叫Unsupervised Feature Learning或者Feature Learning，是目前非常热的一个研究主题。本文…

深度学习 2023年4月12日
000
深度学习

Deep Learning 6_深度学习UFLDL教程：Softmax Regression_Exercise（斯坦福大学深度学习教程）

练习内容：Exercise:Softmax Regression。完成MNIST手写数字数据库中手写数字的识别，即：用6万个已标注数据（即：6万张28*28的图像块（patches）），作训练数据集，然后利用其训练softmax分类器，再用1万个已标注数据（即：1万张28*28的图像块（patches））作为测试数据集，用前面训练好的softmax…

2023年4月9日
000
深度学习

什么是深度学习？深度学习入门！

什么是深度学习？在本文中，我们将讨论什么是深度学习，这是当前业内非常热门的话题，并且深度学习在人工智能、大数据和大数据分析等领域的众多行业中得到非常广泛的应用。例如，谷歌在语音、图像识别算法中就使用深度学习， Netflix 和亚马逊也使用它来了解客户的行为。也许你不会相信，但美国麻省理工学院的一些研究人员正在尝试使用深度学习来预测未来。深度学习拥有改变…

2022年12月5日
000
干货分享!深度学习几何画板绘图技巧！

随着科技的进步，传统化的教育教学方式已经很难适应现代化的教学进程，而现代化的教学方式要求使用多媒体教学，向学生们展示教学知识，相关的辅助工具软件就显得尤为的重要。将几何画板运用于教学中，是符合新型教学模式要求的。它作为一种新的认知工具的独特优势，这是任何传统的教学手段和模型所无法替代的，并且具有良好的教学效果，在未来一定能得到广泛的使用。下面就让小编来给大家…

深度学习 2023年4月10日
000
吴恩达深度学习笔记（七） —— Batch Normalization

主要内容：一.Batch Norm简介二.归一化网络的激活函数三.Batch Norm拟合进神经网络四.测试时的Batch Norm 一.Batch Norm简介 1.在机器学习中，我们一般会对输入数据进行归一化处理，使得各个特征的数值规模处于同一个量级，有助于加速梯度下降的收敛过程。 2.在深层神经网络中，容易出现梯度小时或者梯度爆炸的…

深度学习 2023年4月13日
000
深度学习之DCGAN

1、知识点 “”” DCGAN:相比GAN而言，使用了卷积网络替代全连接卷积：256*256*3 — > 28*28*14 –>结果，即H,W变小，特征图变多反卷积(就是把卷积的前向和反向传播完全颠倒了) ：4*4*1024 —> 28 * 28 *1 –>结果即H,W变大，特征图变少特点： 1、判别模型：使用带…

深度学习 2023年4月12日
000
Deep-learning augmented RNA-seq analysis of transcript splicing | 用深度学习预测可变剪切

可变剪切的预测已经很流行了，目前主要有两个流派：用DNA序列以及variant来预测可变剪切；GeneSplicer、MaxEntScan、dbscSNV、S-CAP、MMSplice、clinVar、spliceAI 用RNA来预测可变剪切；MISO、rMATS、DARTS 前言废话科研圈的热点扎堆现象是永远存在的，且一波接一波，大部分不屑于追热点且不…

深度学习 2023年4月12日
000

合作推广

合作推广

返回顶部