以CapsNet为例谈深度学习源码阅读

2023年4月12日下午7:57 • 深度学习

本文的参考的github工程链接：https://github.com/laubonghaudoi/CapsNet_guide_PyTorch

之前是看过一些深度学习的代码，但是没有养成良好的阅读规范，由于最近在学习CapsNet的原理，在Github找到了一个很好的示例教程，作者甚至给出了比较好的代码阅读顺序，私以为该顺序具有较强的代码阅读迁移性，遂以此工程为例将该代码分析过程记录于此：

1、代码先看main()，main()为工程中最为顶层的设计，能够给人对于整个流程的把控。而对于深度学习而言，main一般即为加载数据、构建模型、确定优化算法、训练网络模型、保存模型参数这种很具有规范性的结构。

 1 if __name__ == "__main__":
 2     # Default configurations
 3     opt = get_opts()
 4     train_loader, test_loader = get_dataloader(opt)
 5 
 6     # Initialize CapsNet
 7     model = CapsNet(opt)
 8 
 9     # Enable GPU usage
10     if opt.use_cuda & torch.cuda.is_available():
11         model.cuda()
12 
13     # Print the model architecture and parameters
14     print("Model architectures: ")
15     print(model)
16 
17     print("\nSizes of parameters: ")
18     for name, param in model.named_parameters():
19         print("{}: {}".format(name, list(param.size())))
20     n_params = sum([p.nelement() for p in model.parameters()])
21     # The coupling coefficients b_ij are not included in the parameter list,
22     # we need to add them mannually, which is 1152 * 10 = 11520.
23     print('\nTotal number of parameters: %d \n' % (n_params+11520))
24 
25     # Make model checkpoint directory
26     if not os.path.exists('ckpt'):
27         os.makedirs('ckpt')
28 
29     # Start training
30     train(opt, train_loader, test_loader, model, writer)

2、后面看utils.py文件里面的函数，很多比较复杂的工程中都会有这个文件，一般都是一些工程中较为基础的函数，在CapsNet这个工程中，这个文件中包含了相关的配置以及dataloarder。

def get_dataloader(opt):
    # MNIST Dataset ...

    # Data Loader (Input Pipeline) ...

    return train_loader, test_loader


def get_opts():
    parser = argparse.ArgumentParser(description='CapsNet')
    # ....
    opt = parser.parse_args()

    return opt

3、然后在弄明白前向传播中最为顶层的设计，一般就是顶层神经网络的__init__()以及forward()

该工程中的CapsNet主要分为四个大部分：

Conv2d, 用了256个 9×9的卷积核，步长为1，后面跟着Relu。这样对于28*28的图片，输出为[256,20,20 ]
PrimaryCaps: capsule层，具体构造后面再讲
DigitCaps：capsule层，具体构造后面再讲
Decoder：全连接层

4、在网络前向传播的顶层肯定调用了一些层级稍微低一些的module，下面就看这些module，本工程中主要是PrimaryCaps和DigitCaps。

PrimaryCaps

PrimaryCaps包含了32个 capsule units, 每个capsule unit都会接收来自于第一层卷积所输出的feature map的所有数据。首先获得32个张量u，这32个张量u是通过32个卷积运算得到的，前面输入的为第一层卷积所得[256,20,20 ]的feature maps，32个卷积每个都是（out_channels=8, kernel_size=9, stride=2)，这个地方使用了Modulelist来构造重复的卷积运算module，值得学习。在forward中将每个卷积moduel计算所得的结果append到list中，这样后面使用torch.cat的时候可以直接使用了。问题在于后面对于这32个张量的维度顺序做了变换。

坐标顺序变换记录于此：

每个conv_module输出为[batch_size, 8 ,6,6]，便变成了[batch_size, 8 ,36, 1]的形式，也就是这8个feature map中的每个6×6的feature map变成了一个向量
对32个conv_module输出的张量cat,保存形式为[batch_size, 8, 36, 32]
再次变换为[batch_size,8，36×32] ，这个地方我并没有搞懂这么做有什么意义，这和直接拿32*8个卷积核去卷积的区别在哪呢？直接拿32个卷积核卷积，然后将这32*8个卷积核再分为8组不也一样吗？
做了一次维度变换，变为[batch_size, 36×32,8]的形式

上步计算完成后，后面计算squash，这步计算类似于Relu，相当于向量的Relu操作。这个地方可以看出一个很重要的一点，就是向量v是几维的，一个基本的v包含几个数，从代码中看是8个数，也就是说PrimaryCaps开始时的每个卷积module输出的channels数为8，是这个维度组成了向量。

DigitCaps

这一层和上一层都是由capsule组成的，中间的连接是类似于全连接但又有很多的不同。

下面的表示均忽略batch_size:

上一层的输入[36*32,8], 也就是有36*32个输入向量u。计算步骤如下：

首先计算u_hat，将输入变换为[36*32,1,1,8]的形式，中间权重为[36*32, 10, 8, 16],这样矩阵相乘的结果为[36*32, 10, 1, 16], 此处的16应该就是输出向量的维度
后面的处理与10这个维度有关系，在图中就是c_ij，需要构造的c_ij的数量为[36*32, 10,1]，在一次整个网路的前向传播过程中，c_ij的初始值为0，会在一次前向传播过程中内部迭代几次，叫做动态路由算法。如下图所示：
u_hat的维度为 [ 36*32, 10, 16]，s的维度为[10, 16],v的维度为[10,16]，这中间有将36*32个数相加的过程，更新c_ij是这样的：先将v变为[1,10,16],再计算u_hat*v得到[36*32, 10, 16]，将里层维度相加，急求的是向量相乘，就会有方向的信息。由此更新c_ij

以CapsNet为例谈深度学习源码阅读

(注：该图来自于https://blog.csdn.net/wc781708249/article/details/80015997)

Decoder:

Decoder 部分是由三层全连接层组成的。这部分是一个重构部分，希望借此部分重新构建出图片。（有点像自编码器）

下面的维度忽略batch_size。

前面输出的是[10,16], 这个地方是将10个16维向量中与target中1相对的那个16维的向量取出作为后面全连接层的输入，后面全连接的维度为16，512，1024，784。 784即28*28。

5、损失函数

损失函数主要包括两部分，一部分是DigitCaps输出的loss，一部分是Decorder的loss。

以CapsNet为例谈深度学习源码阅读

DigitCaps层的输出是10个16维向量：

计算时，先根据上式计算出每个向量的损失值，然后将10个损失值相加得到最终损失。每个训练样本都有正确的标签，在这种情况下，标签将是一个10维one-hot编码向量。假设正确的标签是1，这意味着第一个DigitCap负责编码数字1的存在。这一DigitCap的损失函数的Tc为1，其余9个DigitCap的Tc为0。当Tc为1时，损失函数的第二项为零，损失函数的值通过第一项计算。在我们的例子中，为了计算第一个DigitCap的损失，我们从m+减去这一DigitCap的输出向量，其中，m+取固定值0.9。接着，我们保留所得值（仅当所得值大于零时）并取平方。否则，返回0。换句话说，当正确DigitCap预测正确标签的概率大于0.9时，损失函数为零，当概率小于0.9时，损失函数不为零。

公式包括了一个lambda系数以确保训练中的数值稳定性（lambda为固定值0.5）。这两项取平方是为了让损失函数符合L2正则，看起来作者们认为这样正则化一下效果更好。

对于Decoder的loss，loss就是求得输入的Image与Decorder输出的784个数的欧式距离平方和。

对于CapsNet的基本原理，该博客给出了比较好的解释：http://www.cnblogs.com/CZiFan/p/9803067.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：以CapsNet为例谈深度学习源码阅读 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习在CTR预估中的应用

上一篇 2023年4月12日

深度学习中的batch、epoch、iteration的含义

下一篇 2023年4月12日

UFLDL深度学习笔记（七）拓扑稀疏编码与矩阵化

主要思路　　前面几篇所讲的都是围绕神经网络展开的，一个标志就是激活函数非线性；在前人的研究中，也存在线性激活函数的稀疏编码，该方法试图直接学习数据的特征集，利用与此特征集相应的基向量，将学习得到的特征集从特征空间转换到样本数据空间，这样可以用特征集重构样本数据。数据集、特征集、基向量分别表示为\(x、A、s\).构造如下目标代价函数,对估计误差的代价…

深度学习 2023年4月13日
000
基于深度学习的人脸性别识别系统（含UI界面，Python代码）

摘要：人脸性别识别是人脸识别领域的一个热门方向，本文详细介绍基于深度学习的人脸性别识别系统，在介绍算法原理的同时，给出Python的实现代码以及PyQt的UI界面。在界面中可以选择人脸图片、视频进行检测识别，也可通过电脑连接的摄像头设备进行实时识别人脸性别；可对图像中存在的多张人脸进行性别识别，可选择任意一张人脸框选显示结果，检测速度快、识别精度高。博文提供…

深度学习 2023年4月12日
000
Uber发布史上最简单的深度学习框架Ludwig！

昨日，Uber官网重磅宣布新开源深度学习框架Ludwig，不需要懂编程知识，让专家能用的更顺手，让非专业人士也可以玩转人工智能，堪称史上最简单的深度学习框架！ Ludwig是一个建立在TensorFlow之上的工具箱，它允许用户在不需要编写代码的情况下训练和测试深度学习模型！简单到什么程度？令人发指！用户只需要提供一个包含数据的CSV文件，一…

深度学习 2023年4月11日
000
利用Tengine在树莓派上跑深度学习网络

树莓派是国内比较流行的一款卡片式计算机，但是受限于其硬件配置，用树莓派玩深度学习似乎有些艰难。最近OPENAI为嵌入式设备推出了一款AI框架Tengine，其对于配置的要求相比传统框架降低了很多，我尝试着在树莓派上进行了搭建并成功运行了Mobilenet-SSD。 Tengine简介 OAID/Tengine|github Tengine 是OPEN AI …

深度学习 2023年4月12日
000
UFLDL深度学习笔记（四）用于分类的深度网络

1. 主要思路本文要讨论的“UFLDL 建立分类用深度网络”基本原理基于前2节的softmax回归和无监督特征学习，区别在于使用更“深”的神经网络，也即网络中包含更多的隐藏层，我们知道前一篇“无监督特征学习”只有一层隐藏层。原文深度网络概览不仅给出了深度网络优势的一种解释，还总结了几点训练深度网络的困难之处，并解释了逐层贪婪训练方法的过程。关于深度网络优…

深度学习 2023年4月13日
000
【深度学习】BP反向传播算法Python简单实现

转载：火烫火烫的个人觉得BP反向传播是深度学习的一个基础，所以很有必要把反向传播算法好好学一下得益于一步一步弄懂反向传播的例子这篇文章，给出一个例子来说明反向传播不过是英文的，如果你感觉不好阅读的话，优秀的国人已经把它翻译出来了。一步一步弄懂反向传播的例子（中文翻译）然后我使用了那个博客的图片。这次的目的主要是对那个博客的一个补充。但是首先我觉得先…

深度学习 2023年4月11日
000
干货收藏！639页《深度学习：Deep Learning》图文并茂课程PPT

读博总是不容易，最近导师发给我一个深度学习的课程PPT，讲的太好了，图文并茂，是一门非常硬核的学习课程。作为笔记记录一下，同时付了下载链接方便大家一起学习深度机器学习的最新发展使视觉识别、语音和文本理解或自主智能体系统取得了前所未有的巨大进步。在此背景下，本课程将深入探讨深度学习架构的细节，重点是学习这些任务的端到端模型。学生将学习实施、训练和调试自己的神…

深度学习 2023年4月11日
000
《神经网络和深度学习》系列文章一：使用神经网络识别手写数字

出处： Michael Nielsen的《Neural Network and Deep Leraning》本节译者：哈工大SCIR硕士生徐梓翔 (https://github.com/endyul) 声明：我们将不定期连载该书的中文翻译，如需转载请联系wechat_editors@ir.hit.edu.cn，未经授权不得转载。 “本文转载自【哈工大SC…

深度学习 2023年4月12日
000

以CapsNet为例谈深度学习源码阅读

相关文章