[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

2023年4月13日下午11:00 • 深度学习

基于能量的模型(EBM)

基于能量的模型将每一个我们感兴趣的变量构造联系到一个标量能量上.

学习就是修改能量方程从而使得它的外形有我们需要的特点.

举例来说, 希望的是: 期望构造的能量低.

基于能量的概率性模型定义了一个概率分布, 它是由能量方程决定的:

　　　　　　(1)

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

归一化因子Z被称为配分函数, 类比于物理系统.

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

基于能量的模型可以通过SGD(随机梯度下降)算法学习得到.

有隐层单元的EBM

在实际中并不能观测到样本x的所有特征, 或者需要引入一些并非观测得到的变量来增加模型的区分度(the expressive power of the model).

为了这个目的, 我们定义一个观察项x和一个隐藏项h. 从而有:

　　　　　　(2)

ps: 上式为观察项x对模型概率分布的影响关系

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

为了将此式近似映射到等式(1)上, 引入自由能量(free energy)的记号(取自物理), 定义:

　　　　　　(3)

ps: 将每个隐藏项带来的能量求和再求负对数

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

从而(2)式可以改写为:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

从而数据的负值对数似然度(NLL)的梯度的形式特别有趣:

　　　　　　(4)

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[第一项为分子偏导, 第二项为分母偏导, 注意∂exp(-F(x))/ ∂θ = exp(-F(x)) * ∂(-F(x))/∂θ ]

注意到上述梯度包含了两部分, 分别是正向和负向分量.

这两部分并不和它们在等式中的符号对应, 但是反映了它们对于概率密度的影响.

第一部分增加了训练数据的概率(通过减少对应的自由能量), 第二部分则降低了模型产生的样本概率.

通常很难从分析这些梯度, 因为它涉及了计算

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

梯度

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

.

这完全和从所有的可能输入x中能够获得的期望相同(在模型给定的分布P的条件下)!

解决这个问题的第一步就是使用一个固定数量的模型样本来估计期望. 用于估计负向分量梯度的样本被称为负粒子(negative particles), 使用

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

N表示. 梯度可以表示为:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

　　　　　　(4)

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

理论上我们希望

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

中的

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

能够按照P来采样(比如做蒙特卡洛).

基于上述公式, 我们几乎已经得到了用于学习一个EBM的实用的随机算法. 唯一尚未解决的是如何提取这些负粒子

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

.

马尔科夫链蒙特卡洛方法对于RBM模型(EBM的一种特殊情况)非常合适.

受限玻尔兹曼机(RBM)

玻尔兹曼机(BMs)是对数线性马尔科夫随机域(log-linear Markov Random Field (MRF))的一种特殊形式, 它的能量函数对于自由参数是线性的.

为了能够使得它们能够表达复杂的分布(从受限变参设置到一个非变参设置), 我们假设某些变量是从未被观察到的(隐藏的).

隐含变量(隐含单元)越多, BM模型的容量就越大.

受限BM进一步限制了BM, 它没有可见-可见或隐藏-隐藏的连接(即没有层内连接, 只有层间连接).

RBM的图示如下:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

RBM的能量方程E(v, h)定义为:

　　　　　　

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

其中W代表连接隐藏和可见单元的权重, b,c是可见和隐藏层的偏置.

从而可以得到下面的自由能量公式:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

因为RBM的特殊结构 -- 可见和隐藏单元是相互独立的, 利用这个特性我们得到:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

二进制单元的RBM

使用二进制单元的一般情况下(v_j和h_i∈{0, 1}), 我们可以从式(6)和(2)中得到一个似然版本的通用神经元激活函数:

　　　　　　(7)

　　　　　　(8)

sigm(x) = sigmoid(x) = exp(-x)/(1+exp(-x))

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

RBM的自由能量则简化为:

　　　　　　(9)

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

使用二进制单元更新等式

结合等式(5)和(9), 我们可以得到下列二进制单元RBM的对数相似性梯度:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

　　　　　　(10)

我们在Theano中使用T.grad对式(4)进行处理得到此式而不是直接使用.

RBM的采样

p(x)的采样可以通过运行一个马尔科夫链来收敛得到, 使用Gibbs采样作为过渡操作.

N个随机变量的Gibbs采样通过一系列形如的N个子采样步骤(sub-step)实现, 其中包含S中除了 [深度学习]受限玻尔兹曼机生成手写数字训练样本原理 S_i的其他N-1个随机变量.

对于RBM, S由可见和隐藏神经元集合组成, 但是因为它们是条件独立的, 所以可以进行Gibbs块采样(block Gibbs sample). 在这种条件下, 可见神经元在隐藏神经元值给定同时进行采样. 相似的, 隐藏神经元也在可见神经元值给定同时进行采样. 马尔科夫链中的一步(step)操作如下:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

其中

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

h⁽ⁿ⁾代表马尔科夫链的第n步的所有隐藏神经元集合. 它的意义是,

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

按照概率

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

随机设置为1/0, 相似的

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

则按照概率

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

随机设置为1/0. 如下图:

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

当

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

, 采样对

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

[深度学习]受限玻尔兹曼机生成手写数字训练样本原理

就能保证为p(v,h)的精确采样.

理论上, 学习过程中每次更新参数都要求运行一次这个链直到收敛. 毫无疑问这样做成本太高. 因此, 很多算法设计出来, 用于有效地在学习过程中对p(v,h)进行采样.

对比差异算法(contrastive divergence, CD-k)

CD算法使用2个技巧来加速采样过程:

因为最终希望(数据的真实分布), 我们使用一个训练样本来初始化马尔科夫链(即使用一个更接近于p的分布, 从而使得链已经接近于收敛到最终分布p)
CD并不等待链收敛, 采样点集在第k步Gibbs采样结束后就获得了. 实际应用中, k = 1效果已经非常好.

持续CD(PCD)

持续CD使用了另一种p(v,h)采样的估计. 它依赖于一个单一马尔科夫链, 该链有一个不变的状态(即并不对于每一个观测样本都重启该链). 对于每一次参数更新, 我们通过简单的运行链k步来提取新的样本. 链的状态被保存, 用于之后的更新.

基本思想是如果参数变化相对链的混合状态足够小, 马尔科夫链就能够"跟上"(“catch up”)模型的变化.

实现

实现的分析见此文:[深度学习]受限玻尔兹曼机生成手写数字训练样本实现分析.

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：[深度学习]受限玻尔兹曼机生成手写数字训练样本原理 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习之收敛问题

上一篇 2023年4月13日

【神经网络与深度学习】Win10+VS2015 caffe环境搭建（极其详细）

下一篇 2023年4月13日

时间序列深度学习：状态 LSTM 模型预测太阳黑子

目录时间序列深度学习：状态 LSTM 模型预测太阳黑子教程概览商业应用长短期记忆（LSTM）模型太阳黑子数据集构建 LSTM 模型预测太阳黑子 1 若干相关包 2 数据 3 探索性数据分析 3.1 使用 COWPLOT 可视化太阳黑子数据 3.2 计算 ACF 4 回测：时间序列交叉验证 4.1 开发一个回测策略 4.2 可视化回测策略 5 用 …

深度学习 2023年4月11日
000
UFLDL深度学习笔记（四）用于分类的深度网络

1. 主要思路本文要讨论的“UFLDL 建立分类用深度网络”基本原理基于前2节的softmax回归和无监督特征学习，区别在于使用更“深”的神经网络，也即网络中包含更多的隐藏层，我们知道前一篇“无监督特征学习”只有一层隐藏层。原文深度网络概览不仅给出了深度网络优势的一种解释，还总结了几点训练深度网络的困难之处，并解释了逐层贪婪训练方法的过程。关于深度网络优…

深度学习 2023年4月13日
000
佩琪小分队实验六团队作业3：基于深度学习的银行卡号识别系统项目需求分析与原型设计

项目** 内容课程班级博客链接课程班级博客这个作业要求链接作业要求团队名称佩琪小分队团队成员分工描述＊诚：博客撰写＊作朝：原型设计＊云云：用户调研与访谈＊婷婷：用户调研与访谈团队的课程学习目标（1）学习使用软件原型开发工具；（2）掌握软件原型开发技术；（3）体验以原型设计为基础的软件项目需求获取技巧与方法。这个作业在哪些方面帮助团队实现…

深度学习 2023年4月11日
000
深度学习

深度学习面试题31：池化操作的梯度

　　平均池化　　最大值池化　　参考资料平均池化 x和卷积核K做卷积运算，得到σ，对σ的做平均池化，得到S，然后S与GT计算MSE损失。对应代码 # -*- coding: utf-8 -*- import torch import torch.nn as nn import torch.nn.functional as F class …

2023年4月9日
000
【深度学习笔记】第 4 课：模型性能评估

training set 训练集　　validation set 验证集　　test set测试集这些与衡量你做的怎么样有关当你知道怎么衡量你在一个问题的表现，问题就解决了一半。（衡量表现的重要性）每个你将建立的分类器都会尝试记住训练集，并且它通常在这方面会做的很好很好你的工作是帮助它泛化到新的数据上所以我们怎么用测量泛化能力代替测量分类其记住…

深度学习 2023年4月13日
000
盘点深度学习中的损失函数

损失函数度量的是训练的模型与真实模型之间的距离。一般以最小化损失函数为目标，对模型进行不断优化。常见的损失函数在计算过程中都会接受两个参数：模型预测值y_pred和正确答案y_true。由于背后的数学计算过程相同，所以即使是不同深度学习框架这些损失函数的api也是大同小异。本文以keras为例，罗列出几个常见的损失函数。均方误差 mean square…

深度学习 2023年4月10日
000
你给文字描述，AI艺术作画，精美无比！附源码，快来试试！

Disco Diffusion 是一款AI数字艺术创作的工具，将给出的 Prompts 文字信息变成图像信息，可以在 Google Colab 直接运行，也可以部署到本地，是 Dall-E2 和 MidJourney 的完美免费替代！ ? 作者：韩信子@ShowMeAI? 深度学习实战系列：https://www.showmeai.tech/tutorial…

深度学习 2023年4月10日
000
深度学习

图解来啦！机器学习工业部署最佳实践！10分钟上手机器学习部署与大规模扩展 ⛵

如何快速部署机器学习模型？本文是机器学习工业部署的 best practice（最佳实践)！详细讲解了如何操作机器学习开源框架 BentoML，帮助研发团队轻松打包机器学习模型，并重现该模型以用于生产。 ? 作者：韩信子@ShowMeAI? 机器学习实战系列：https://www.showmeai.tech/tutorials/41? 深度学习实战系列：h…

2023年4月9日
000

合作推广

合作推广

返回顶部