keras中的mini-batch gradient descent （转）

2023年4月8日上午9:49 • Keras

深度学习的优化算法，说白了就是梯度下降。每次的参数更新有两种方式。

一、

第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。

二、

另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient descent。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。

三、

为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。

基本上现在的梯度下降都是基于mini-batch的，所以Keras的模块中经常会出现batch_size，就是指这个。batch_size指的是一个batch有多少个样本，而不是由多少个batch。

顺便说一句，Keras中用的优化器SGD是stochastic gradient descent的缩写，但不代表是一个样本就更新一回，还是基于mini-batch的。

------------------------------------------------

来源：

　　1、keras中文文档： https://keras-cn.readthedocs.io/en/latest/for_beginners/concepts/

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：keras中的mini-batch gradient descent （转） - Python技术站

Keras 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

keras基于多层感知器的softmax多分类 – kerl

上一篇 2023年4月8日

Anaconda+MINGW+theano+keras安装

下一篇 2023年4月8日

在keras中model.fit_generator()和model.fit()的区别说明

下面是关于“在Keras中model.fit_generator()和model.fit()的区别说明”的完整攻略。 model.fit_generator()和model.fit()的区别在Keras中，我们可以使用model.fit_generator()和model.fit()来训练模型。这两个方法都可以用于训练模型，但是它们之间有一些区别。下面是一…

Keras 2023年5月15日
000
keras 多gpu并行运行案例

下面是关于“Keras多GPU并行运行案例”的完整攻略。 Keras多GPU并行运行在Keras中，我们可以使用多GPU并行运行来加速模型的训练。下面是一个详细的攻略，介绍如何使用多GPU并行运行来训练模型。示例说明示例1：使用多GPU并行运行训练模型 from keras.utils import multi_gpu_model # 定义模型 mod…

Keras 2023年5月15日
000
循环神经网络

Facebook开源 PyTorch版 fairseq，准确性最高、速度比循环神经网络快9倍

今年5月，Facebook AI研究院（FAIR）发表了他们的研究成果fairseq，在fairseq中，他们使用了一种新型的卷积神经网络来做语言翻译，比循环神经网络的速度快了9倍，而且准确性也是现有模型中最高的。此外，他们在GitHub公布了fair序列建模工具包的源代码和训练好的系统，其他的研究者可以在此基础上建立自己的关于翻译、文本总结和其他任务的模型…

2023年4月8日
000
Keras

2.keras实现–>字符级或单词级的one-hot编码 VS 词嵌入

1. one-hot编码 # 字符集的one-hot编码 import string samples = [‘zzh is a pig’,’he loves himself very much’,’pig pig han’] characters = string.printable token_index = dict(zip(range(1,len(ch…

2023年4月8日
000
探究灰度图像对目标检测测试结果影响—-RGB转灰度图像、灰度图像扩充成三通道

一、问题：直接将转好的灰度图像输入神经网络，发现 FileNotFoundError: [Errno 2] No such file or directory: ‘home/JPEGImages/Image_24.jpg’ 二、分析：灰度图像只有一个通道，而RGB有三个通道三、解决：将一个通道的灰度图像，复制两次，得到三通道所需图像 import cv2i…

目标检测 2023年4月7日
000
目标检测

目标检测之人脸识别

序言目录正文人脸特征点 PERCLOS LBP BSD（盲区检测）常用人脸库： MIT FERET PIE AR ORL YaleA YaleB CAS-PEAL JAFEE 效果检测参数： …

2023年4月5日
000
keras小技巧——获取某一个网络层的输出方式

以下是关于“Keras小技巧——获取某一个网络层的输出方式”的完整攻略，其中包含两个示例说明。示例1：使用 K.function 获取网络层的输出步骤1：导入必要库在使用 K.function 获取网络层的输出之前，我们需要导入一些必要的库，包括keras.backend和keras.models。 from keras import backend …

Keras 2023年5月16日
000
时空循环卷积神经网络用于交通速度预测

1、文章信息《Spatiotemporal Recurrent Convolutional Networks for Traffic Prediction in Transportation Networks》。北航2017年发在sensors上的一篇文章。 2、摘要近几十年来，大规模交通网络流量预测已成为一个重要而具有挑战性的课题。受运动预测领域的启…

循环神经网络 2023年4月7日
000

合作推广

合作推广

返回顶部