caffe solver configuration

2023年4月8日上午3:50 • Caffe

(用到一个加一个, 并非完整的介绍)

# lr_policy
基本的learning rate 在`solver.prototxt`中由参数`base_lr`配置.
配合`lr_policy`和其余的一些参数制定learning rate的变化策略.
## lr_policy="fixed"
在整个训练过程中learning rate不变.
## lr_policy="step"
需要另外几个参数配合:
```
base_lr: 0.01 # begin training at a learning rate of 0.01 = 1e-2

lr_policy: "step" # learning rate policy: drop the learning rate in "stepsize"
# by a factor of gamma every stepsize iterations

gamma: 0.1 # drop the learning rate by a factor of 10
# (i.e., multiply it by a factor of gamma = 0.1)

stepsize: 100000 # drop the learning rate every 100K iterations


# average_loss
相当于做了一个平滑. 控制台打印训练loss时, 当前loss为最近20个iteration的loss的平均数. 仅仅是为了显示好看, 不影响训练.
* http://stackoverflow.com/questions/40190377/what-is-average-loss-field-in-caffe-solver-for

# iter_size
在显存不够用时很管用. 
它产生的效果是`forward` `iter_size`次后才`backpropogate`一次, 相当于将`batch_size `增大了`iter_size`倍.

简单来说, real batch_size = batch_size * iter_size.
每执行一次`solver.step(1)`, 会执行batch_size * iter_size次forward与1次backward.

* https://www.zhihu.com/question/37270367

# max_iter
最大iteration次数. 但如果是通过`solver.step(n)`来forward-backward, 这个配置是无效的.
例如以下代码, total iterations = 100 * 10 = 1000

for _ in xrange(100):
solver.step(10)


<hr>

* http://caffe.berkeleyvision.org/tutorial/solver.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：caffe solver configuration - Python技术站

Caffe 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

caffe 指定GPU

上一篇 2023年4月8日

caffe Mac 安装

下一篇 2023年4月8日

GAN生成对抗网络

【机器学习】李宏毅——生成式对抗网络GAN

本文非常详细的介绍什么是生成式对抗网络GAN，以及GAN内部的实现原理，包括各种GAN的训练技巧和变形等等内容。 1、基本概念介绍 1.1、What is Generator 在之前我们的网络架构中，都是对于输入x得到输出y，只要输入x是一样的，那么得到的输出y就是一样的。但是Generator不一样，它最大的特点在于多了另外一个具有随机性的输入，如下图：…

2023年4月5日
000
机器学习-第二章

经验误差与过拟合错误率=\(\frac{分类错误的样本}{总样本数}\)精度=1-错误率学习器的实际预测输出与样本的真实输出之间的差异被称为“误差” 学习器在训练集上的误差为“训练误差”、在新样本上的误差为“泛化误差” 我们的目标是让学习器的泛化误差最小，而实际上因为新样本的不确定，我们只能尽可能地让学习器的训练误差最小。过拟合是指学习器在通过训练集样本…

机器学习 2023年4月10日
000
循环神经网络

视觉注意力的循环神经网络模型

我们观察PPT的时候，面对整个场景，不会一下子处理全部场景信息，而会有选择地分配注意力，每次关注不同的区域，然后将信息整合来得到整个的视觉印象，进而指导后面的眼球运动。将感兴趣的东西放在视野中心，每次只处理视野中的部分，忽略视野外区域，这样做最大的好处是降低了任务的复杂度。深度学习领域中，处理一张大图的时候，使用卷积神经网络的计算量随着图片像素的增加而线性…

2023年4月8日
000
循环神经网络

自然语言处理之循环神经网络

1. RNN基础循环神经网络RNN,是一类用于处理序列数据的神经网络。就像卷积网络是专门用于处理网格化数据的神经网络，循环神经网络是专门用于处理序列x(1),…,xTx^{(1)},dots,x^{T}x(1),…,xT的神经网络。正如卷积网络可以很容易地扩展到具有很大宽度的高度的图像，以及处理大小可变的图像，循环网络可以扩展到更长的序列，大多数循环网…

2023年4月8日
000
tensorflow 使用碰到的问题

1)一直想解决如果在tensorflow中按照需求组装向量，于是发现了这个函数 tf.nn.embedding_lookup(params, ids, partition_strategy=’mod’, name=None, validate_indices=True, max_norm=None) 除了前两个参数，其他参数暂时还不知道怎么使用。然而这并不影…

tensorflow 2023年4月6日
000
requires_grad_()与requires_grad的区别,同时pytorch的自动求导(AutoGrad)

1. 所有的tensor都有.requires_grad属性,可以设置这个属性. 　　　　x = tensor.ones(2,4,requires_grad=True) 2.如果想改变这个属性，就调用tensor.requires_grad_()方法：　　 x.requires_grad_(False) 3.自动求导注意点: 　　(1) 要想使x支持求导…

PyTorch 2023年4月6日
000
Caffe实战二（手写体识别例程：CPU、GPU、cuDNN速度对比）

上一篇文章成功在CPU模式下编译了Caffe，接下来需要运行一个例程来直观的了解Caffe的作用。（参考：《深度学习 21天实战Caffe》第6天运行手写体数字识别例程）编译步骤： CPU模式： 1、下载MNIST数据集 sudo ./data/mnist/get_mnist.sh 2、转换格式 sudo ./examples/mnist/creat…

Caffe 2023年4月8日
000
卷积神经网络

总结了6种卷积神经网络压缩方法

摘要：神经网络的压缩算法是，旨在将一个庞大而复杂的预训练模型（pre-trained model）转化为一个精简的小模型。本文分享自华为云社区《卷积神经网络压缩方法总结》，作者：嵌入式视觉。我们知道，在一定程度上，网络越深，参数越多，模型越复杂，其最终效果越好。神经网络的压缩算法是，旨在将一个庞大而复杂的预训练模型（pre-trained model）…

2023年4月5日
000

合作推广

合作推广

返回顶部