keras BatchNormalization 之坑

2023年4月8日上午2:55 • Keras

任务简述：最近做一个图像分类的任务，一开始拿vgg跑一个baseline，输出看起来很正常：

keras BatchNormalization 之坑

随后，我尝试其他的一些经典的模型架构，比如resnet50, xception，但训练输出显示明显异常：

keras BatchNormalization 之坑

val_loss 一直乱蹦，val_acc基本不发生变化。

检查了输入数据没发现问题，因此怀疑是网络构造有问题，对比了vgg同xception， resnet在使用layer上的异同，认为问题可能出在BN层上，将vgg添加了BN层之后再训练果然翻车。

keras BatchNormalization 之坑

翻看keras BN 的源码，原来keras 的BN层的call函数里面有个默认参数traing，默认是None。此参数意义如下：

training=False/0, 训练时通过每个batch的移动平均的均值、方差去做批归一化，测试时拿整个训练集的均值、方差做归一化

training=True/1/None，训练时通过当前batch的均值、方差去做批归一化，测试时拿整个训练集的均值、方差做归一化

当training=None时，训练和测试的批归一化方式不一致，导致validation的输出指标翻车。

当training=True时，拿训练完的模型预测一个样本和预测一个batch的样本的差异非常大，也就是预测的结果根据batch的大小会不同！导致模型结果无法准确评估！也是个坑！

用keras的BN时切记要设置training=False!!!

def build_model():
    Inputs = Input(shape=intput_shape, name='input')
    x_tmp = Lambda(lambda c: tf.image.rgb_to_grayscale(c))(Inputs)
    x_tmp = Conv2D(64, (3, 3), activation='relu')(x_tmp)
    x_tmp = Conv2D(64, (3, 3), activation='relu')(x_tmp)
    x_tmp = BatchNormalization(x_tmp, training=False)
    x_tmp = MaxPooling2D(pool_size=(2, 2))(x_tmp)

    x_tmp = Flatten()(x_tmp)
    x_tmp = Dense(128, activation='relu')(x_tmp)
    outputs = Dense(10, activation='softmax')(x_tmp)
    model = Model(Inputs, outputs)
    return model

参考：

https://arxiv.org/pdf/1502.03167v3.pdf

https://github.com/keras-team/keras/blob/master/keras/layers/normalization.py#L16

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：keras BatchNormalization 之坑 - Python技术站

Keras 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

keras 中的一点问题

上一篇 2023年4月8日

从 python 中 axis 参数直觉解释到 CNN 中 BatchNorm 的工作方式(Keras代码示意)

下一篇 2023年4月8日

Keras

【转载】Keras深度学习CNN+LSTM预测黄金主力收盘价

转载：Keras深度学习CNN+LSTM预测黄金主力收盘价数据由JQData本地量化金融数据支持上一篇做了2个实验，预测黄金期货主力合约的收盘价。实验2：使⽤历史前5个时刻的 open close high low volume money预测当前时刻的收盘价，即 [None, 5, 6] => [None, 1] # None是 batch_siz…

2023年4月8日
000
TensorFlow 安装以及python虚拟环境

python虚拟环境由于TensorFlow只支持某些版本的python解释器，如Python3.6。如果其他版本用户要使用TensorFlow就必须安装受支持的python版本。为了方便在不同项目中使用不同版本的python，可以考虑Virtualenv创建虚拟环境。以下为windows环境创建、启用、停用、删除虚拟环境的方法 python –ver…

tensorflow 2023年4月6日
000
Caffe

caffe 参数介绍 solver.prototxt

转载自 http://blog.csdn.net/cyh_24/article/details/51537709 net: “models/bvlc_alexnet/train_val.prototxt” test_iter: 1000 # test_interval: 1000 # base_lr: 0.01 # 开始的学习率 lr_policy: “…

2023年4月8日
000
目标检测

（转）基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。object detection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。 object detecti…

2023年4月8日
000
caffe生成deploy.prototxt文件

参考： http://blog.csdn.net/cham_3/article/details/52682479 以caffe工程自带的mnist数据集，lenet网络为例：将lenet_train_test.prototxt文件进行一些修改即可得到lenet.prototxt文件头部：去除训练用的输入数据层， layer { name: “mni…

Caffe 2023年4月5日
000
汇编语言和机器语言的区别

汇编语言和机器语言的区别什么是机器语言机器语言又称为0和1的语言。计算机只能识别0和1，因此机器语言是一组用二进制代码编写的指令序列，用于控制计算机硬件执行任务。例如，下面给出的是一个简单的机器语言程序： 01100100 00000001 00000010 该程序实际上是3个指令的串联，每个指令都以16位二进制代码表示。这些指令将被加载到计算机中，计…

artificial-intelligence 2023年3月27日
000
【机器学习PAI实战】—— 玩转人工智能之美食推荐

前言在生活中，我们经常给朋友推荐一些自己喜欢的东西，也时常接受别人的推荐。怎么能保证推荐的电影或者美食就是朋友喜欢的呢？一般来说，你们两个人经常对同一个电影或者美食感兴趣，那么你喜欢的东西就很大程度上朋友也会比较感兴趣。在大数据的背景下，算法会帮我寻找兴趣相似的那些人，并关注他们喜欢的东西，以此来给我们推荐可能喜欢的事物。场景描述某外卖店铺收集了一些用…

机器学习 2023年4月12日
000
tensorflow 数据预处理

import tensorflow as tffrom tensorflow import kerasdef preprocess(x,y): x = tf.cast(x, dtype = tf.float32) /255. y = tf.cast(y, dtype = tf.int64) y = tf.one_hot(y,depth = 10) print…

tensorflow 2023年4月6日
000

合作推广

合作推广

返回顶部