深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

2023年4月8日上午2:48 • 循环神经网络

目录

过拟合、欠拟合及其解决方案

训练误差和泛化误差

过拟合和欠拟合的概念

模型复杂度和误差之间的关系

解决过拟合的方案

梯度消失及梯度爆炸

循环神经网络进阶

深度神经网络

过拟合、欠拟合及其解决方案

训练误差和泛化误差

在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

机器学习模型应关注降低泛化误差。

过拟合和欠拟合的概念

一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；
另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小

模型复杂度和误差之间的关系

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

解决过拟合的方案

权重衰减（又称L2范式正则化）

权重衰减等价于 L2 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。

丢弃法

梯度消失及梯度爆炸

里面有详细说明https://blog.csdn.net/u011734144/article/details/80165007

几种解决方法

1、对于RNN，可以通过梯度截断，避免梯度爆炸

　　2、可以通过添加正则项，避免梯度爆炸

　　3、使用LSTM等自循环和门控制机制，避免梯度消失，参考：https://www.cnblogs.com/pinking/p/9362966.html

　　4、优化**函数，譬如将sigmold改为relu，避免梯度消失

循环神经网络进阶

GRU

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

LSTM

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

深度神经网络

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

简介循环神经网络家族

上一篇 2023年4月8日上午2:48

第十讲–循环神经网络–课时21

下一篇 2023年4月8日上午2:48

Split to Be Slim: 论文复现

摘要：在本论文中揭示了这样一种现象：一层内的许多特征图共享相似但不相同的模式。本文分享自华为云社区《Split to Be Slim: 论文复现》，作者：李长安。 Split to Be Slim: An Overlooked Redundancy in Vanilla Convolution 论文复现 1、问题切入已经提出了许多有效的解决方案来减少…

人工智能概论 2023年4月25日
000
Attention和增强循环神经网络

Attention and Augmented Recurrent Neural Networks 理解长短期记忆网络改进循环神经网络的4个方向神经 Turing 机器有它们能够读和写的外部的记忆attention接口让循环神经网络聚焦于部分输入自适应计算时间允许每一步的计算量不同神经程序员能调用函数，在它们运行时构建程序都依靠相同的基本技巧（称为att…

循环神经网络 2023年4月8日
000
版本问题—cuda和tensorflow的版本对应关系

cuda和tensorflow的版本有对应关系 https://tensorflow.google.cn/install/source#linux

tensorflow 2023年4月8日
000
目标检测/语义分割超强面经篇（含答案）

目标检测面试总结：目标检测面经1 目标检测面经2 语义分割面试总结：语义分割面经1

目标检测 2023年4月6日
000
目标检测

目标检测之RCNN，fast RCNN，faster RCNN

候选区生成(Selective Search)。分割成2000左右的候选小区域合并规则：颜色、纹理相近，尺度均匀，合并后形状规则特征提取。归一候选区尺寸为227×227，归一方法。使用在imageNet上的分类网络作为预训练网络，预训练网络输出4096维特征预训练网络加上全连接层在分类数据集上预训练每一类使用SVM分类器对预训练网络输出的40…

2023年4月5日
000
PyTorch

pytorch张量数据索引切片与维度变换操作大全（非常全）

(1-1)pytorch张量数据的索引与切片操作1、对于张量数据的索引操作主要有以下几种方式：a=torch.rand(4,3,28,28):DIM=4的张量数据a(1)a[:2]:取第一个维度的前2个维度数据(不包括2)；(2)a[:2,:1,:,:]：取第一个维度的前两个数据，取第2个维度的前1个数据，后两个维度全都取到；(3)a[:2,1:,:,:]：…

2023年4月8日
000
Caffe

Caffe for Windows 训练cifar10

我们学习Caffe提供的简单例程，目的是为了让初学者轻松上手，以examples/cifar10/为例，主要用于小图片的分类。 1 cifar10数据集 60000张32*32彩色图片，50000张训练，10000张测试下载cifar10数据集：http://www.cs.toronto.edu/~kriz/cifar-10-binary.tar.gz…

2023年4月8日
000
【目标检测+域适应】CVPR18 CVPR19总结

域适应已经是一个很火的方向了，目标检测更不用说，二者结合的工作也开始出现了，这里我总结了CVPR18和CVPR19的相关论文，希望对这个交叉方向的近况有一个了解。 1. 2018_CVPR Domain Adaptive Faster R-CNN for Object Detection in the Wild 这篇可算是第一个工作，以faster rcnn…

目标检测 2023年4月7日
000

合作推广

合作推广

返回顶部