3.深度学习的实用层面

2023年4月10日上午2:37 • 深度学习

第一周：深度学习的实用层面

3.深度学习的实用层面

项目进展得一个关键性得因素就是划分高质量得训练集，验证集，测试集。这有助于提高循环迭代得效率。验证集也称为development set

也称为dev set。

验证集主要用于评价不同得模型，通过验证来选择最终得模型。或者说是验证不同得算法，检验那种算法更有效。

然后测试集在选择得模型上进行评估。

三种集合要来自于同一种划分。

深度学习的趋势是权衡方差和偏差

3.深度学习的实用层面

通过训练集与验证集的正确率来观察偏差和方差。假设验证集和训练集是同一分布

3.深度学习的实用层面

紫色的线部分欠拟合，部分过拟合，所以具有高偏差和高方差。

当我们训练好模型后首先要知道模型的偏差是否过高，如果偏差过高甚至无法拟合训练集，那么选择一个新的网络，比如含有更多隐藏层和隐藏单元的网络，

花费更多的时间来训练网络，直至网络拟合训练集。

之后观察方差是否过高，如果方差过高，那么采用更多的数据，或者正则化。

重复此过程，直至找到一个低偏差和低方差的网络

3.深度学习的实用层面

如果怀疑神经网络中出现了高方差，那么一种方法是用更多的数据。另一种方法就是用正则化方法。

在逻辑回归中使用正则化项。

3.深度学习的实用层面

w是一个高维参数矢量，b是一个实数。所以b可以忽略。如果用l1正则化，那么w讲是稀疏的，w中会有很多0。人们越来越倾向于使用l2正则化。

神经网络中的正则化也被称为权重衰减。神经网络中，参数w是一个矩阵，l2正则化其实也是计算平方和。

3.深度学习的实用层面

神经网络最后的那个计算就是让矩阵先乘以一个系数（系数小于1）（被称为权重衰减的原因），再减去那个。

直观的理解就是正则化系数如果设置的过大，那么权重矩阵就会被设置为权重趋于0的值。许多隐藏单元的值为0，其实也就是消除了这些隐藏单元的理解

dropout是一种正则化方法，中文名称为随机失活。

假设左边的神经网络存在过拟合，dropout会遍历网络的每一层，设置每一层中消除网络中节点的概率，然后删掉被删除节点进入和射出的线，从而得到一个节点更少，规模更小的网络。作用于训练阶段，在测试阶段不再用，每一次迭代都会从新计算dropout，因此每次的代价函数都不同。

3.深度学习的实用层面

dropout最常用的就是反向随机失活(inverted dropout)

3.深度学习的实用层面

d是随机生成一个向量，a是某一层输出的结果向量。a与b相乘后，a仍需要除以keep-prob

3.深度学习的实用层面

另外一种正则化防止过拟合的方法就是扩大训练集。用翻转，切割，强变形等手段

3.深度学习的实用层面

早停就是在中间点结束训练。

零均值化与方差均值化。训练集用此方法来进行归一化后，测试集也应该用此方法来进行归一化。尤其是数值不能变。

3.深度学习的实用层面

归一化有利于梯度下降。输入数据有的在0-1，有的在0-1000，那么归一化就十分有必要了。如果输入数据在相似的范围，那么归一化就没有那么有必要了。

梯度消失与梯度爆炸详解：https://blog.csdn.net/qq_25737169/article/details/78847691

较大三角形的高宽比更接近于导数，这不是一个单边公差，而是一个双边公差。双边公差更接近于导数。所以用双边公差来估计梯度。

3.深度学习的实用层面

梯度检验可以帮我们很好的发现反向传播中的bug

3.深度学习的实用层面

第二周：优化算法

深度学习是一个高度依赖经验的过程，并且伴随着大量的迭代过程。需要训练大量的模型，才能找到适合的那一个。

首先来谈mini-batch gradient descent算法。

吧训练集分割为一些小的集和，这些集和称为mini-batch

3.深度学习的实用层面

右上角的小括号代表第几个训练样本，中括号代表神经网络的第几层输出，大括号代表第几个mini-batch

3.深度学习的实用层面

原来的训练集被划分为许多个小的mini-batch,在每个小的mini-batch上进行一次梯度下降。

3.深度学习的实用层面

现在我们要决定的就是mini-batch的大小

3.深度学习的实用层面

优点：有效的利用了向量化，每一次的迭代时间变少。另一方面，你不需要等到整个训练集被训练完，就可以开始后续的工作。

如果训练集较小，那么就直接使用batch算法。这里说的少一半是说少于2000个样本。

划分mini-batch时，一般大小为64-512,2的幂，主要是考虑到了电脑内存。

3.深度学习的实用层面

指数加权平均法

3.深度学习的实用层面

在进行指数加权平均时，初期值会比较低，所以要用到偏差修正：但传统中人们一般不会考虑偏差修正。

3.深度学习的实用层面

接下来是动量梯度下降，传统的梯度下降，只计算当前的梯度，而动量梯度下降，不仅考虑到了当前的梯度，也考虑到了之前的梯度。方法就是指数加权平均。

3.深度学习的实用层面

学习率衰减

3.深度学习的实用层面

超参数的重要程度：红橙紫

3.深度学习的实用层面

如果超参数过多，不适宜用排列组合，而是用随机选取点的方法。

3.深度学习的实用层面

再由粗略到精细：

3.深度学习的实用层面

一些事随机均匀选取的：

3.深度学习的实用层面

softmax回归，最后一层输出的是概率，和为1

3.深度学习的实用层面

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：3.深度学习的实用层面 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

[学习笔记]C语言深度剖析

上一篇 2023年4月10日

5 TensorFlow实战Google深度学习框架一书中的错误两处（交叉熵定义有误）

下一篇 2023年4月10日

6月份学习记录【海岛帝国系列赛】No.1 海岛帝国：诞辰之日【海岛帝国系列赛】No.2 海岛帝国：“落汤鸡”市的黑帮危机【海岛帝国系列赛】No.3 海岛帝国：运输资源【海岛帝国系列赛】No.4 海岛帝国：LYF的太空运输站【海岛帝国系列赛】No.5 海岛帝国：独立之战【海岛帝国系列赛】No.6 海岛帝国：战争前线【海岛帝国系列赛】No.7 海岛帝国：神圣之日图的广度优先遍历图的深度优先遍历 kruskal算法

6月份学习记录今天一看日历，6月差不多要过去了，又该写学习记录啦~~~ 想到6月的头一天，因为没有过传说中的儿童节（去出题了）闹了一顿，然后得到一张电影票QAQ（电影好像还是在电视上点播的）。LJX李家鑫说：“谁计算机没学两年啊！”，当我跟LJX李家鑫童靴说我c++学了6个月后，他说我智商太高？我瞬间就懵了，难道学6个月学不到这样吗？ …

深度学习 2023年4月12日
000
实战深度学习OpenCV(三)：视频实时canny边缘检测

#include <stdio.h> #include”opencv2/opencv.hpp” using namespace cv; int main() { VideoCapture a(0); Mat edge; while (1) { Mat frame; a >> frame; cvtColor(frame,edge,CV_…

深度学习 2023年4月11日
000
什么是深度学习？它能解决什么问题？

深度学习是什么？深度学习既指深度神经网络，也指机器学习的其他分支，如深度强化学习。一般来说，它通常指的是深度神经网络。神经网络是一组算法，大致模仿人脑，旨在识别模式。他们通过一种机器感知，标记或聚类原始的输入来解释感官数据。它们识别的模式是数字的，包含在矢量中。所有现实世界的数据，无论是图像、声音、文本还是时间序列，都必须转换成矢量。神经网络可以帮助我…

2022年11月10日 • 深度学习
100
深度学习

ChatGPT，我彻彻底底沦陷了！

当谈到人工智能技术的时候，我们会经常听到GPT这个术语。它代表“Generative Pre-trained Transformer”，是一种机器学习模型，采用了神经网络来模拟人类语言的理解和生成。但是与其他GPT不同的是chatgpt，它是专门设计用于自然语言对话的GPT模型。在以下三个方面，我们可以看出原因: 1. 精准和逼真的文本生成 ChatGPT强…

2023年4月10日
000
深度神经网络多任务学习(Multi-Task Learning in Deep Neural Networks)

MTL 有很多形式：联合学习（joint learning）、自主学习（learning to learn）和带有辅助任务的学习（learning with auxiliary task）等。一般来说，优化多个损失函数就等同于进行多任务学习。即使只优化一个损失函数（如在典型情况下），也有可能借助辅助任务来改善原任务模型。两种深度学习 MTL 方法 1、参数…

深度学习 2023年4月12日
000
Predicting effects of noncoding variants with deep learning–based sequence model | 基于深度学习的序列模型预测非编码区变异的影响

Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting noncoding variants – 非常好的学习资料这篇文章的第一个亮点就是直接从序列开始分析，第二就是使用深度学习获得了很好的预测效果。 This i…

深度学习 2023年4月12日
000
深度学习

【原创深度学习与TensorFlow 动手实践系列 – 3】第三课：卷积神经网络 – 基础篇

【原创深度学习与TensorFlow 动手实践系列 – 3】第三课：卷积神经网络 – 基础篇提纲： 1. 链式反向梯度传到 2. 卷积神经网络 – 卷积层 3. 卷积神经网络 – 功能层 4. 实例：卷积神经网络MNIST分类期待目标： 1. 清楚神经网络优化原理，掌握反向传播计算。 2. 掌握卷积神经网络卷积层的结构特点，关键…

2023年4月10日
000
从贝叶斯角度，看深度学习的属性和改进方法

https://arxiv.org/abs/1706.00473 深度学习是一种为非线性高维数据进行降维和预测的机器学习方法。而从贝叶斯概率视角描述深度学习会产生很多优势，即具体从统计的解释和属性，从对优化和超参数调整更有效的算法，以及预测性能的解释这几个方面进一步阐述。同时，传统的高维统计技术：主成分分析法（PCA）、偏最小二乘法（PLS）、降秩回归（RR…

深度学习 2023年4月12日
000

3.深度学习的实用层面

相关文章