深度学习
-
深度学习_梯度
1.梯度裁剪 在BP过程中会产生梯度消失(就是偏导无限接近0,导致长时记忆无法更新)(特别是RNN,LSTM,Transformer),那么最简单粗暴的方法,设定阈值,当梯度小于阈值时,更新的梯度为阈值,如下图所示: 优点:简单粗暴 缺点:很难找到满意的阈值 2.nn.utils.clip_grad_norm(pa…
-
整理 读过感觉不错的深度学习博客(更新中)
1. http://blog.csdn.NET/zouxy09/article/details/8775488 (深度学习)学习笔记整理系列 2. https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/ tensorflow 教程 3.…
-
【深度学习】K-L 散度,JS散度,Wasserstein距离
度量两个分布之间的差异 (一)K-L 散度 K-L 散度在信息系统中称为相对熵,可以用来量化两种概率分布 P 和 Q 之间的差异,它是非对称性的度量。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。一般情况下,P 表示数据的真实分布,Q 表示数据的理…
-
[笔记] 基于nvidia/cuda的深度学习基础镜像构建流程
基于NVidia开源的nvidia/cuda image,构建适用于DeepLearning的基础image。思路就是先把常用的东西都塞进去,再装某个框架就省事儿了。为了体验重装系统的乐趣,所以采用慢慢来比较快的步骤,而不是通过Dockerfile来build。 环境信息 已经安装了Docker CE和nvidia-docker2 Host OS: Ubun…
-
python 文件操作(深度学习)
文件操作 (day7内容扩展) 1 文件基本操作 obj = open(‘路径’,mode=’模式’,encoding=’编码’)obj.write()obj.read()obj.close() 2 打开模式 基本模式#打开文件f=open(‘要打开文件路径’,mode=’r/w/a/’,encoding=’文件原来编码’) #f为接收变量#操作文件data…
-
深度学习5牛顿法
牛顿法解最大似然估计 对于之前我们解最大似然估计使用了梯度下降法,这边我们使用牛顿法,速度更快。 牛顿法也就是要求解,可导,θ用下面进行迭代。 具体看这个图 对于我们刚刚的求最大似然估计,也就是,则 下面在原理上说一说。 摘自:http://blog.csdn.net/luoleicn/article/details/6527049 对于一个目标函数f,求函…
-
深度学习7softmax回归
softmax回归可以解决两种以上的分类,该模型是logistic回归模型在分类问题上的推广。 对于y可以取两个以上的值,比如说判断一份邮件是垃圾邮件、个人邮件还是工作邮件。 这边也参考http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 即,对于训练集,我们有 也…
-
深度学习6一般线性模型
在前面我们曾经有一个问题,就是在logistic回归中,我们为什么用 对于这个问题,我们先定义了一个一般线性模型 一般为y,就是我们前面所说的真实值y 这个分布也就是指数分布 伯努利分布,高斯分布,泊松分布,贝塔分布,狄特里特分布都可以用这个指数分布来表示。 在对数回归时采用的是伯努利分布,对于伯努利分布,可以表示成 则我们对照上面的一般线性模型 解,这边也…
-
深度学习4线性回归,逻辑回归
y是连续的则是一个回归问题,y是离散的则是一个分类问题,这边就开始考虑y是离散的情况。 对于这样的问题很多,比如判断一个人是否生病,或者判断一个邮件是否是垃圾邮件。 回归时连续型的,一般不用在上述的分类问题中,因为其受噪音的影响比较大,如果要把一个回归方法用到分类上的话,那就是logistic回归。之所以叫其回归,因为其本质上还是线性回归,只是在特征到结果中…
-
从零开始学会GAN 0:第一部分 介绍生成式深度学习(连载中)
本书的前四章旨在介绍开始构建生成式深度学习模型所需的核心技术。在第1章中,我们将首先对生成式建模领域进行广泛的研究,并从概率的角度考虑我们试图解决的问题类型。然后,我们将探讨我们的基本概率生成模型的第一个例子,并分析为什么随着生成式任务的复杂性增长,可能需要部署深度学习技术。第2章提供了开始构建更复杂的生成模型所需的深度学习工具和技术的指南。这旨在成为深度学…