动手学深度学习（二）：循环神经网络

2023年4月6日下午2:57 • 循环神经网络

语言模型

语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。

我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为T的文本中的词依次为w1,w2,…,wT，那么在离散的时间序列中，wt（1≤t≤T）可看作在时间步（time step）t的输出或标签。

1、语言模型的计算

例如，在一段含有4个词的文本序列的概率：
动手学深度学习（二）：循环神经网络
我们需要计算词的概率，以及一个词在给定前几个词的情况下的条件概率，即语言模型参数。P(w1)可以计算为w1在训练数据集中的词频（词出现的次数）与训练数据集的总词数之比。P(w2∣w1)可以计算为w1,w2两词相邻的频率与w1词频的比值，因为该比值即P(w1,w2)与P(w1)之比；而P(w3∣w1,w2)同理可以计算为w1、w2和w3三词相邻的频率与w1和w2两词相邻的频率的比值。以此类推。

2、n元语法

当序列长度增加时，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设（虽然并不一定成立）简化了语言模型的计算。这里的马尔可夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链。

例如，长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为
动手学深度学习（二）：循环神经网络

循环神经网络

通过隐藏状态来存储之前时间步的信息。
动手学深度学习（二）：循环神经网络

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：动手学深度学习（二）：循环神经网络 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习 3 循环神经网络 RNN Recurrent Neural Networks

上一篇 2023年4月6日下午2:57

双向循环神经网络、深度循环神经网络、BPTT

下一篇 2023年4月6日下午2:58

tensorflow实现线性回归、以及模型保存与加载

内容：包含tensorflow变量作用域、tensorboard收集、模型保存与加载、自定义命令行参数 1、知识点 “”” 1、训练过程： 1、准备好特征和目标值 2、建立模型，随机初始化权重和偏置; 模型的参数必须要使用变量 3、求损失函数，误差为均方误差 4、梯度下降去优化损失过程，指定学习率 2、Tensorflow运算API: 1、矩阵运算：tf.m…

tensorflow 2023年4月8日
000
keras启用tensorboard

在callback函数中添加tensorboard，启用tensorboard。 # TensorBoard callback tensorboard_cb = K.callbacks.TensorBoard( log_dir=MyTensorBoardDir, histogram_freq=1, write_graph=True, write_images…

Keras 2023年4月7日
000
tensorflow

[转]tensorflow提示：No module named ”tensorflow.python.eager”

原文https://blog.csdn.net/qq_27921205/article/details/102976824 主要是tensorflow和keras的版本不对应的问题import keras的时候，提示： “No module named ”tensorflow.python.eager”.” 明明昨天用还没问题。而且网上竟然没有解决方…

2023年4月8日
000
编译Caffe出错，解决方案记录

1.This file was generated by an older version of protoc which is python环境和Anaconda python环境可能存在冲突。使用conda install libprotobuf-dev,这将导致与caffe ’sudo apt-get install libprotobuf-dev …

Caffe 2023年4月7日
000
tensorflow

【TF-2-2】Tensorflow-变量作用域

背景简介 name_scope variable_scope 实例一、背景通过tf.Variable我们可以创建变量，但是当模型复杂的时候，需要构建大量的变量集，这样会导致我们对于变量管理的复杂性，而且没法共享变量(存在多个相似的变量)。针对这个问题，可以通过TensorFlow提供的变量作用域机制来解决，在构建一个图的时候，就可以非常容易的使用共享命…

2023年4月6日
000
卷积神经网络

1-8 简单卷积网络示例

简单卷积网络示例（A simple convolution network example）假设你有一张图片，你想做图片分类或图片识别，把这张图片输入定义为，然后辨别图片中有没有猫，用 0 或 1 表示，这是一个分类问题，我们来构建适用于这项任务的卷积神经网络。针对这个示例，我用了一张比较小的图片，大小是 39×39×3，这样设定可以使其中一些数字效果更…

2023年4月8日
000
目标检测

【天池大赛】通用目标检测的对抗攻击方法一览

赛题：1000张图，在图上贴补丁，最多不超过10个，导致检测框失效就算得分。比赛链接：https://tianchi.aliyun.com/competition/entrance/531806/information 数据描述：从MSCOCO 2017测试数据集中有条件的筛选了1000张图像，这些图像不会包含过多或者过少的检测框（至少会有一个检测框），并…

2023年4月7日
000
Caffe

深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization

转自https://www.cnblogs.com/maohai/p/6453417.html 本节为笔者上课笔记（CDA深度学习实战课程第一期） 1、学习率步长的选择：你走的距离长短，越短当然不会错过，但是耗时间。步长的选择比较麻烦。步长越小，越容易得到局部最优化（到了比较大的山谷，就出不去了），而大了会全局最优一般来说，前1000步，很大，0.1；到…

2023年4月8日
000

合作推广

合作推广

返回顶部