《深度强化学习——边做边学》第二章在走迷宫任务中随机探索（修改后的代码）

2023年4月13日下午8:38 • 深度学习

如下图所示：

《深度强化学习——边做边学》第二章在走迷宫任务中随机探索（修改后的代码）

初始点在 S0，终点在S8，其中红线的部分是墙，不能通过，绿色的圆圈是此刻所在位置。

在任一的状态时可以选的动作其概率都是均等的，如果三个动作可以选就各为0.333333，如果是两个动作可以选就各是0.5。

原书中已经提供代码，但是感觉看起来不是很明晰，于是修改了一下：

https://gitee.com/devilmaycry812839668/maze_random

在修改代码的时候发现下面的一个有意思的事情，就是如果做100000次实验，那么所走的步数从小到大排序其所占实验的次数并不是一个高斯形状的分布，实验之前原本以为下面的分布会是小步数和大步数的实验占比较小而处于中间步数的实验占比大，但是实际情况如下：

《深度强化学习——边做边学》第二章在走迷宫任务中随机探索（修改后的代码）

《深度强化学习——边做边学》第二章在走迷宫任务中随机探索（修改后的代码）

感觉这个现象还是蛮有意思的，不知道该如何解释。

想了想这个结果应该是不同位置在随机探索条件下探索到的概率不同，这个实验可以看做是 蒙特卡洛模拟搜索，最终的结果就是在随机探索（随机策略下）不同路径的概率（近似概率，蒙特卡洛法）。

看来计算机这东西光是想还是不行，还是得要代码跑起来，弄弄实验才对。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《深度强化学习——边做边学》第二章在走迷宫任务中随机探索（修改后的代码） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【神经网络与深度学习】Caffe训练执行时爆出的Check failed: registry.count(t ype) == 1 (0 vs. 1) Unknown layer type

上一篇 2023年4月13日

【转载】另一种（深度）学习：自我监督学习会是下一个重点导向吗？

下一篇 2023年4月13日

深度学习的“ 端到端模型“（end-to-end learning）

　　相对于深度学习，传统机器学习的流程往往由多个独立的模块组成，比如在一个典型的自然语言处理（Natural Language Processing）问题中，包括分词、词性标注、句法分析、语义分析等多个独立步骤，每个步骤是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果，这是非端到端的。　　而深度学习模型在训练过程中，从输入端（…

深度学习 2023年4月10日
000
深度学习中将类别标签映射到one_hot向量

　　有时我们的样本标签，都是标记从0开始直至到类别的个数。在模型训练的时候，这些标签需要变成one_hot向量，这样才能够跟softmax出来的概率做互熵损失，计算loss。　　那么，映射的方法如下： 1 def to_one_hot(y, n_class): 2 return np.eye(n_class)[y] 　　　　y：类型是list，样本的类…

深度学习 2023年4月13日
000
Tensor flow 实战Google深度学习框架笔记Code Part TensorFlow 入门

计算图的使用 import tensorflow as tf a = tf.constant([1.0,2.0],name=”a”) b = tf.constant([2.0,3.0],name=”b”) result=a+b print(a.graph is tf.get_default_graph()) import tensorflow as tf g…

深度学习 2023年4月12日
000
《C语言深度解剖》学习笔记之指针和数组

第4章指针和数组 1. int *p=NULL 和 *p=NULL 有什么区别 int *p = NULL; 　　第一句代码的意思是：定义一个指针变量p，其指向的内存里面保存的是 int类型的数据；在定义变量的同时把p的值设置为 0x00000000，而不是把 *p的值设置为 0x00000000，这个过程称为初始化，是在编译的时候进行的。 int *p;…

深度学习 2023年4月11日
000
深度学习中环境配置的一些经验总结(conda 常用命令)

　　前两个月参加了学校的国创项目，和一个外院的同学组队。课题是基于深度学习的新闻图片中网络暴力元素的检查。 6月末最后一门试考完，正式开始暑假，便有了大把时间搞这个国创项目（反正没有其他事干）。两个组凑钱买了服务器。实验室的师兄老早告诉我们，配环境是第一步，我们可能要搞很久。下面总结一下配环境中获得的经验。　　首先是要有独立的环境，因为github上的代码…

深度学习 2023年4月16日
000
【深度学习】注意力机制 – 李宏毅PPT笔记

自注意力机制李宏毅ML-self attention PPT笔记任务：输入一个向量序列： [v1, v2, ……，vn] 输出一个相同长度的向量序列，如词性标注输出一个向量，如情感分析输出任意长度的向量序列， seq2seq 比如考虑序列标注问题，不能孤立看一个个输入的向量，而是要考虑整个序列。 self-attention…

深度学习 2023年4月11日
000
深度学习网络调参技巧

https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social 转载请注明：炼丹实验室之前曾经写过一篇文章，讲了一些深度学习训练的技巧，其中包含了部分调参心得：深度学习训练心得。不过由于一般深度学习实验，相比普通机器学习任务，时间较长，因此调参技巧就显得尤为重要。同时个人实践…

深度学习 2023年4月13日
000
深度学习

训练深度学习网络时候，出现Nan 或者震荡

原因有多种，需要注意的是，要保证训练数据中没有脏数据，如果在training sample中出现了脏数据，那么在固定的迭代次数段，都会loss突然变nan，导致acc骤降，慢慢变0 https://www.zhihu.com/question/49346370 https://blog.csdn.net/VioletHan7/article/details/…

2023年4月9日
000

合作推广

合作推广

返回顶部