深度学习实战-强化学习-九宫格当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)

2023年4月13日下午9:03 • 深度学习

强化学习使用的是bellmen方程，即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值) discount_factor表示奖励的衰减因子

使用的是预先制造好的九宫格的类

代码说明：

env.nA,即每个位置的下一个方向的个数为4

env.nS 表示九宫格的大小为16

env.P[state][a] 表示九宫格对应位置的方向，返回的是prob概率， next_state下一个位置，reward及时奖励, done是够到达出口

env.shape 表示九宫格的形状，4*4

代码：

第一步：定义总的函数valueiteration, 输入参数为env, theta=0.0001变化的阈值， discout_factor=1.0奖励的衰减值

第二步：定义one_step_look_head() 用于计算当前位置的往四个方向的奖励值，输入为当前位置state， v奖励值矩阵

第一步：初始化A, A的大小为np.zeros(env.nA)

第二步：循环range(4), for prob, next_state, reward, done in env.P[state][a] 来获得对应的概率值，下一个方向的位置，reward及时奖励值，done是否到达终点

第三步：使用A[a] += prob * (reward + discount_factor * v[next_state]) 来获得四个方向的奖励值，返回奖励值

第三步：进行循环操作，不断更新V，直到V的变化小于theta，即跳出循环

第一步：使用np.zeros(env.nS) 初始化V矩阵

第二步：不断循环env.nS,即循环16次 s，delta = 0

第三步：调用one_step_look_head(s, V) 获得当前位置的各方向奖励值A

第四步：使用np.max获得最大的奖励值，将最大奖励值 - 当前位置V的奖励值，使用max取较大值

第五步：循环16次后，如果max获得的较大值比theta要小，即V已经不发生改变，跳出循环

第四步：构造policy判断当前位置的移动方向

第一步：初始化policy矩阵，矩阵的大小为16, 4

第二步：循环16次，调用one_step_look_head(s, V) V 已经训练好，获得A，四个方向的奖励值

第三步：使用np.argmax()获得最大位置的索引值

第四步：将最大位置的索引值赋值为1

第五步：返回policy

第五步：调用valueiteration(env), 获得policy，使用np.reshape(np.argmax(policy, axis=1), env.shpae) 将policy转换为数字类型的

from Nine_Bouding抄写.gridworld import GridworldEnv
import numpy as np

# 获得GridwordEnv()的类
env = GridworldEnv()

# 第一步：定义valueiteration函数,输入为env,theta迭代结束的阈值，discount_factor表示奖励的惩罚值
def valueiteration(env, theta=0.001, discount_factor=1.0):

    # 第二步：构建one_step_look_head用于计算当前位置四个方向的奖励值
    def one_step_look_head(state, v):
        # 初始化四个方向的奖励值
        A = np.zeros(env.nA)
        # 循环a = 0, 1, 2, 3 
        for a in range(env.nA):
            # 获得当前位置对应方向的prob概率，next_state，下一个方向的位置，reward及时奖励，done是否到达出口
            for prob, next_state, reward, done in env.P[state][a]:
                # 使用prob * (及时奖励 + 下一个位置的奖励)获得当前位置方向的奖励值
                A[a] += prob * (reward + discount_factor * v[next_state])
        # 返回当前位置四个方向的奖励值
        return A
    # 第三步：不断循环获得奖励值矩阵V 
    
    # 初始化奖励值V 
    V = np.zeros(env.nS)
    # 循环
    while True:
        # 初始化差值
        delta = 0
        # 循环16次，即一圈
        for s in range(env.nS):
            # 调用one_step_look_head获得当前位置4个方向的奖励值
            A = one_step_look_head(s, V)
            # 使用np.max获得最大的奖励值
            max_action = np.max(A)
            # 使用当前方向最大的奖励值 - 当前的奖励值
            delta = max(delta, np.abs(max_action - V[s]))
            # 把当前方向最大的奖励值赋值给当前的奖励值
            V[s] = max_action
        # 循环16次以后, 如果差值小于theta，就跳出循环    
        if delta < theta:
            break
    # 第四步：定义位置的策略值，用于获得每个位置的方向
    policy = np.zeros((env.nS, env.nA))
    # 循环16次
    for s in range(env.nS):
        # 获得当前位置每个方向的奖励值
        A = one_step_look_head(s, V)
        # 获得最大方向的奖励值的索引
        max_action = np.argmax(A)
        # 将决策的最大索引赋值为1 
        policy[s, max_action] = 1
    # 返回决策值
    return policy

# 第五步：调用valueiteration获得policy
policy = valueiteration(env)
print(policy)
# 将policy使用索引值来替换
policy_to_index = np.reshape(np.argmax(policy, axis=1), env.shape)
print(policy_to_index)

深度学习实战-强化学习-九宫格当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习实战-强化学习-九宫格当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减) - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

《深度强化学习——边做边学》第二章在走迷宫任务中策略迭代方法（修改后的代码）

上一篇 2023年4月13日

深度学习实践-强化学习-bird游戏 1.np.stack(表示进行拼接操作) 2.cv2.resize(进行图像的压缩操作) 3.cv2.cvtColor(进行图片颜色的转换) 4.cv2.threshold(进行图片的二值化操作) 5.random.sample(样本的随机抽取)

下一篇 2023年4月13日

深度学习实践系列（1）- 从零搭建notMNIST逻辑回归模型

MNIST 被喻为深度学习中的Hello World示例，由Yann LeCun等大神组织收集的一个手写数字的数据集，有60000个训练集和10000个验证集，是个非常适合初学者入门的训练集。这个网站也提供了业界对这个数据集的各种算法的尝试结果，也能看出机器学习的算法的演进史，从早期的线性逻辑回归到K-means，再到两层神经网络，到多层神经网络，再到最近的…

深度学习 2023年4月11日
000
基于深度学习的文本分类案例：使用LSTM进行情绪分类

Sentiment classification using LSTM 在这个笔记本中，我们将使用LSTM架构在电影评论数据集上训练一个模型来预测评论的情绪。首先，让我们看看什么是LSTM？ LSTM，即长短时记忆，是一种序列神经网络架构，它利用其结构保留了对前一序列的记忆。第一个被引入的序列模型是RNN。但是，很快研究人员发现，RNN并没有保留很多以前序列…

深度学习 2023年4月10日
000
干货分享!深度学习几何画板绘图技巧！

随着科技的进步，传统化的教育教学方式已经很难适应现代化的教学进程，而现代化的教学方式要求使用多媒体教学，向学生们展示教学知识，相关的辅助工具软件就显得尤为的重要。将几何画板运用于教学中，是符合新型教学模式要求的。它作为一种新的认知工具的独特优势，这是任何传统的教学手段和模型所无法替代的，并且具有良好的教学效果，在未来一定能得到广泛的使用。下面就让小编来给大家…

深度学习 2023年4月10日
000
深度学习

深度学习-练习2 多变量线性回归

多变量线性回归在这个练习中，我们主要解决的问题是房价的数据，在数据集中http://openclassroom.stanford.edu/MainFolder/courses/MachineLearning/exercises/ex3materials/ex3Data.zip 数据是Portland, Oregon的房价数据共47个，变量是房价面积和卧室…

2023年4月9日
000
[深度学习]Python/Theano实现逻辑回归网络的代码分析

首先PO上主要Python代码(2.7), 这个代码在Deep Learning上可以找到. 1 　　 # allocate symbolic variables for the data 2 index = T.lscalar() # index to a [mini]batch 3 x = T.matrix(‘x’) # the data is pres…

深度学习 2023年4月12日
000
深度学习、自然语言处理和表征方法

简介过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好，我们也必须思考……它们为什么这么好使？在这篇文章里，我综述一下在自然语言处理（NLP）上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。…

深度学习 2023年4月11日
000
C++深度解析教程学习笔记（1）C到C++的升级

比如商场收银系统 2.C 到 C++ 的升级 2.1变量的定义 C++中所有的变量都可以在需要使用时再定义,而 C 语言中的变量都必须在作用域开始位置定义。 2.2 register 关键字 (1)register 关键字请求编译器将局部变量存储于寄存器中在 C++中依然支持 register 关键字,但这只是为了兼容 C，C++编译器有自己的优化方式,在…

深度学习 2023年4月12日
000
什么样的数据集不适合用深度学习?

github博客传送门csdn博客传送门什么样的数据集不适合用深度学习？数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像／语音／自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体，语音信号中音位组合成单词，文本数据中单词组合成句子,这些特征元素的组…

深度学习 2023年4月12日
000

深度学习实战-强化学习-九宫格 当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)

相关文章

深度学习实战-强化学习-九宫格当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)