实例理解q—learning-Python强化学习

问题
假设我们在一个建筑物中有5个房间,这些房间通过门相连,如下图所示。我们将每个房间编号为0到4。可以将建筑物的外部视为一个大房间(5)。请注意,门1和4从房间5(外部)通向建筑物。
在这里插入图片描述

我们可以在图表上表示房间,每个房间作为节点,每个门作为链接。

在这里插入图片描述

对于此示例,我们想在任何房间放置一个代理,然后从该房间进入建筑物外(这将是我们的目标房间)。换句话说,目标房间是5号。要将此房间设置为目标,我们会将奖励值关联到每个门(即节点之间的链接)。立即通向目标的门的即时奖励为100。未直接连接到目标房间的其他门的奖励为零。因为门是双向的(0导致4,而4导致0),所以每个房间分配了两个箭头。每个箭头都包含一个即时奖励值,如下所

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 点我我会动 设计师:白松林 返回首页
实付 19.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值