首页技术日记正文内容

强化学习之迷宫问题(MC,Sarsa,Q-learning实现)

技术日记

更新时间：2025-06-08 03:22:12 43

admin 管理员组

文章数量: 1087135

2023年12月23日发(作者：数据库的distinct是什么意思)

#epsilon-greedy#get the actiondef get_action(s, Q, epsilon, pi_0): direction = ["up", "right", "down", "left"] #print("s = " + str(s))

#probability epsilon to random search if () < epsilon: next_direction = (direction, p=pi_0[s, :]) else: #move by the maximum Q next_direction = direction[max(Q[s, :])]

if next_direction == "up": action = 0 elif next_direction == "right": action = 1 elif next_direction == "down": action = 2 elif next_direction == "left": action = 3

return action

#get next state by actiondef get_s_next(s, a, Q, epsilon, pi_0): direction = ["up", "right", "down", "left"] next_direction = direction[a]

if next_direction == "up": s_next = s - 3 elif next_direction == "right": s_next = s + 1 elif next_direction == "down": s_next = s + 3 elif next_direction == "left": s_next = s - 1

return s_next通过state, action更新Q矩阵的Sarsa算法：推导：kμk=∑j=1xjk−11=k(xk+∑j=1xj)1=k(xk+(k−1)μk−1)1=μk−1+k(xk−μk−1)1kfor each state

St with

Gt:N(St)←N(St)+1V(St)←V(St)+1N(St)(Gt−V(St))Gt=Rt+1+γV(St+1)得到：Q(st,at)=Q(st,at)+η∗(Rt+1+γQ(st+1,at+1)−Q(st,at))其中Rt+1+γQ(st+1,at+1)−Q(st,at)叫做TD error根据上述公式更新Q：

eta = 0.1gamma = 0.9epsilon = 0.5v = (Q, axis=1) #select the maximum Q value for each stateis_continue = Trueepisode = 1while is_continue: print("episode: " + str(episode))

epsilon = epsilon / 2 #epsilon-greedy

[s_a_history, Q] = goal_maze_ret_s_a_Q(Q, epsilon, eta, gamma, pi_0)

new_v = (Q, axis=1) #maximum value for each state

print(((new_v - v)))

v = new_v

print("steps to reach goal is: " + str(len(s_a_history) - 1))

episode = episode + 1 if episode > 100: break虽然写了到100 episode，但是从output看出很快就收敛到最优路径episode: 10.227489819094steps to reach goal is: 14episode: 20.1steps to reach goal is: 10episode: 30.5steps to reach goal is: 4episode: 40.78steps to reach goal is: 4episode: 50.78steps to reach goal is: 4episode: 60.18steps to reach goal is: 4episode: 70.4steps to reach goal is: 4episode: 8看下收敛后的路径及Q矩阵

完整迭代到100次：eta = 0.1 #learning-rategamma = 0.9 #decrease ratev = (Q, axis=1) #maximum value for each stateis_continue = Trueepisode = 1V = [] #state value for each ((Q, axis=1)) #get the maximum value for each statewhile is_continue: print("episode " + str(episode))

[s_a_history, Q] = goal_maze_ret_Q_learning(Q, eta, gamma) #get one path

new_v = (Q, axis=1)

print(((new_v - v))) #get the error

v = new_v

(v)

print("steps to reach goal: " + str(len(s_a_history) - 1)) episode = episode + 1 if episode > 100: is_continue = False收敛结果

episode 10.1steps to reach goal: 20episode 20.6steps to reach goal: 16episode 30.6steps to reach goal: 8episode 40.8steps to reach goal: 6episode 50.3steps to reach goal: 6episode 60.2steps to reach goal: 4episode 70.3steps to reach goal: 4episode 80.6steps to reach goal: 4episode 90.1steps to reach goal: 4episode 100.1steps to reach goal: 4episode 110.5steps to reach goal: 4episode 120.7steps to reach goal: 4episode 130.6steps to reach goal: 4episode 140.8steps to reach goal: 4episode 150.5steps to reach goal: 4episode 160.1steps to reach goal: 4episode 170.9steps to reach goal: 4episode 180.9steps to reach goal: 4episode 190.2steps to reach goal: 4episode 200.8steps to reach goal: 4

本文标签：收敛路径根据上述算法数据库

版权声明：本文标题：强化学习之迷宫问题(MC,Sarsa,Q-learning实现) 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/p/1703288046a445634.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

操作系统之《死锁与银行家算法》【知识点+详细解题过程】

编程

3月前

知识点： 1、什么是死锁？（别名"三角恋"，我喜欢你你喜欢他他喜欢我，明明都单身但是就是‘占有’不了&

操作系统经典题型——死锁避免之银行家算法

编程

3月前

文章目录银行家算法用途数据结构算法描述例题说明银行家算法用途银行家算法用于避免死锁，是最著名的死锁避免算法竞争资源和进程推进顺序不恰当会导致死锁所谓死锁，是指多个进程在运行过程中

操作系统实验之银行家算法（Java版）

编程

3月前

一、实验内容银行家算法的实现。二、实验目的银行家算法是一种最有代表性的避免死锁的算法。在避免死锁方法中允许进程动态地申请资源，但系统在进行资源分配之前，应先计算此次分配资源的安全性&a

解决死锁问题之银行家算法

编程

3月前

银行家算法背景： 银行家算法（Banker’s Algorithm）是一个避免死锁（Deadlock）的著名算法&#

银行家算法 c语言

编程

3月前

操作系统学习之银行家算法，c语言代码实现：本人原创代码，如果有什么错误的地方，欢迎大佬指正！ #include<stdio.h>#include <malloc.h>#include<stdlib.h

银行家算法的思路银行家算法

编程

3月前

算法思路先对用户提出的请求进行合法性检查，即检查请求是否大于需要的，是否大于可利用的。若请求合法，则进行预分配，对分配后的状态调用安全性算法进行检

02_Selenium WebDriver各浏览器驱动下载路径、版本对照、相关配置

编程

3月前

一、谷歌浏览器 1.1 谷歌浏览器驱动ChromeDriver下载路径 http:npm.taobaomirrorschromedriver http:chromedriver.storage.googleapisind

Windows安装PostgreSQL数据库，保姆级教程

编程

3月前

PostgreSQL 是客户端服务器关系数据库管理系统 (RDMS)。PostgreSQL是一个功能非常强大的、源代码开放的客户服务器关系型数据库管理系统（RDBMS）。PostgreSQL

Windows目录及程序安装路径个人习惯

编程

3月前

目录一、系统盘IntelProgram FilesProgram Files (x86)ProgramDataWindowsUsers二、软件盘360AdobeGameSoftMyIDESQLTencentWorkSoftXunLei三、

windows和Linux以及Java中路径分隔符的不同

编程

3月前

在最近的工作中，我遇到一个bug，在Windows一切正常的代码，放到Linux测试环境中就会出现问题，报的是找不到某个jsp页面错误&#xff

【数据库课程设计】SQLServer数据库课程设计（学生宿舍管理），课设报告+源码+数据库关系图

编程

3月前

数据库课程设计——学生宿舍管理，需要全部源码可以关注私信我，把邮箱发在评论区前言一、课题背景和开发环境1、课题背景2、开发环境二、系统功能及示意图1、系统实现功能2、功能示意图2.1学生模块2

数据库的数据太多了怎么办？特别大的访问量到数据库上怎么办？分库分表？| 大别山码将

编程

3月前

数据库的数据太多了怎么办，一个表有一亿个数据（特别大的访问量到数据库上）？分库分表？Mysql的主从复制 1.使用优化查询的方法

Windows操作系统安装mysql数据库（zip安装包）

编程

3月前

MySQL是目前最为流行的开放源码的数据库，是完全网络化的跨平台的关系型数据库系统，它是由瑞典MySQLAB公司开发，目前属于Oracle公司。任何人都能从Internet下

Windows变量路径

编程

3月前

写在前面用Windows系统还是要多了解常用变量路径的，这样也能帮助自己多了解VS中工程的配置路径。参考文献： Windows变量路径与通配符Windows变量路径路径名称实际路径%SystemDrive%操作系统所在的分区号。如

windows 系统下全新下载安装 mysql8.0 数据库（详细）

编程

2月前

windows 系统下全新下载安装 mysql8.0 数据库（详细） 段子手168 1、登录官方网站下载： https:dev.mysqldownloadswi

如果忘记了MySQL数据库的密码怎么办

编程

2月前

解决忘记了数据库密码的办法数据库如果出现以下状况应该怎么办？（一）、给MySQL设置环境变量1.找到MySQL管理程序所在目录；更改环境变量如下&am

操作系统实验之银行家算法模拟

编程

2月前

操作系统实验之银行家算法模拟银行家算法中的数据结构可利用资源向量 AvailableAvailable[i] 表示第 i 种资源可利用的数目最大需求矩阵 MaxMax[i][j] 表示第 i 个进程最多需要的第 j 类资源的数

操作系统：银行家算法避免死锁

编程

2月前

银行家算法是用来避免死锁的，该方法将系统的状态分为安全和不安全，只要系统处于安全状态，便可避免死锁的发生。之所以成为银行家算法，是由于该算法能用于银行系

Oracle数据库安装Windows版本

编程

2月前

1.下载压缩包首先下载oracle19c的数据库，可以在官网下载，也可以从我的百度网盘下载。文件比较大，从oracle官网（外网&#xff0

Windows系统下使用tar命令，压缩文件与解压缩文件并指定路径

编程

2月前

如果想指定解压缩后的文件夹，请看第三步第一步：进入解压文件所在的当前文件夹内右键点击在终端打开如下图第二步：在终端内输入命令行（分为两种情

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

强化学习之迷宫问题(MC,Sarsa,Q-learning实现)

更多相关文章

操作系统之《死锁与银行家算法》【知识点+详细解题过程】

操作系统经典题型——死锁避免之银行家算法

操作系统实验之银行家算法（Java版）

解决死锁问题之银行家算法

银行家算法 c语言

银行家算法的思路银行家算法

02_Selenium WebDriver各浏览器驱动下载路径、版本对照、相关配置

Windows安装PostgreSQL数据库，保姆级教程

Windows目录及程序安装路径个人习惯

windows和Linux以及Java中路径分隔符的不同

【数据库课程设计】SQLServer数据库课程设计（学生宿舍管理），课设报告+源码+数据库关系图

数据库的数据太多了怎么办？特别大的访问量到数据库上怎么办？分库分表？| 大别山码将

Windows操作系统安装mysql数据库（zip安装包）

Windows变量路径

windows 系统下全新下载安装 mysql8.0 数据库（详细）

如果忘记了MySQL数据库的密码怎么办

操作系统实验之银行家算法模拟

操作系统：银行家算法避免死锁

Oracle数据库安装Windows版本

Windows系统下使用tar命令，压缩文件与解压缩文件并指定路径

发表评论

推荐文章

javascript - How can an event bubble to document but not to document.body? - Stack Overflow

javascript - Flatpickr change minDate maxDate on the fly - Stack Overflow

java - Security Configuration in Spring Boot Security with different Profiles and component based security - Stack Overflow

.githubcopilot-instructions.md support for IntelliJ - Stack Overflow

戴尔笔记本恢复原装系统全攻略

热门文章

华硕全系列WIN11 23H2 24H2版本原厂系统工厂模式安装教程

javascript - jQuery get children text in tr - Stack Overflow

javascript - How to fix the issue as: &quot;at process.processTicksAndRejections (node:internalprocesstask_queues:95:5)&

asp.net - &quot;Unknown Exception&quot; when cancelling page unload with &quot;location.href&quot; - Stack Overf

python - PaddleOCR OCR analyzes Left-to-Right instead of Right-to-Left for Arabic- How to process RTL languages correctly? - Sta

swiftui - How to remove warning &#39;init(destination:isActive:label:)&#39; was deprecated in iOS 16.0? - Stack Overflow

javascript - Scroll to anchor with fixed header, content hidden behind header, margin and top padding not working - Stack Overfl

javascript - How to find a bool value in an array? - Stack Overflow

如何将局域网中的windows硬盘挂载到 linux系统中

简洁移除 Windows 11 多余输入法的全流程

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

【教程】Python Flask快速学习

国内可用chatgpt中文版镜像网站最新合集在线网页版-202562

【Windows默认】编码格式修改

系统启动U盘制作

U盘重装win11系统专业版—启动盘制作与安装

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

javascript - How to fix the issue as: "at process.processTicksAndRejections (node:internalprocesstask_queues:95:5)&

asp.net - "Unknown Exception" when cancelling page unload with "location.href" - Stack Overf

swiftui - How to remove warning 'init(destination:isActive:label:)' was deprecated in iOS 16.0? - Stack Overflow