首页 > 其他分享 >强化学习理论-第4课-值迭代与策略迭代

强化学习理论-第4课-值迭代与策略迭代

时间:2024-11-13 11:10:35浏览次数:1  
标签:策略 algorithm iteration value Policy policy 强化 迭代

1. value iteration algorithm:

值迭代上一节已经介绍过:

1.1 policy update:

1.2 Value update:

此时,\(\pi_{k+1}\)和\(v_k\)都是已知的

1.3 procedure summary:

1.4 example:



2. policy iteration algorithm:



Q1:

Q2:

Q3:

2.1 Policy evaluation:

2.2 Policy improvement:


3. truncated policy iteration algorithm

3.1 compare value iteration and policy iteration:




计算一步是value interation,计算无穷多步,就是policy iteration。中间截断一步,就叫做truncated policy iteration

3.2 pseudocode:


4. summary:

标签:策略,algorithm,iteration,value,Policy,policy,强化,迭代
From: https://www.cnblogs.com/penuel/p/18543501

相关文章

  • SpringCloud篇(服务提供者/消费者)(持续更新迭代)
    在服务调用关系中,会有两个不同的角色:服务提供者:一次业务中,被其它微服务调用的服务。(提供接口给其它微服务)服务消费者:一次业务中,调用其它微服务的服务。(调用其它微服务提供的接口)但是,服务提供者与服务消费者的角色并不是绝对的,而是相对于业务而言如果服务A调用了服务B,而......
  • WhatsApp营销:5个技巧轻松强化客户关系
    WhatsApp作为在全球拥有超过20亿用户的社交通讯平台,已经成为大量品牌和卖家与客户沟通和交互的重要渠道。对于以一些WhatsApp使用率高的热门地域为主要目标市场的品牌和卖家来说,WhatsApp是营销必备工具,进一步提高WhatsApp营销效率和效果也成为重要课题。一、WhatsApp营销的优......
  • 负载均衡策略有哪几种?
    在当今数字化的时代,随着网络应用和服务的规模不断扩大,负载均衡成为保障系统高性能、高可用性的关键技术。负载均衡策略多种多样,它们在不同的场景下发挥着重要作用。1、轮询策略轮询是一种简单而直接的负载均衡策略。在这种策略下,服务器集群中的服务器按照顺序依次接收请求。例如......
  • 强化学习理论-第3课-贝尔曼最优公式
    1.贝尔曼最优公式:1.1定义:第2课介绍了贝尔曼公式,里面的\(\pi(a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得statevalue最好1.2matrix-vectorform:2.求解贝尔曼公式:公式中,v是一个未知量,\(\pi\)也是要求解的最优策略。假设a有5个action,2.1Contractionmap......
  • 优化RAG索引策略:多向量索引与父文档检索技术
    引言在RAG(检索增强生成)系统中,索引策略直接影响检索的效率和准确性。本文将深入探讨两种先进的索引优化技术:多向量索引和父文档检索,以及一种高级的RAG优化策略——RAPTOR。这些技术能够显著提升RAG系统的性能,尤其是在处理长文档和复杂查询时。多向量索引技术多向量索引的概念多......
  • RAG 应用优化策略:从文档处理到检索技巧
    引言RAG(检索增强生成)应用的性能很大程度上取决于文档处理、分割策略和检索方法的优化。本文将系统地介绍RAG应用的各个环节优化策略,帮助开发者构建更高效的RAG系统。文档预处理优化非分割类型的文档转换器1.问答转换器(QATransformer)问答转换器可以将文档转换为问答对的......
  • 基于HarmonyOS Next的营销防薅羊毛设计:Device Certificate Kit的活动防护策略
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)的技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。在电商和营销活动日益频繁的今天,......
  • 基于HarmonyOS Next的营销防薅羊毛设计:Device Certificate Kit的活动防护策略
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)的技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。在电商和营销活动日益频繁的今天,黑灰产......
  • CN.Ltd域名的注册与使用策略
    ‌对于CN.Ltd域名的注册和使用策略,以下是一些建议‌:‌了解域名含义与优势‌:CN.Ltd域名是中国有限公司的专属域名,结合了.cn(中国国家顶级域名)和.ltd(国际通用顶级域名代表“有限公司”),具有极高的辨识度和地域属性,有助于提升企业的品牌形象和市场竞争力‌。‌注册流程‌:选择......
  • 基于 dp 凸性的优化策略(待修缮)
    斜率优化\(y=kx+b\)形式维护队列,询问不单调则二分决策点。SlopeTrick如果决策函数满足以下条件:连续凸包,每一段斜率为整数凸包上断点之间的一次函数斜率总和为\(\mathcalO(n)\)级别则称这个函数满足性质\(T\),且如果\(f,h\)都满足性质\(T\),则\(f+h\)也满足性质......