【强化学习】—— Q-learning算法

时间：2024-10-25 18:45:29浏览次数：3

标签：prime 状态动作 max 奖励算法 learning 强化

Q-Learning算法

Q-learning 是一种无模型的强化学习算法，用于寻找最优策略以最大化累积奖励。它通过学习一个状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a)，该函数表示在状态 ( s ) 下执行动作 ( a ) 的预期收益。

1.Q-learning 的基本概念

状态（State）: 环境的当前状态。
动作（Action）: 代理在当前状态下可以采取的动作。
奖励（Reward）: 执行动作后获得的反馈，通常是一个数值。
学习率（Learning Rate, α α α）: 控制新获得的信息与旧信息的权重。
折扣因子（Discount Factor, γ γ γ）: 权衡当前奖励和未来奖励的影响。

2.Q-learning 更新公式

Q-learning 的更新公式为：

Q ( s , a ) ← Q ( s , a ) + α [ r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a)\leftarrow Q(s,a)+\alpha\left[r+\gamma\max_{a^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a)\right] Q(s,a)←Q(s,a)+α[r+γa′maxQ(s′,a′)−Q(s,a)]

其中：

s ′ s' s′是执行动作 a a a后的新状态。
r r r是在状态 s s s执行动作 a a a时获得的奖励。
max ⁡ a ′ Q ( s ′ , a ′ ) \max_{a'} Q(s', a') maxa′Q(s′,a′)是在新状态 s ′ s' s′下的最大 Q Q Q值。

3.训练过程

初始化: 将 Q Q Q值表初始化为任意值（通常为0）。
探索与利用: 在训练过程中，代理根据当前 Q Q Q值选择动作，通常采用 ε − g r e e d y ε-greedy ε−greedy策略，即以 ε ε ε的概率随机选择动作（探索），以 1 − ϵ 1 - \epsilon 1−ϵ的概率选择当前 Q Q Q值最大的动作（利用）。
更新 Q Q Q值: 根据上面的更新公式更新 Q Q Q值。
重复: 不断执行步骤 2 和 3，直到收敛或达到预设的训练轮数。

4.优势与挑战

优势: Q-learning 能够在没有环境模型的情况下进行学习，适用于多种问题。
挑战: 在状态和动作空间较大时， Q Q Q 值表会变得庞大，导致存储和计算成本高。可以使用深度 Q Q Q网络（DQN）来处理大规模问题。

标签：prime,状态,动作,max,奖励,算法,learning,强化
From： https://blog.csdn.net/Lvyizhuo/article/details/143187183

程序员现在应该钻研算法还是prompt能力
标题：程序员现在应该钻研算法还是prompt能力摘要：1、算法与prompt能力，两者在当今编程领域均占据了极为重要的地位。算法作为解决问题的基础，强调逻辑思维与高效实现；而prompt能力，则关乎于与先进AI系统的交互，强调理解与指令的准确传达。本文旨在探讨程序员应如何在算法与prompt能力间......
蓝桥首场算法团队战2024.10.24 题解(1~5)
蓝桥首场算法团队战2024.10.24题解1:不同角度【算法赛】题意：给定自然数S，需要找出一个自然数T。使得数字T>数字S并且S和T转化为字符串后，满足S的字典序>T的字典序。T一定存在，找出符合条件且字典序最小的T。输入：第一行一个整数t，表示t组测试用例。\((......
算法题——执行操作可获得的最大总奖励
3181.执行操作可获得的最大总奖励题干给你一个整数数组rewardValues，长度为n，代表奖励的值。最初，你的总奖励x为0，所有下标都是未标记的。你可以执行以下操作任意次：从区间[0,n-1]中选择一个未标记的下标i。如果rewardValues[i]大于你当前的总奖励x，则将rewar......
论文阅读-Learning to Predict Visual Attributes in the Wild
摘要视觉属性构成了场景中包含信息的大部分。物体可以使用多种属性来描述，这些属性展现了它们的视觉外观（颜色、纹理）、几何特征（形状、大小、姿态）以及其他内在属性（状态、动作）。现有工作大多局限于特定领域内的属性预测研究。在本文中，我们介绍了一个大规模的野外视觉属性预测数据集，......
全面了解 NGINX 的负载均衡算法
NGINX提供多种负载均衡方法，以应对不同的流量分发需求。常用的算法包括：最少连接、最短时间、通用哈希、随机算法和IP哈希。这些负载均衡算法都通过独立指令来定义，每种算法都有其独特的应用场景。以下负载均衡方法（IP哈希除外）适用于HTTP、TCP和UDP上游池：轮询轮询（Ro......
K-近邻算法（KNN）
"""K-近邻算法用于分类和回归问题。比如，判断一款游戏是否受欢迎。KNN算法的基本思想是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某个类别，则该样本也属于这个类别。KNN算法的实现方法有两种：1.基于欧氏距离的KNN算法2.基于余弦相似度的KNN算法KNN算法的优点：1.简......
算法设计实验6
p1249有一个8*8的棋盘，行号、列号均为0-7，一个特殊放个的位置是（5,6），给出采用L形骨牌覆盖其他全部方格的一种方案1#include<ostream>2#include<iostream>3#defineMAX_SIZE84usingnamespacestd;5intk;6intx,y;7intboard[MAX_SIZE][MAX_SIZE];8int......
【数据结构和算法】一、算法复杂度：时间复杂度和空间复杂度）
目录1、算法复杂度1.1概念1.2评价指标1.3时间复杂度1.3.1什么是时间复杂度1.3.2常数阶O(1)1.3.3 线性阶O(n)1.3.4 对数阶O(logN)1.3.5 线性对数阶O(nlogN)1.3.6 平方阶O(n²)1.3.7 立方阶O(n³)、K次方阶O(n^k)1.4 空间复杂度1.4.1 空间复......
数据结构图的最短路径-弗洛伊德算法(有向图+数据结构课本C++代码一比一转C语言+邻接矩
弗洛伊德算法有向图代码如下:#define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>#include<stdlib.h>#include<limits.h>#defineMaxInt32767#defineMVNum100intPath[MVNum][MVNum];//存放前驱索引的intD[MVNum][MVNum];//存放当前已知的权值//图的邻接......
非常牛 H 开头的算法
考前发现欧拉回路不会。然后寻求多方大佬，最后比较深刻地理解了一个叫Hierholzer的算法。这个算法暴力写法是：先找一条欧拉路径，然后把这个路径上的点删了。再看看这个链上的点能不能再被换成环，能的话就把这个点换成新找的路径，这步用链表插入，这个过程是递归的。复杂度很......