Reinforcement

2024-06-22强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程
强化学习（ReinforcementLrarning，RL）03：贝尔曼方程强化学习（ReinforcementLrarning，RL）03：贝尔曼方程1.状态价值1.1状态价值函数（StateValueFunction）1.2最优策略（OptimalPolicy）2.贝尔曼方程2.1贝尔曼方程（BellmanEquation）2.2贝尔曼方程的推导2.3贝尔曼方程矩阵形式（Matr
2024-06-21强化学习（Reinforcement Lrarning，RL）02：马尔科夫决策过程
强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程状态与状态空间动作与动作空间策略函数状态转移与状态转移函数奖励轨迹回报与折扣回报一个重要性质强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程马
2024-04-24Large Language Models Are Semi-Parametric Reinforcement Learning Agents
发表时间：2023(NeurIPS2023)文章要点：文章提出一个evolvableLLM-basedagent框架REMEMBERER，主要思路是给大模型加一个experiencememory存储过去的经验，然后用Q-learning的方式计算Q值，再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的S
2024-04-16trl for RLHF
2024-04-04基于强化学习（Reinforcement Learning）的机器人控制策略
强化学习（ReinforcementLearning，RL）是机器学习的一个分支，主要研究智能体如何在与环境的交互中通过学习策略以达成回报最大化或实现特定目标的问题。它不是某一种特定的算法，而是一类算法的统称！！！强化学习的目标是让软件智能体在特定环境中能够采取回报最大化的行为。这通常是通
2024-03-02《A Hierarchical Framework for Relation Extraction with Reinforcement Learning》论文阅读笔记
代码原文地址摘要现有的大多数方法在确定关系类型之前，需要先识别出所有的实体，这样就忽略了实体提及和关系类型之间的交互。本文提出了一种新颖的联合抽取范式，把相关实体看作是关系的参数（首先检测一个关系，然后提取相应的实体作为关系的参数）。本文在这个范式下采用了一个分层
2024-02-26Reinforcement Learning Charpter 3
本文参考《ReinforcementLearning：AnIntroduction（2ndEdition）》Sutton 有限MDP有限MDP在RL中一般就是指如下图的交互式学习框架。（为了方便起见，把它当成离散化的过程）其“有限”的特点表现在：state、reward、action三者只有有限个元素其markov性体现在：所以在这种情况下sta
2024-02-05Reinforcement Learning Chapter2
本文参考《ReinforcementLearning：AnIntroduction（2ndEdition）》SuttonK臂赌博机问题描述：你有k个选择，每个选择对应一个奖励，收益由所选动作决定的平稳概率分布产生，目标为最大化某段时间内的总收益期望。联系我们在chapter1中提到的reward，value，action等概念，我们在这个K臂赌博机
2024-01-16基于标签值分布的强化学习推荐算法(Reinforcement Learning Recommendation Algorithm Based on Label Value Distribution)
前言看论文的第三天，坚持下去。慢慢来，比较快。——唐迟本文基于2023年6月28日发表在MATHEMATICS上的一篇名为“基于标签值分布的强化学习推荐算法”(ReinforcementLearningRecommendationAlgorithmBasedonLabelValueDistribution)的文章。文章提出了一种基于标签分布
2024-01-08Reinforcement Learning in Robotics: Enabling Autonomous Systems
1.背景介绍人工智能（AI）和机器学习（ML）技术在过去的几年里取得了显著的进展，尤其是在深度学习方面。深度学习已经成功地应用于图像识别、自然语言处理、语音识别等领域，但在机器人控制和自主系统方面的应用仍然存在挑战。机器人控制和自主系统的主要挑战之一是如何让机器人能够在不同的环
2023-12-31Reinforcement Learning in Python：实践指南
1.背景介绍人工智能（ArtificialIntelligence,AI）是一门研究如何让计算机自主地学习、理解、推理和决策的科学。人工智能的一个重要分支是强化学习（ReinforcementLearning,RL），它研究如何让计算机通过与环境的互动来学习如何做出最佳决策。强化学习的目标是让计算机能够在不同的状态
2023-12-27测试开发 | 人工智能强化学习（Reinforcement Learning）
人工智能强化学习（ReinforcementLearning，简称RL）是一种令人兴奋的学习范式，它通过智能体与环境的交互，通过尝试和错误来学习最佳决策策略。本文将深入探讨强化学习的定义、核心原理、典型应用以及未来发展趋势。1.强化学习的定义强化学习是一种通过智能体与环境的交互学习的范式，其目
2023-12-27人工智能算法原理与代码实战：强化学习的基础概念和实践
1.背景介绍强化学习（ReinforcementLearning,RL）是一种人工智能（AI）的子领域，它旨在解决如何让智能体（如机器人）在环境中取得最佳性能的问题。强化学习的核心思想是通过与环境的互动来学习，而不是通过传统的监督学习方法。在这种学习过程中，智能体通过试错学习，并根据收到的奖励来调整其行为
2023-12-24强化学习算法真的适合于你的应用吗 —— 强化学习研究方向(研究领域）现有的不足（短板、无法落地性） —— Why You (Probably) Shouldn’t Use Reinforcement
外文原文：WhyYou(Probably)Shouldn’tUseReinforcementLearning地址：https://towardsdatascience.com/why-you-shouldnt-use-reinforcement-learning-163bae193da8中文翻译版本（ChatGPT3.5翻译：）有关这项技术存在很大的炒作，而且理由充分，因为这可能是实现通用人工智能的
2023-11-13Reinforcement Learning Chapter 1
本文参考《ReinforcementLearning：AnIntroduction（2ndEdition）》Sutton.强化学习是什么传统机器学习方法可分为有监督与无监督两类；有监督学习----->任务驱动无监督学习----->数据驱动强化学习则可看作机器学习的“第三范式”----->模拟驱动，具体而言：通过agent与environm
2023-10-30Tabular Value-Based Reinforcement Learning
ReadingNotesaboutthebookDeepReinforcementLearningwrittenbyAskePlaatRecently,IhavebeenreadingthebookDeepReinforcementLearningwrittenbyAskePlaat.ThisbookisagoodintroductiontothetheoryofDeepReinforcementLearning.Andit
2023-10-07Reinforcement Learning 学习笔记 1
什么是强化学习（reinforcementlearning）?假设一个场景，一个智能体(agent)和环境（env）交互，智能体基于当前环境\(S_t\)每产生一个动作\(A_t\)，环境便给它一个反馈，也被称为奖励(reward)\(R_{t+1}\),随后，智能体的状态变为\(S_{t+1}\).这样生成了一系列状态\(S_t,A_t,R_{t+1},S_{t+1
2023-08-14参考文献列表：Mixed-type conversation
TowardsTopic-GuidedConversationalRecommenderSystemRecInDial:AUnifiedFrameworkforConversationalRecommendationwithPretrainedLanguageModelsRLPROMPT:OptimizingDiscreteTextPromptswithReinforcementLearningCodeRL:MasteringCodeGeneratio
2023-07-29Improved deep reinforcement learning for robotics through distribution-based experience retention
发表时间：2016（IROS2016）文章要点：这篇文章提出了experiencereplay方法的改进，让experience的分布介于当前policy和均匀分布之间，作者做实验发现这个时候的效果是最好的（theidealdistributionislikelytobesomewherebetweenthedistributionthatresultsfromsimplyfollow
2023-07-27The importance of experience replay database composition in deep reinforcement learning
发表时间：2015（DeepReinforcementLearningWorkshop,NIPS2015）文章要点：这篇文章基于DDPG探索了buffer里面experience的组成对性能的影响。一个重要的观点是，次优的经验也是有利于训练的，少了这些experience会很大程度影响性能（theimportanceofnegativeexperiencesthatareno
2023-07-22概述增强式学习（Reinforcement Learning）
概述增强式学习（ReinforcementLearning）SupervisedLearning（自监督学习）：告诉机器输入和输出，用有标注的训练资料训练出的NetworkReinforcementLearning（增强式学习）：给机器一个输入，我们不知道最佳输出是什么（适用于标注困难或者人也不知道答案是什么）（机器需要知道什么是好，什么是
2023-07-17粗读Multi-Task Recommendations with Reinforcement Learning
论文：Multi-TaskRecommendationswithReinforcementLearning地址：https://arxiv.org/abs/2302.03328摘要Inrecentyears,Multi-taskLearning(MTL)hasyieldedimmensesuccessinRecommenderSystem(RS)applications[41].However,currentMTL-basedrecommendati
2023-07-07Effective Diversity in Population-Based Reinforcement Learning
发表时间：2020(NeurIPS2020)文章要点：这篇文章提出了DiversityviaDeterminants(DvD)算法来提升种群里的多样性。之前的方法通常都考虑的两两之间的距离，然后设计一些指标或者加权来增加种群多样性，这种方式容易出现cycling，也就是类似石头剪刀布的循环克制的关系，造成训练不上去，
2023-07-04Noisy Networks for Exploration
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！PublishedasaconferencepaperatICLR2018ABSTRACT 1INTRODUCTION 2BACKGROUND 2.1MARKOVDECISIONPROCESSESANDREINFORCEMENTLEARNING 2.2DEEPREINFORCEMENTLEARNING
2023-06-30Spectrum Random Masking for Generalization in Image-based Reinforcement Learning
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！