强化学习的目标
强化学习是一种学习如何将状态映射到动作,以获得最大奖励的学习机制。学习者不会被告知要采取哪些动作,而是必须通过尝试来发现哪些动作会产生最大的回报。
强化学习与监督学习的区别
监督学习的样本都具有标记或者标签,明确知道什么是正确的动作。
强化学习的样本的都是交互的记录,不知道正确的动作是什么,但是会有每个动作的 反应
,要根据 反应
来推断什么动作是正确的。
强化学习与无监督学习的区别
无监督学习主要是寻找数据间的隐藏结构。
强化学习虽然同样没有正确行为的标记,但是它并不关心样本数据不同维度之间的关系,只关心交互的奖励。
强化学习区别于其他学习方式的其他特征
探索(Exploration)与利用(Exploitation)的权衡是强化学习区别监督与非监督的特征,也是关键挑战。
强化学习的另一个特征是,它考虑了个体的目标在不确定环境中交互的整个问题。(这一点还没有很明显的 get 到。)强化学习个体都有明确的目标,可以感知环境的各个方面,并可以选择影响其环境的动作。此外,尽管个体面临的环境有很大的不确定性,通常从一开始就假设个体必须采取动作。当强化学习涉及规划时,它必须解决规划和实时动作选择之间的相互作用,以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时,它要确定决定哪些能力是关键的,哪些是不重要。 为了学习研究以取得进步,必须隔离和研究重要的子问题,即使不能体现所有完整的细节,它们也应该是在完整的、交互式的、寻求目标的个体中有明确功能的子问题。
强化学习的要素
智能体
做行为决策的机器。
可以感知环境的状态,做出决策,并且根据环境的变化能理解“奖励”。
环境
智能体以外的变化的且影响智能体的事情。
策略
定义的是智能体如何在特定状态下的行为方式,就是从环境状态到智能体行为动作的映射。
奖励
定义的是强化学习的目标。每个时间步骤(每次交互),环境给智能体一个标量值,就是奖励。智能体强化学习的目标就是使累积的奖励最大化。
奖励通常是环境状态和动作的随机函数。
价值函数
奖励信号表明了直接或者说即时的利益,而价值函数描述的是长期的收益。
状态的价值是该状态开始在未来可以预期累积的收益总额。一个状态可能短期产生较低的收益,但是可能在未来存在很高的收益,那它的价值也会很高。(比如内啡肽)。
奖励很好估计,可以由环境直接给出;但是价值需要智能体在整个生命周期内观察和评估。事实上,大多数的强化学习算法的核心部分就是有效地估计价值。
环境模型
环境的模拟,在给定的状态和动作,预测环境未来的状态。一般在基于模型的方法(比如,动态规划)里面会有,智能体可以根据模型来规划自己的行为。在不基于模型的方法里面就没有环境模型,智能体通过试错来学习。
现代强化学习已经从低级的、试错学习跨越到高层次的、有计划的学习。