值迭代与策略迭代（有模型）

时间：2023-12-16 12:11:08浏览次数：38

先说一下我初始理解，就是图片上面有三部曲，然后他是一个有模型的算法，然后假如说我让他训练100次就是，用python来表达就是 for episode in (100),这个就是最外面的那一层循环，然后每次episode，就是上面三部曲，但是第一步初始化环境是会根据上一个episode来变化的，从第一个episode开始讲，就是比如你vs全部都给你设成0，然后你王子每走一步，就会得到一个-1的reward，然后你得找到一个V'最大的点走过去，那个点的V‘其实是0，所以你目前的本状态的vs就得到了就是-1，然后你就写下孙悟空到此一游，把-1标上去，就类似于到此一游吧，然后你给本状态的v写好了之后，再跑去下一个状态，按照上面的方法一直走下去，可以理解成，你 for episode in (100)里面套着一个while循环，最终到达终点，然后此时此刻，你这个while循环走完之后捏，然后你会进入下一个episode，你会得到一张写满了“到此一游”（就是各个格子V值）的一张地图（来自上一个episode的while循环），让模型把它吃下去，重新初始化一个环境，与之前的全部都是零相对，这就是学习，如下图

标签：episode,策略,迭代,到此一游,模型,然后,while,100
From： https://www.cnblogs.com/cjtaaa/p/17904674.html

基于LSTM模型的时间序列预测（车厢重量预测），Python中Keras库实现LSTM，实现预测未来未知数
简介LSTM是一种常用的循环神经网络，其全称为“长短期记忆网络”（LongShort-TermMemoryNetwork）。相较于传统的循环神经网络，LSTM具有更好的长期记忆能力和更强的时间序列建模能力，因此在各种自然语言处理、语音识别、时间序列预测等任务中广泛应用。问题场景：对一节火车进行装载货物，......
聊聊GLM基座模型的理论知识
概述大模型有两个流程：预训练和推理。预训练是在某种神经网络模型架构上，导入大规模语料数据，通过一系列的神经网络隐藏层的矩阵计算、微分计算等，输出权重，学习率，模型参数等超参数信息。推理是在预训练的成果上，应用超参数文件，基于预训练结果，根据用户的输入信息，推理预测其行为。G......
机器学习的方法主要可以分为以下几类¹²³： 1. **监督学习**：在监督学习中，我们有一个
机器学习的方法主要可以分为以下几类¹²³：1.**监督学习**：在监督学习中，我们有一个标记的数据集，我们的目标是训练一个模型，使其能够预测新数据的标签。常见的监督学习算法包括： -线性回归 -逻辑回归 -支持向量机(SVM) -最近邻居(KNN) -决策树......
c++: 迭代器失效
一、序列式容器序列式容器（如vector,deque）的迭代器删除正确的做法如下：1//在这里想把等于2的元素都删除2for(autoit=q.begin();it!=q.end();)3{4if(*it==2)5{6it=q.erase(it);//这里会返回指向下一个元素的迭代器，因此不需要再自加了7......
【python基础之迭代器】 --- 迭代器
title:【python基础之迭代器】---迭代器date:2023-12-1318:54:06updated:2023-12-1519:10:00description:【python基础之迭代器】---迭代器cover:https://home.cnblogs.com/u/dream-ze/【一】迭代器介绍迭代器，即用来迭代取值的工具，而迭代是重复反......
Python多线程编程：竞争问题的解析与应对策略
本文将深入探讨Python多线程编程中可能出现的竞争问题、问题根源以及解决策略，旨在帮助读者更好地理解、应对并发编程中的挑战。多线程竞争问题的复杂性源自于对共享资源的并发访问和操作。在不同线程间的交叉执行中，共享资源可能因无序访问而导致数据不一致、死锁或饥饿等问题。解决......
迭代器模式
迭代器提供了一种统一的方式来访问集合对象中的元素，而不是暴露集合内部的表示方式。简单地说，就是将遍历集合的责任封装到一个单独的对象中，我们可以按照特定的方式访问集合中的元素。迭代器模式有两个角色，一个是迭代器，一个是聚合器，Java或则c#中的Collection，List，Set，Map就是聚合器。......
python二分类模型精度低怎么办
在二分类模型中，如果模型的精度较低，可能需要采取一些措施来改进模型性能。本文将介绍一些常见的方法和技巧，帮助提高二分类模型的精度。1.数据预处理确保对数据进行适当的预处理是提高模型精度的重要步骤。常见的数据预处理方法包括：-数据清洗：处理缺失值、异常值等。-特征选择：选择对目......
策略模式
策略模式有两个主要角色，一个是主类，一个是策略类，通过主类的构造函数将策略类注入到主类，从而实现调用不同的策略。典型的例子就是收银策略，正常收费，八折、五折，满200减50等等。示例代码packagedesignMode.strategy;publicclassCashContext{privateCashSupercashSuper;......
机器学习的里程碑：从基础理论到大语言模型的进步
在人工智能的迅猛发展中，大语言模型和传统机器学习是不同发展阶段下的产物。大语言模型，如广为人知的GPT系列和BERT，主要依赖于复杂的神经网络结构，它们能够处理和生成人类语言，为自然语言处理带来了革命性的变化。这些模型的发展标志着从简单的任务特定模型向更通用、更灵活的解决......

值迭代与策略迭代（有模型）

相关文章

赞助商

阅读排行