强化学习性能指标之一：以训练的episodes数和训练所需样本数作为评价算法性能的指标

时间：2024-10-14 15:14:37浏览次数：6

在强化学习领域，一般都是限定训练的episodes数和训练所需样本数的，也就是说在进行算法性能对比的时候各个算法都是在相同的训练的episodes数和训练所需样本数的，但是如果我们在算法得分数保持相同的情况下是不是可以将各个算法所用的不同的训练的episodes数和训练所需样本数作为性能指标之一呢？

最近看的强化学习的资料中有这类的性能对比，也就是说各个算法的算法得分，即平均episode的score得分相同的情况下，比较各个算法所用的训练的episodes数或训练所需样本数；这种性能指标的使用比较少见，不过和固定训练的episodes数和训练所需样本数然后对比各个算法的score得分的原理是一致的。不过这里建议作为测评的平均episode的score得分最好不要使用训练过程中的训练时的得分，而是在训练过程中设置一定的时间间隔，然后再在到达时间间隔后重新生成一个环境，然后单独的使用这个重新生成的环境进行测试，从而获得更准确的结果，当然在测试的时候最后使用多个episodes的结果取平均则更为恰当。

标签：得分,训练,样本数,算法,episodes,性能指标
From： https://www.cnblogs.com/xyz/p/18464243

【题解】CEIT 2024 第三周算法训练讲义题解
A.Orange的作文排版关于处理若干行输入，我们可以用while结合getline函数来完成，每次读取一行，就让行数+1，然后每次利用string的size方法得到当前行的列数，更新最长的列，最后得到答案。#include<bits/stdc++.h>usingnamespacestd;intmain(){strings;inta=0;i......
小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试
前言哈喽哈喽，这里是zyll~,北浊.（大家可以亲切的呼唤我叫小北）智慧龙阁的创始人，一个在大数据和全站领域不断深耕的技术创作者。今天，我想和大家分享一些关于华为昇腾CANN训练营以及AI技术创新的最新资讯和实践经验~（初级证书还没拿到的小伙伴，可以先参考小北的这篇技术博......
代码随想录算法训练营 | 198.打家劫舍，213.打家劫舍II，337.打家劫舍III
198.打家劫舍题目链接：198.打家劫舍文档讲解︰代码随想录(programmercarl.com)视频讲解︰打家劫舍日期：2024-10-13想法：dp[i]到第i个房子时能偷的最多的钱；递推公式：是上上一栋房子的dp[i-2]加上这栋房子的钱nums[i]大还是上一家邻居偷的钱dp[i-1]的大；初始化因为有i-2；所以初始化......
论文阅读4——RegionCLIP:基于区域的语言图像预训练
论文原文地址：CVPR2022OpenAccessRepository开源代码：https://github.com/microsoft/RegionCLIP论文翻译摘要：使用图像-文本对的对比语言-图像预训练(CLIP)在zero-shot和迁移学习设置下的图像分类上都取得了令人印象深刻的结果。然而，我们表明，由于主要的领域转移，直接应用这......
UCI-HAR数据集深度剖析：训练仿真与可视化解读
在本篇文章中，我们将深入探讨如何使用Python对UCI人类活动识别（HAR）数据集进行分割和预处理，以及运用模型网络CNN对数据集进行训练仿真和可视化解读。一、UCI-HAR数据集分析及介绍UCI-HAR数据集是一个公开的数据集，旨在通过智能手机传感器数据进行人类活动识别。这个数据集由30......
机器学习中的模型设计与训练流程详解
目录前言1.模型设计1.1数据特性分析1.2计算资源限制1.3应用场景需求2.模型训练2.1训练集与验证集的划分2.2损失函数的选择2.3模型参数更新3.优化方法3.1梯度下降法3.2正则化方法4.模型测试4.1性能评估指标4.2模型的泛化能力5.模型选择5.1数据规模与......
代码随想录算法训练营 | 322. 零钱兑换，279.完全平方数，139.单词拆分
322.零钱兑换题目链接：322.零钱兑换文档讲解︰代码随想录(programmercarl.com)视频讲解︰零钱兑换日期：2024-10-12想法：完全背包，注意初始化除dp[0]外都要置为Integer.MAX_VALUE，才能后面选出最小值，还有判断dp[j-coins[i]]!=Integer.MAX_VALUE，不成立的化代表除去coins[i]后，没有......
代码随想录算法训练营第十天|Day10栈与队列
232.用栈实现队列题目链接/文章讲解/视频讲解：https://programmercarl.com/0232.%E7%94%A8%E6%A0%88%E5%AE%9E%E7%8E%B0%E9%98%9F%E5%88%97.html思路这是一道模拟题，不涉及到具体算法，使用栈来模拟队列的行为，如果仅仅用一个栈，是一定不行的，所以需要两个栈一个输入栈，一个输出......
代码随想录算法训练营第十二天|Day12二叉树
递归遍历题目链接/文章讲解/视频讲解：https://programmercarl.com/%E4%BA%8C%E5%8F%89%E6%A0%91%E7%9A%84%E9%80%92%E5%BD%92%E9%81%8D%E5%8E%86.html思路每次写递归，按照三要素来写，可以写出正确的递归算法！确定递归函数的参数和返回值：确定哪些参数是递归的过程中需要......
代码随想录算法训练营第十一天|Day11栈与队列
150.逆波兰表达式求值题目链接/文章讲解/视频讲解：https://programmercarl.com/0150.%E9%80%86%E6%B3%A2%E5%85%B0%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%B1%82%E5%80%BC.html思路#defineMAX_TOKENS1000#defineMAX_TOKEN_LEN10typedefstruct{longlongdat......

强化学习性能指标之一：以训练的episodes数和训练所需样本数作为评价算法性能的指标

相关文章

赞助商

阅读排行