值函数近似

值函数近似

时间：2023-12-27 16:44:58浏览次数：38

值函数近似，这是一个很有意思的东西，为后面DQN做铺垫吧，就是说，你想要训练模型，你手上确实有数据，0，1，2，3，4，5。。。。。诸如此类但是，它们就只是一个个的点，它们是离散的，不是连续的，比如说有一个和重要的状态，它是最优的一个点，但它夹在了1和2的中间，然后你也拿不到这个数据，因为你能拿到的就是离散的点，你只能一步步走，不能半步走，那么想要解决离散的方法是什么，就是让它连续啊，怎么连续啊，那就就使用函数啊

然后我现在想要使用一个函数来得到一些东西，比如说我输入S,它可以输出给我在S这个分布下所有的action value，对，通过这个函数算出来，然后比如说，打个比方函数是aX(平方)+bX+C，比如它是一个二次函数那么决定这个函数性质的是什么，是它的"a,b,c"三个值，也可以把a,b,c理解为一个向量（记住哈向量），但是它有三个不同的维度，比如说，我看上了一个女孩子，我看上了她的美貌，才华，性格，这三个不同的维度，她是我的理想型，所以想要追我的女孩子肯定要朝着这三个方向努力，所以说，我要自己训练出一个模型，让它不断地朝那三个维度去努力，去成为那个“女神”

（如图所示，S是状态量，就是输入，但我们目前最重要的是得到w向量）

那要怎么努力呢，此时就用到一个梯度下降的方法

函数J(w)是一个关于w的函数，它的意义是目标状态值函数和当前状态值函数的一个方差，那我想要成为女神，是不是得不断去逼近那个“目标”值函数，所以，我是不是希望方差函数越小越好呢，所以怎么办呢，我是不是要不断逼近方差函数的谷底捏（为什么要说谷底而不是最小值呢，因为AI状态是多维度的，可以把函数想象成一座山而不是简简单单的二维平面图形），所以我要对方差函数求梯度，梯度的指向就是上升最快的点，当然，想要下降最快，可以沿着梯度的反方向走去，然后更新所求w,w是啥？是一个多维向量[a,b,c],对去更新它，w被更新了之后，只要步长是合适的，就可以不断去逼近谷底的w，一旦到了谷底，那么方差就基本上收敛，那么我和女神的距离就哈哈哈哈哈~，当然这里面还有个时序差分的概念，因为有步长，以及目标值和现实值的差分

标签：函数,方差,梯度,近似,谷底,想要,向量
From： https://www.cnblogs.com/cjtaaa/p/17930845.html

PGSQL_函数
逗号分隔字符串，转换成一列--源数据：'c6d4eed5,7e51b2d9,768db3f1,7cc464bb'--函数：regexp_split_to_tableSELECTregexp_split_to_table('c6d4eed5,7e51b2d9,768db3f1,7cc464bb',',')逗号分隔字符串，转换成数组--源数据：'c6d4eed5,7e51b2d9,768db3f1,7cc464bb......
怎么用 python 项目函数实现字符串反转
字符串反转是一个常见的操作，可以通过Python函数轻松实现。在本文中，我们将探讨如何使用Python函数来反转字符串，无论是针对单个字符串还是列表中的多个字符串。1.反转单个字符串要反转单个字符串，我们可以使用Python的切片功能或者内置的reversed()函数。使用切片功能defrevers......
break 或 continue 循环函数，使用some同forEarch一样，但是直到找到就不继续往下循环，节省
停止循环是循环中一个常见的需求。使用for循环我们可以用break提前结束循环。consta=[0,1,2,3,4];for(vari=0;i<a.length;i++){if(a[i]===2){break;//stoptheloop}console.log(a[i]);}//>0,1另一个常见的需求使我们需要直接取......
模拟实现strstr函数的代码——《初学C语言第40天》
//////模拟实现strstr////（字符中的元素是连续存放的，所以不会存在跳动存放的情况，例如a1="ababcd"，a2="ac"此结果就是NULL）////情况1.arr1="abcd"arr2="abc"（一次匹配就找到了）////情况2.arr1="ababcd"arr2="abc"（多次匹配才能找到）//#include<stdio.h>//#in......
使用pack函数输出数组中满足条件元素的索引
programmain_test implicitnone real,dimension(5)::arr1,arr2 LOGICAL,dimension(5)::ad,ab,ac,tot INTEGER,dimension(:),allocatable::arr3 INTEGER::i arr1=[1.0,2.3,-0.5,3.3,-1.6] arr2=[1.0,-5......
不用库函数，自己设计函数求字符串长度
#define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>intmy_strlen(char*str)//传的是地址，就必须用相应的指针类型接收{ char*dest=str; char*end=str; while(*end!='\0') { end++; } returnend-dest;//返回一个整型，my_strlen为整型形式的函数}int......
Python代码中的偏函数
本文介绍了在Python中使用偏函数partial的方法，并且介绍了两个使用partial函数的案例，分别是concurrent并行场景和基于jax的自动微分场景。在这些相关的场景下，我们用partial函数更多时候可以使得代码的可读性更好，在性能上其实并没有什么提升。如果不想使用partial函数，类似的......
函数指针 int (*add)( )
原文首先它是一个指针，一个指向函数的指针，在内存空间中存放的是函数的地址；intAdd(intx，inty){returnx+y;}intmain(){printf("%p\n",&Add);//打印一下函数Add()的地址printf("%p\n",Add);//数组名等于数组首元素地址，那函数名是等于函数地址吗？->等于！......
[转]TypeScript编写类继承函数相关的代码
TypeScript编写类，继承、函数相关的代码classPerson{privatename:stringprivateage:Numberconstructor(name:string,age:Number){this.name=name;this.age=age}publicgetPersonInfo():string{return`Myname......
Win10远程桌面连接报错：出现身份验证错误，要求的函数不受支持（CredSSP）
问题：解决方法：1、Win+R，打开运行窗口，输入regedit，打开注册表2、找到路径：计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Policies\System3、在System文件夹内创建文件夹项：\CredSSP\Parameters4、在Parameters文件夹内，新建DWORD(32)值(D)，文件名为Al......

相关文章

赞助商

阅读排行