首页 > 其他分享 >值函数近似

值函数近似

时间:2023-12-27 16:44:58浏览次数:38  
标签:函数 方差 梯度 近似 谷底 想要 向量

值函数近似,这是一个很有意思的东西,为后面DQN做铺垫吧,就是说,你想要训练模型,你手上确实有数据,0,1,2,3,4,5。。。。。诸如此类但是,它们就只是一个个的点,它们是离散的,不是连续的,比如说有一个和重要的状态,它是最优的一个点,但它夹在了1和2的中间,然后你也拿不到这个数据,因为你能拿到的就是离散的点,你只能一步步走,不能半步走,那么想要解决离散的方法是什么,就是让它连续啊,怎么连续啊,那就就使用函数啊

 

然后我现在想要使用一个函数来得到一些东西,比如说我输入S,它可以输出给我在S这个分布下所有的action value,对,通过这个函数算出来,然后比如说,打个比方函数是aX(平方)+bX+C,比如它是一个二次函数那么决定这个函数性质的是什么,是它的"a,b,c"三个值,也可以把a,b,c理解为一个向量(记住哈向量),但是它有三个不同的维度,比如说,我看上了一个女孩子,我看上了她的美貌,才华,性格,这三个不同的维度,她是我的理想型,所以想要追我的女孩子肯定要朝着这三个方向努力,所以说,我要自己训练出一个模型,让它不断地朝那三个维度去努力,去成为那个“女神”

 

 (如图所示,S是状态量,就是输入,但我们目前最重要的是得到w向量)

那要怎么努力呢,此时就用到一个梯度下降的方法

 

 函数J(w)是一个关于w的函数,它的意义是目标状态值函数和当前状态值函数的一个方差,那我想要成为女神,是不是得不断去逼近那个“目标”值函数,所以,我是不是希望方差函数越小越好呢,所以怎么办呢,我是不是要不断逼近方差函数的谷底捏(为什么要说谷底而不是最小值呢,因为AI状态是多维度的,可以把函数想象成一座山而不是简简单单的二维平面图形),所以我要对方差函数求梯度,梯度的指向就是上升最快的点,当然,想要下降最快,可以沿着梯度的反方向走去,然后更新所求w,w是啥?是一个多维向量[a,b,c],对去更新它,w被更新了之后,只要步长是合适的,就可以不断去逼近谷底的w,一旦到了谷底,那么方差就基本上收敛,那么我和女神的距离就哈哈哈哈哈~,当然这里面还有个时序差分的概念,因为有步长,以及目标值和现实值的差分

标签:函数,方差,梯度,近似,谷底,想要,向量
From: https://www.cnblogs.com/cjtaaa/p/17930845.html

相关文章

  • PGSQL_函数
    逗号分隔字符串,转换成一列--源数据:'c6d4eed5,7e51b2d9,768db3f1,7cc464bb'--函数:regexp_split_to_tableSELECTregexp_split_to_table('c6d4eed5,7e51b2d9,768db3f1,7cc464bb',',')逗号分隔字符串,转换成数组--源数据:'c6d4eed5,7e51b2d9,768db3f1,7cc464bb......
  • 怎么用 python 项目函数实现字符串反转
    字符串反转是一个常见的操作,可以通过Python函数轻松实现。在本文中,我们将探讨如何使用Python函数来反转字符串,无论是针对单个字符串还是列表中的多个字符串。1.反转单个字符串要反转单个字符串,我们可以使用Python的切片功能或者内置的reversed()函数。使用切片功能defrevers......
  • break 或 continue 循环函数,使用some同forEarch一样,但是直到找到就不继续往下循环,节省
    停止循环是循环中一个常见的需求。使用for循环我们可以用break提前结束循环。consta=[0,1,2,3,4];for(vari=0;i<a.length;i++){if(a[i]===2){break;//stoptheloop}console.log(a[i]);}//>0,1另一个常见的需求使我们需要直接取......
  • 模拟实现strstr函数的代码——《初学C语言第40天》
    //////模拟实现strstr////(字符中的元素是连续存放的,所以不会存在跳动存放的情况,例如a1="ababcd",a2="ac"此结果就是NULL)////情况1.arr1="abcd"arr2="abc"(一次匹配就找到了)////情况2.arr1="ababcd"arr2="abc"(多次匹配才能找到)//#include<stdio.h>//#in......
  • 使用pack函数输出数组中满足条件元素的索引
    programmain_test  implicitnone    real,dimension(5)::arr1,arr2  LOGICAL,dimension(5)::ad,ab,ac,tot  INTEGER,dimension(:),allocatable::arr3  INTEGER::i  arr1=[1.0,2.3,-0.5,3.3,-1.6]  arr2=[1.0,-5......
  • 不用库函数,自己设计函数求字符串长度
    #define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>intmy_strlen(char*str)//传的是地址,就必须用相应的指针类型接收{ char*dest=str; char*end=str; while(*end!='\0') { end++; } returnend-dest;//返回一个整型,my_strlen为整型形式的函数}int......
  • Python代码中的偏函数
    本文介绍了在Python中使用偏函数partial的方法,并且介绍了两个使用partial函数的案例,分别是concurrent并行场景和基于jax的自动微分场景。在这些相关的场景下,我们用partial函数更多时候可以使得代码的可读性更好,在性能上其实并没有什么提升。如果不想使用partial函数,类似的......
  • 函数指针 int (*add)( )
    原文首先它是一个指针,一个指向函数的指针,在内存空间中存放的是函数的地址;intAdd(intx,inty){returnx+y;}intmain(){printf("%p\n",&Add);//打印一下函数Add()的地址printf("%p\n",Add);//数组名等于数组首元素地址,那函数名是等于函数地址吗?->等于!......
  • [转]TypeScript编写类继承函数相关的代码
    TypeScript编写类,继承、函数相关的代码classPerson{privatename:stringprivateage:Numberconstructor(name:string,age:Number){this.name=name;this.age=age}publicgetPersonInfo():string{return`Myname......
  • Win10远程桌面连接报错:出现身份验证错误,要求的函数不受支持(CredSSP)
    问题: 解决方法:1、Win+R,打开运行窗口,输入regedit,打开注册表2、找到路径:计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Policies\System3、在System文件夹内创建文件夹项:\CredSSP\Parameters4、在Parameters文件夹内,新建DWORD(32)值(D),文件名为Al......