首页 > 其他分享 >开坑---强化学习

开坑---强化学习

时间:2024-02-24 21:44:06浏览次数:20  
标签:学习 模型 --- 开坑 答案 强化

1.为什么要学习强化学习?

训练大模型时,不能仅仅使用有监督微调,这是因为NLP中语言的多样性,很多答案的含义时一样的。并且有监督微调需要大量的高质量问答对,这需要耗费大量的人力与时间成本。那么强化学习的优化目标不再是让模型输出结果与标准答案相同,而是要使模型生成高质量回复。这样,模型在生成答案后,奖励模型可以对答案给出质量判断,质量排序。

 

1.为什么要学习强化学习?

 

标签:学习,模型,---,开坑,答案,强化
From: https://www.cnblogs.com/liuguangshou123/p/18031650

相关文章

  • follow-redirects 可以直接替换node http & https 的npm 模块
    follow-redirects可以直接替换nodehttp&https的npm模块包含的特性支持重定向功能支持重定向参数配置,比如最大重定向,以及最大请求大小,支持beforeredirect请求处理(比如认证处理)支持agents说明对于业务系统的请求会包含重定向场景的,follow-redirects是一个很不错的选......
  • 3-2. 野猪-撞墙判定和等候计时
    检测左边和右边是否有地面老师的代码写的是有问题的,见我扩展的代码usingSystem.Collections;usingSystem.Collections.Generic;usingUnity.VisualScripting;usingUnityEngine;publicclassPhysicsCheck:MonoBehaviour{privateCapsuleCollider2Dcoll;[......
  • DVWA-XSS(Stored)存储型跨站脚本攻击
    DVWA-XSS(Stored)存储型XSS是一种持久型XSS,与DOM型和Reflected型区别在于将恶意脚本注入到网站的某个存储区域,如数据库或其他文件类型中。每当访问网站时,服务器在生成页面时,将含有恶意脚本当做有效内容插入到页面中,并响应给用户。浏览器就会执行页面中的恶意脚本,从而对访问者造成攻......
  • JavaScript语法-字符串模板
    [TOC]##JavaScript模板字符串###代码以下是index.js的部分代码:```onShareAppMessage({const{toName,mainText,fromName}=this.data;debugger;return{title:'叮,您收到一张贺卡~',path:'pages/index/index?toname=${toName}&mai......
  • 24/02/24 CF280D k-Maximum Subsequence Sum
    这题是我在Luogu上的第\(400\)AC!比惊喜更棒的是三倍惊喜!!!登录\(365\)天祭\(400\)AC祭以及元宵祭!这个其实不是很难的黑题,大家可以去写一下啊。那接下来我们先下午休息一下,然后之后再来讲这个挺好的,大家可以把它写一下,锻炼一下。嗯,写了黑题很有成就感,对吧?——lxl24......
  • linux--初学者的常用命令合集(频率比较高的)
     sudosuroot    打开root权限passwdroot     修改root密码ctrlshift+      字符变大ctrl-          字符变小cd.           返回本目录cd..           返回上一级目......
  • vulnhub-wp DC:9
    ......
  • 2024-02-24:用go语言,给你一个 n 个点的带权无向连通图,节点编号为 0 到 n-1, 同时还有一
    2024-02-24:用go语言,给你一个n个点的带权无向连通图,节点编号为0到n-1,同时还有一个数组edges,其中edges[i]=[fromi,toi,weighti],表示在fromi和toi节点之间有一条带权无向边,最小生成树(MST)是给定图中边的一个子集,它连接了所有节点且没有环,而且这些边的权值和最......
  • 3-1. 野猪 - 基本的移动逻辑和动画
    野猪实现移动添加一个Enemy类usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;publicclassEnemy:MonoBehaviour{protectedRigidbody2Drb;protectedAnimatoranim;[Header("基本参数")]publicfloatnormalSpe......
  • composer 安装依赖包出错,使用-W 参数升级包
    使用composer安装依赖失败composerrequirefriendsofhyperf/pest-plugin-hyperf--dev提示信息:Usetheoption--with-all-dependencies(-W)toallowupgrades,downgradesandremovalsforpackagescurrentlylockedtospecificversions.Youcanalsotryre-runni......