首页 > 其他分享 >dpo笔记

dpo笔记

时间:2023-12-25 17:37:54浏览次数:36  
标签:prompt 函数 笔记 y1 dpo y2

参考:
https://blog.csdn.net/chacha_/article/details/134527000
这个讲的很好.

image

image
\(\pi_r\)是我们要的解,我们(4)两边取log得到.
image

y1,y2是两个生成的句子,x是prompt.p是y1比y2好的优化函数.r是reward函数.
image

机器学习里面一个变量右上角写\(*\),就表示他的估计.也就是真实的计算.不写\(*\) 表示理论值.

带入上面公式. \(\sigma\)是 1+exp(x)再一起取倒数.
image

标签:prompt,函数,笔记,y1,dpo,y2
From: https://www.cnblogs.com/zhangbo2008/p/17926330.html

相关文章

  • 机器学习笔记(三)简单手写识别
    目标实现一个简单的手写识别的脚本,同样的,流程分五步走:读入数据初始化模型训练模型训练样本集乱序校验数据有效性前期准备前期需要将库导入,还需要进行一些初始化操作数据处理部分之前的代码,加入部分数据处理的库点击查看代码#加载飞桨和相关类库importpaddlefrom......
  • HttpClient5升级笔记--API篇
    最近终于是安奈不住升级的冲动,将自己项目的HttpClient版本从4升级到了5,其过程不可谓不艰辛,很多API改动让人无从下手。ApacheHttpClient5(也称为HttpClient5.x)是ApacheHttpComponents项目中的一个重要组件,用于发送HTTP请求和处理HTTP响应。它在与网络通信和处理方面提供......
  • 期末云计算笔记
    1.什么是云计算?云计算是是一种基于互联网的计算模式,通过网络云将巨大的数据计算处理程序分解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。狭义的云计算是指IT基础设施的交付和使用模式,指在网络中以按需、按量、按时、易扩展的方......
  • thinkPhp的学习笔记(二)
    7.thinkphp自动验证-->$_validatearray(验证字段,验证规则,错误提示,[验证条件,附加规则,验证时间])1.验证字段需要验证的表单字段名称,这个字段不一定是数据库字段,也可以是表单的一些辅助字段,例如确认密码和验证码等等。有个别验证规则和字段无关的情况下,验证字段是可以随意设置的,例如ex......
  • 笔记1 1
    很多人习惯用markdown写博客,然后同步到博客园,每次同步都比较麻烦。今天分享一个插件,来简化该步骤。原文章参考上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)......
  • 笔记1
    很多人习惯用markdown写博客,然后同步到博客园,每次同步都比较麻烦。今天分享一个插件,来简化该步骤。原文章参考上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)......
  • 笔记1
    很多人习惯用markdown写博客,然后同步到博客园,每次同步都比较麻烦。今天分享一个插件,来简化该步骤。原文章参考上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)上传markdown文件到博客园-郭大侠1-博客园(cnblogs.com)环境配置安装python3windows:https:/......
  • 《Go语言高级编程》学习笔记之第一章
    以下主要是记录自己看曹大的《Go语言高级编程》一书,记录下自己的学习记录以及自己的理解,仅做记录使用。原文链接1、语言基础1.3数组、字符串和切片1.3.1数组varc=[...]int{2:3,1:2}//定义长度为3的int型数组,元素为0,2,3vard=[...]int{1,2,4:......
  • Programming Abstractions in C阅读笔记:p235-p241
    《ProgrammingAbstractionsinC》学习第66天,p235-p241总结。一、技术总结1.backtrackingalgorithm(回溯算法)(1)定义p236,Formanyreal-worldproblem,thesolutionprocessconsitsofworkingyourwaythroughasequenceofdecisionpointsinwhicheachchoicleadsyo......
  • Netty源码学习9——从Timer到ScheduledThreadPoolExecutor到HashedWheelTimer
    系列文章目录和关于我一丶前言之前在学习netty源码的时候,经常看nettyhash时间轮(HashedWheelTimer)的出现,时间轮作为一种定时调度机制,在jdk中还存在Timer和ScheduledThreadPoolExecutor。那么为什么netty要重复造轮子昵,HashedWheelTimer又是如何实现的,解决了什么问题?这一篇将从T......