preference

2024-12-19你的语言模型实际是一个奖励模型！Direct Preference Optimization:Your Language Modelis Secretly a Reward Model
直接偏好优化：你的语言模型实际上是一个奖励模型
2024-11-30offline RL · PbRL | LiRE：构造 A>B>C 的 RLT 列表，得到更多 preference 数据
论文标题：ListwiseRewardEstimationforOfflinePreference-basedReinforcementLearning，ICML2024。arxiv：https://arxiv.org/abs/2408.04190pdf：https://arxiv.org/pdf/2408.04190html：https://ar5iv.org/html/2408.04190GitHub：https://github.com/chwoong/LiRE（感觉关于
2024-12-11u盘做成ubuntu系统盘后无法格式化
原因：因为有写保护。所以要做以下操作。打开cmd窗口，输入diskpart，打开diskpart窗口输入listdisk，显示所有磁盘选中要格式化的u盘：selectdiskx 输入clean，清除磁盘输入creatpartitionprimary，创建分区输入active，将当前分区改为活动输入formatfs=fat32 quick，格式化u盘如下
2024-09-13【Preference Learning】Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
问题背景在推理过程中使用TOT方式可以增加推理性能，但由于增加了推理次数，导致耗时过大。目前待解决的问题是如何能在推理时既保持很好的推理能力，又保持推理耗时不会过大。本文方法文章提出CPO（ChainofPreferenceOptimization）方式。该方法使用TOT方式来探索推理路径得到
2024-08-28深入理解DPO（Direct Preference Optimization）算法
目录1.什么是DPO？2.Bradley-Terry模型2.1奖励模型的训练3.从PPO到DPO4.DPO的简单实现5.梯度分析Ref1.什么是DPO？直接偏好优化（DirectPreferenceOptimization,DPO）是一种不需要强化学习的对齐算法。由于去除了复杂的强化学习算法，DPO可以通过与有监督微调（SFT）相
2024-08-282024鸿蒙开发【面试题库】，转岗看这一篇就够了【收藏篇】
鸿蒙面试浪潮来袭，你是否也想着利用这次机会去实现，跳槽涨薪的梦呢？如果关注了华为鸿蒙的人应该知道：鸿蒙开发岗位需求飙升6倍！可想而知该岗位前景多么广阔，为此就为大家整理些（鸿蒙HarmonyOS）开发岗位面试题。面试题目页面和组件的生命周期，及其流程@Entry装饰的页面和Naviga
2024-08-01BGP 属性local_preference 本地优先
BGP本地优先属性公认非必遵属性；当一条BGP路由器中存在多条去往同一目标网络的BGP路由时，BGP协议会对这些BGP路由属性进行比较，从而筛选出最佳到达目标网络的通达路径；本地优先属性，只在IBGP对等体之间进行交换，即：同一AS内进行，不会通告给AS域外；
2024-07-25RIME：用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
文章题目：RIME:RobustPreference-basedReinforcementLearningwithNoisyPreferences，ICML2024Spotlight，368（？）pdf：https://arxiv.org/pdf/2402.17257html：https://arxiv.org/html/2402.17257v3或https://ar5iv.labs.arxiv.org/html/2402.17257v3GitHub：https://g
2024-07-25Android 10.0 Settings 加载流程
一、系统设置首页代码路径：packages/app/Settings/1主界面加载：<activity-aliasandroid:name="Settings"android:label="@string/settings_label_lau
2024-07-22userful selenium
###########userfulselenium###########confirmwindowでログインは下記フォマードでnew_url='http://{}:{}@{}'.format(username,password,url)http://username:password@urldownloadwindowを開けないように設定オプション(firefox用)fromselenium.webdriver.
2024-06-12学习笔记——路由网络基础——路由优先级(preference)
1、路由优先级(preference)路由优先级(preference)代表路由的优先程度。当路由器从多种不同的途径获知到达同一个目的网段的路由(这些路由的目的网络地址及网络掩码均相同)时，路由器会比较这些路由的优先级，优选优先级值最小的路由。路由来源的优先级值(Preference)越小代表加
2024-03-28HCIP-Datacom（H12-821）题库补充（3/27）
最新HCIP-Datacom（H12-821）完整题库请扫描上方二维码访问，持续更新中。运行OSPF协议的路由器，所有接口必须属于同一个区域。A：正确B：错误答案：B解析：OSPF的邻居关系是基于接口的，可以不同的接口属于不同的区域。ACL本质上是一种报文
2024-03-22开发者选项选择日志级别这个是个小米miui特有的选项，aosp里搜了下好像没有
"Developeroptions""Selectloglevel" https://github.com/ingbrzy/Xiaomi.eu-MIUIv10-XML-Compare/blob/master/sakura/Settings.apk/res/values/strings.xmlhttps://github.com/ingbrzy/Xiaomi.eu-MIUIv11-XML-Compare/blob/master/davinci_stabl
2024-03-06PbRL Preference Transformer
论文题目：PreferenceTransformer:ModelingHumanPreferencesusingTransformersforRL，ICLR2023，5668，poster。pdf：https://arxiv.org/pdf/2303.00957.pdfhtml：https://ar5iv.labs.arxiv.org/html/2303.00957openreview：https://openreview.net/forum?id=Peot1SFDX0项
2024-03-06PbRL | Preference Transformer：反正感觉 transformer 很强大
论文题目：PreferenceTransformer:ModelingHumanPreferencesusingTransformersforRL，ICLR2023，5668，poster。pdf：https://arxiv.org/pdf/2303.00957.pdfhtml：https://ar5iv.labs.arxiv.org/html/2303.00957openreview：https://openreview.net/forum?id=Peot1SFDX0项
2024-01-29每日一练 | 华为认证真题练习Day173
1、关于OSPF的AS-External-LSA中LSA头部信息描述错误的是:A.LinkStateID表示目的网络地址。B.AdvertisingRouter表示ASBR的RouterID。C.Netmask表示目的网段的网络掩码。D.FORWARDINGADDRESS永远为0.0.0.02、下面关于EGP和IGP描述错误的是A.IGP是运行于AS内部的路由协
2024-01-15DPO: Direct Preference Optimization 直接偏好优化（学习笔记）
学习参考：链接1 一、为什么要提出DPO在之前，我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段：全监督微调（SFT）、奖励模型（RM）、强化学习（PPO）。但是RLHF面临缺陷：RLHF是一个复杂且经常不稳定的过程，首先拟合反映人类偏好的奖励模型，然后使用强化学习微调大型无监督LM，以最大
2023-11-30RLHF · PBRL | B-Pref：生成多样非理性 preference，建立 PBRL benchmark
论文题目：B-Pref:BenchmarkingPreference-BasedReinforcementLearning，2021NeurIPSTrackDatasetsandBenchmarks，778。openreview：https://openreview.net/forum?id=ps95-mkHF_pdf版本：https://arxiv.org/pdf/2111.03026.pdfhtml版本：https://ar5iv.labs.arxiv.org/ht
2023-11-14typora里输入上标的方法
首先在偏好设置-markdown里勾选上标和下标 Subscript(下标)要使用此功能，请先在Preference 面板->Markdown选项卡中启用它。然后，使用~包装下标内容 Superscript(上标)要使用此功能，请先在Preference面板->Markdown选项卡中启用它。然后，使用 ^来包装上标内容
2023-11-09RLHF · PBRL | PEBBLE：通过 human preference 学习 reward model
论文题目：PEBBLE:Feedback-EfficientInteractiveReinforcementLearningviaRelabelingExperienceandUnsupervisedPre-training，貌似是ICML2021的文章。本博客为论文阅读笔记，【不能代替】阅读原文的工作量。原文写的也很好，是AI顶会的风格，相对容易读懂。阅读材料：p
2023-10-20Python + Selenium + Firefox 使用代理 auth 的用户名密码授权
Python+Firefox+插件（closeproxy.xpi）其中，closeproxy.xpi文件，需要Google、Bing搜下都能搜到下载地址完整的测试代码如下： fromseleniumimportwebdriverfromselenium.webdriver.firefox.firefox_binaryimportFirefoxBinaryfromselenium.webdriver.common.proxyimp
2023-09-21Fragment初学5——使用Fragment的子类PreferenceFragment
在Android的应用中通常都有setting功能，能够设置一些全局的选项，例如字体颜色，个人喜好等等。这些东西都存在一个xml中，在android中对应的对象就是SharedPreferences。在android3.0之前，我们一般继承PreferenceActivity这个基类去实现相关的方法。在3.0之后的系统中当然选择使用Preferen
2023-08-10Programming abstractions in C阅读笔记:p91-p106
《ProgrammingAbstractionsInC》学习第45天，p91-p102，完成第二章内容学习。总结如下：一、技术总结1.垃圾回收p91，"Somelanguage,includingJavasupportasystemfordynamicallocationthatactivelygoesthroughtoseewhatpartsofitareused，freeinganystorageth
2023-08-04BGP选路-本地优先级local-preference
本地优先级特性1）共有属性，默认值为1002）只能工作于IBGP邻居之间传递3）从EBGP邻居学到的BGP路由本地优先级属性默认不显示，但是默认值为100，从自身IBGP邻居学习到的是可以显示的，默认值为1004）数值越大越优先核心配置：1）抓取感应兴趣流ipip-prefix1index10permit100.1.1.024greater-e
2023-07-17python操作mongodb实现读写分离
读写分离默认情况下，MongoClient实例将查询发送到副本集的主要成员。要使用副节点作为查询，以实现读写分离，我们必须更改读取首选项：读取首选项在模块pymongo.ReadPreference下：PRIMARY：从主节点中读取（默认）PRIMARY_PREFERRED：优先从主节点读取，如果不可用则从副节点读取、SECOND