• 2024-11-20PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
    PrefPPO首次(?)出现在PEBBLE,作为pebble的一个baseline,是用PPO复现Christianoetal.(2017)的PbRL算法。Forevaluation,wecomparetoChristianoetal.(2017),whichisthecurrentstate-of-the-artapproachusingthesametypeoffeedback.Theprimarydif
  • 2024-09-13【Preference Learning】Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
    问题背景在推理过程中使用TOT方式可以增加推理性能,但由于增加了推理次数,导致耗时过大。目前待解决的问题是如何能在推理时既保持很好的推理能力,又保持推理耗时不会过大。本文方法文章提出CPO(ChainofPreferenceOptimization)方式。该方法使用TOT方式来探索推理路径得到
  • 2024-08-28深入理解DPO(Direct Preference Optimization)算法
    目录1.什么是DPO?2.Bradley-Terry模型2.1奖励模型的训练3.从PPO到DPO4.DPO的简单实现5.梯度分析Ref1.什么是DPO?直接偏好优化(DirectPreferenceOptimization,DPO)是一种不需要强化学习的对齐算法。由于去除了复杂的强化学习算法,DPO可以通过与有监督微调(SFT)相
  • 2024-08-282024鸿蒙开发【面试题库】,转岗看这一篇就够了【收藏篇】
    鸿蒙面试浪潮来袭,你是否也想着利用这次机会去实现,跳槽涨薪的梦呢?如果关注了华为鸿蒙的人应该知道:鸿蒙开发岗位需求飙升6倍!可想而知该岗位前景多么广阔,为此就为大家整理些(鸿蒙HarmonyOS)开发岗位面试题。面试题目页面和组件的生命周期,及其流程@Entry装饰的页面和Naviga
  • 2024-08-01BGP 属性local_preference 本地优先
     BGP本地优先属性公认非必遵属性;当一条BGP路由器中存在多条去往同一目标网络的BGP路由时,BGP协议会对这些BGP路由属性进行比较,从而筛选出最佳到达目标网络的通达路径;本地优先属性,只在IBGP对等体之间进行交换,即:同一AS内进行,不会通告给AS域外;
  • 2024-07-25RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
    文章题目:RIME:RobustPreference-basedReinforcementLearningwithNoisyPreferences,ICML2024Spotlight,368(?)pdf:https://arxiv.org/pdf/2402.17257html:https://arxiv.org/html/2402.17257v3或https://ar5iv.labs.arxiv.org/html/2402.17257v3GitHub:https://g
  • 2024-07-25Android 10.0 Settings 加载流程
    一、系统设置首页代码路径:packages/app/Settings/1主界面加载:<!--Aliasforlauncheractivityonly,asthisbelongstoeachprofile.--><activity-aliasandroid:name="Settings"android:label="@string/settings_label_lau
  • 2024-07-22userful selenium
    ###########userfulselenium###########confirmwindowでログインは下記フォマードでnew_url='http://{}:{}@{}'.format(username,password,url)http://username:password@urldownloadwindowを開けないように設定オプション(firefox用)fromselenium.webdriver.
  • 2024-06-12学习笔记——路由网络基础——路由优先级(preference)
    1、路由优先级(preference)路由优先级(preference)代表路由的优先程度。当路由器从多种不同的途径获知到达同一个目的网段的路由(这些路由的目的网络地址及网络掩码均相同)时,路由器会比较这些路由的优先级,优选优先级值最小的路由。路由来源的优先级值(Preference)越小代表加
  • 2024-03-28HCIP-Datacom(H12-821)题库补充(3/27)
                  最新HCIP-Datacom(H12-821)完整题库请扫描上方二维码访问,持续更新中。运行OSPF协议的路由器,所有接口必须属于同一个区域。A:正确B:错误答案:B解析:OSPF的邻居关系是基于接口的,可以不同的接口属于不同的区域。ACL本质上是一种报文
  • 2024-03-22开发者选项 选择日志级别 这个是个小米miui特有的选项,aosp里搜了下好像没有
    "Developeroptions""Selectloglevel" https://github.com/ingbrzy/Xiaomi.eu-MIUIv10-XML-Compare/blob/master/sakura/Settings.apk/res/values/strings.xmlhttps://github.com/ingbrzy/Xiaomi.eu-MIUIv11-XML-Compare/blob/master/davinci_stabl
  • 2024-03-06PbRL Preference Transformer
    论文题目:PreferenceTransformer:ModelingHumanPreferencesusingTransformersforRL,ICLR2023,5668,poster。pdf:https://arxiv.org/pdf/2303.00957.pdfhtml:https://ar5iv.labs.arxiv.org/html/2303.00957openreview:https://openreview.net/forum?id=Peot1SFDX0项
  • 2024-03-06PbRL | Preference Transformer:反正感觉 transformer 很强大
    论文题目:PreferenceTransformer:ModelingHumanPreferencesusingTransformersforRL,ICLR2023,5668,poster。pdf:https://arxiv.org/pdf/2303.00957.pdfhtml:https://ar5iv.labs.arxiv.org/html/2303.00957openreview:https://openreview.net/forum?id=Peot1SFDX0项
  • 2024-01-29每日一练 | 华为认证真题练习Day173
    1、关于OSPF的AS-External-LSA中LSA头部信息描述错误的是:A.LinkStateID表示目的网络地址。B.AdvertisingRouter表示ASBR的RouterID。C.Netmask表示目的网段的网络掩码。D.FORWARDINGADDRESS永远为0.0.0.02、下面关于EGP和IGP描述错误的是A.IGP是运行于AS内部的路由协
  • 2024-01-15DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
    学习参考:链接1  一、为什么要提出DPO在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督LM,以最大
  • 2023-11-30RLHF · PBRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark
    论文题目:B-Pref:BenchmarkingPreference-BasedReinforcementLearning,2021NeurIPSTrackDatasetsandBenchmarks,778。openreview:https://openreview.net/forum?id=ps95-mkHF_pdf版本:https://arxiv.org/pdf/2111.03026.pdfhtml版本:https://ar5iv.labs.arxiv.org/ht
  • 2023-11-14typora里输入上标的方法
    首先在偏好设置-markdown里勾选上标和下标 Subscript(下标)要使用此功能,请先在Preference 面板->Markdown选项卡中启用它。然后,使用~包装下标内容 Superscript(上标)要使用此功能,请先在Preference面板->Markdown选项卡中启用它。然后,使用 ^来包装上标内容
  • 2023-11-09RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model
    论文题目:PEBBLE:Feedback-EfficientInteractiveReinforcementLearningviaRelabelingExperienceandUnsupervisedPre-training,貌似是ICML2021的文章。本博客为论文阅读笔记,【不能代替】阅读原文的工作量。原文写的也很好,是AI顶会的风格,相对容易读懂。阅读材料:p
  • 2023-10-20Python + Selenium + Firefox 使用代理 auth 的用户名密码授权
    Python+Firefox+插件(closeproxy.xpi)其中,closeproxy.xpi文件,需要Google、Bing搜下都能搜到下载地址完整的测试代码如下: fromseleniumimportwebdriverfromselenium.webdriver.firefox.firefox_binaryimportFirefoxBinaryfromselenium.webdriver.common.proxyimp
  • 2023-09-21Fragment初学5——使用Fragment的子类PreferenceFragment
    在Android的应用中通常都有setting功能,能够设置一些全局的选项,例如字体颜色,个人喜好等等。这些东西都存在一个xml中,在android中对应的对象就是SharedPreferences。在android3.0之前,我们一般继承PreferenceActivity这个基类去实现相关的方法。在3.0之后的系统中当然选择使用Preferen
  • 2023-08-10Programming abstractions in C阅读笔记:p91-p106
    《ProgrammingAbstractionsInC》学习第45天,p91-p102,完成第二章内容学习。总结如下:一、技术总结1.垃圾回收p91,"Somelanguage,includingJavasupportasystemfordynamicallocationthatactivelygoesthroughtoseewhatpartsofitareused,freeinganystorageth
  • 2023-08-04BGP选路-本地优先级local-preference
    本地优先级特性1)共有属性,默认值为1002)只能工作于IBGP邻居之间传递3)从EBGP邻居学到的BGP路由本地优先级属性默认不显示,但是默认值为100,从自身IBGP邻居学习到的是可以显示的,默认值为1004)数值越大越优先核心配置:1)抓取感应兴趣流ipip-prefix1index10permit100.1.1.024greater-e
  • 2023-07-17python操作mongodb实现读写分离
    读写分离默认情况下,MongoClient实例将查询发送到副本集的主要成员。要使用副节点作为查询,以实现读写分离,我们必须更改读取首选项:读取首选项在模块pymongo.ReadPreference下:PRIMARY:从主节点中读取(默认)PRIMARY_PREFERRED:优先从主节点读取,如果不可用则从副节点读取、SECOND
  • 2023-05-01PreferenceActivity详解
    为了引入这个概率首先从需求说起即:现有某Activity专门用于手机属性设置那么应该如何做呢?根据已学知识很快一个念头闪过即:Activity+Preference组合前者用于界面构建后者用于设置数据存放 其实这是正确的但是这会比较繁琐因为每个设置选项
  • 2023-04-20eclipse debug source not found
    eclipse开发过程进行debug时提示“Sourcenotfound”,无法进行正常的debug编译。可以使用以下方法解决 1.错误页面上有个链接addprojectpath(具体名称忘记了),点击进去,然后再添加自己的项目进入。 2.Windows-Preference-Java-Compiler。找到addsourcefilenametog