• 2024-06-15Midjourney 参数列表 --p
    --Personalization也写作--p,加上之后,可以生成符合个人审美偏好的图像。使用步骤:1.点击 https://www.midjourney.com/rank 对图片进行排名。不确定哪个更符合你的审美,可以跳过。这一步就是在确认你的个性化审美偏好。官方建议至少评价100组,理论上选得越多,midjourney越能理
  • 2024-06-13Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
    本文是LLM系列文章,针对《AligningwithHumanJudgement:TheRoleofPairwisePreferenceinLargeLanguageModelEvaluators》的翻译。与人类判断相一致:配对偏好在大型语言模型评估者中的作用摘要1引言2LLM计算器校准的局限性3不确定性引导的成对偏好搜索4
  • 2024-05-30Large Language Models as Data Augmenters for Cold-Start Item Recommendation论文阅读笔记
    LargeLanguageModelsasDataAugmentersforCold-StartItemRecommendation论文阅读笔记Abstract​ LLM的推理和泛化能力可以帮助我们更好地理解用户的偏好和项目特征。我们建议利用LLM作为数据增强器,来弥补在训练过程中对冷启动项目的知识差距。我们使用LLM根据用户历史行
  • 2024-04-29推荐策略小记
    工作中在推荐小说、特效、陪玩的时候针对用户会有不同的推荐。这里主要讲一下推荐中存在的问题和解决方法。推荐:主要指的是通过用户和物品的关联(例如兴趣、文化、用户属性)给出用户感兴趣的物品。常见场景是满足用户「逛」的需求,通过抓手物品引出相似物品推荐,提高用户的停留时长
  • 2024-04-16ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
    现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。虽然DPO和IPO的成本较低,但它们仍需训练两个不同的模型。首
  • 2024-04-11【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)
    前言今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACMComputingSurveys)的论文,文章提供了对话式推荐系统(CRS)的全面综述,探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现,如智能家居助手和聊天机器人,并指
  • 2024-02-24【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)
    前言今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACMComputingSurveys)的论文,文章提供了对话式推荐系统(CRS)的全面综述,探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现,如智能家居助手和聊天机器人,并指
  • 2024-02-01读论文-基于用户长短期偏好的序列推荐模型
    前言今天要读的论文名为《基于用户长短期偏好的序列推荐模型》,是一篇于2022年12月29日发表在《计算机科学》上的一篇期刊论文。文章发现了传统的序列推荐模型忽略了不同用户的个性化行为,导致模型不能充分捕获用户动态偏好而产生的兴趣漂移等问题,提出了一种基于用户长短期偏好
  • 2024-01-26读论文-基于自监督学习的序列推荐算法
    前言今天读的文章为一篇名叫《基于自监督学习的序列推荐算法》的期刊论文,文章于2023年8月15日发表在自然科学报上,这篇论文的引用为:[1]闫猛猛,汪海涛,贺建峰等.基于自监督学习的序列推荐算法[J].重庆邮电大学学报(自然科学版),2023,35(04):722-731.摘要原文如下:针对现有序列
  • 2024-01-21RLHF · PbRL | 速通 ICLR 2024 RLHF
    检索关键词:ICLR2024、reinforcementlearning、preference、humanfeedback。https://openreview.net/search?term=ICLR+2024+reinforcement+learning+preference+human+feedback&group=all&content=all&source=forumContrastivePreferenceLearning:LearningfromH
  • 2024-01-15DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
    学习参考:链接1  一、为什么要提出DPO在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督LM,以最大
  • 2024-01-14掌握用户心理:通过ClkLog打造精准用户画像(下)
    接《掌握用户心理:通过ClkLog打造精准用户画像(上)》继续为大家分享......二、用户旅程的分析当用户离开时,利用RARRA模型可以帮助我们找到潜在的漏洞,并指导我们在哪里投资于数据测试和购买来优化用户体验。留存阶段的分析深入分析用户流失的时间点和原因至关重要。通过监测
  • 2023-12-27我的偏好我的设置
    每个人都是独立的个体,有自己的思维模式,有自己喜爱的处理事情方式。所以,像个人手机或是电脑,都允许用户做一些个性化的设置,例如壁纸、布局、亮度等。JamfPro同样允许每一个管理员账号根据自己的喜欢和需求来配置专属的设置,例如Dashboard、InventoryDisplay、SearchPreferences、R
  • 2023-12-26人类偏好导向:DPO技术重塑SDXL-1.0图像生成
    引言在AI领域,适应和理解人类偏好一直是技术发展的重要方向。斯坦福大学研究团队最近提出的Diffusion-DPO方法,旨在将这一理念应用于图像生成模型,特别是在文本到图像的转换领域。Huggingface模型下载:https://huggingface.co/mhdang/AI快站模型免费加速下载:https://aifasthub.com/
  • 2023-12-06【题解】LibreOJ #3051「十二省联考 2019」皮配
    传送门:https://loj.ac/p/3051  首先,对于这样“少部分个体有特殊要求”的题目,我们先考虑,如果没有任何个体有特殊要求怎么做,然后再考虑怎么加上特殊要求;对于这道题,如果$k=0$,即没有学校有不喜欢的导师,那么,设总人数为$al$,城市$i$的人数和为$cit_i$、选择的阵营为$zy_i=0/
  • 2023-10-30目前最优的非蒸馏、可商用的开源大模型!MIT-IBM 提出鲑鱼模型!
    作者|谢年年、ZenMoore今年上半年,IBM加入大模型战局,提出了一种使用原则(Principle)驱动的、基于LLMSelf-Instruct的全新方法:SELF-ALIGN(自对齐),并以开源LLaMA为基础,用不到300行(包括195个种子prompt,16个原则和5个范例)人类标注数据就训练出了Dromedary[1],在TruthfulQA数据集上甚
  • 2023-10-27【论文解读】RLAIF基于人工智能反馈的强化学习
    【论文解读】RLAIF基于人工智能反馈的强化学习一、简要介绍人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐,但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF)-一种由现成的LLM代替人类标记偏好的
  • 2023-09-08指令微调LLM进行推荐Recommendation as Instruction Following: A Large Language Model Empowered Recommendation
    原文地址:https://arxiv.org/abs/2305.07001本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3BFlan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。INTRODUCTIONLLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的g
  • 2023-08-07论文分析|利用图神经网络挖掘群组信息进行个性化推荐
    ExploitingGroupInformationforPersonalizedRecommendationwithGraphNeuralNetworks论文分析初步论文分析推荐系统的关键问题是如何对用户偏好进行建模。已有工作大多利用用户历史数据学习用户偏好,但面临数据稀疏问题。在线社交网络的流行促进了在线讨论组的增加,同一
  • 2023-06-29Typora的个人偏好设置
    如何让自己的typora使用起来更舒适呢,按照下面配置一下吧0x01配置右键新建md文件参考:https://blog.csdn.net/Glaciation2/article/details/120200403如何在右键新建项中添加Typora新建Markdown文件快捷选项,如下图一样,其实很简单1)win+R打开对话框输入regedit打开注册表,在计算
  • 2023-06-03以下是一些注册表编辑器,注册表编辑器都具有不同的功能和特点,可根据用户的需求和个人偏好进行选择
    以下是一些注册表编辑器:注册表编辑器都具有不同的功能和特点,可根据用户的需求和个人偏好进行选择RegCool:RegCool是一款开源的注册表编辑器,拥有强大的搜索和替换功能、快速寻找更改、备份、还原等常见注册表操作。它支持导入和导出某个部分或整个注册表,以及在键值中执行批量修
  • 2023-04-2931岁时我的目标
    我是一个普通的、无偏好的人,可能唯一特点是我不太在乎一些他人通常会在意的私利,从而衍生出一些擅长学习、不擅交际等少数偏好。就我自己而言,是希望弥补自己的缺点的,就算因此变得平庸,所以我希望做一些不适合我做的事业,例如经商、从政等等。但既然已经31岁了,为了母亲和女友考虑,先靠
  • 2023-04-23photoshop 2022 新功能介绍,ps2021最新版下载mac/win
    ps2021最新版下载Mac版win版 photoshop2022新功能介绍选取主体云端服务在Photoshop2022年8月(23.5版)中,透过我们的「选取主体」云端服务,获得比在装置上进行「选取主体」处理更细致、品质更好的影像。若要使用「选取主体」云端服务,请执行下列任一操作:浏览至「偏好
  • 2023-04-17软件工程日报—站立会议
    昨天:我对排班的思路进行了思考,考虑到要以门店规则和员工偏好为基础,确定了一个排班思路今天我和我的队友进行了讨论,明确了之后的分工和思路,决定以时间,偏好和规则为基础的排班逻辑遇到的问题:对于周一到周五和周末的开店时间不同,偏好数据如何保存还有不同职位的排班安排仍有疑问
  • 2023-04-15【游戏设计随笔03】一些女性向游戏和市场的感悟
    一些女性向tips1:女性市场趋势好,规模逐渐扩大随着一些平台崛起,青少年女性用户有了一个平台可以聚集,最近这一两年低龄女性用户群实现了规模化的效应。聚焦在女性方面不一定会让你游戏的受众群收窄,反而能聚集到非常核心的玩家。2:女性群体更容易被游戏创意所吸引最好做一些比较