首页 > 其他分享 >Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommenda

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommenda

时间:2024-05-26 09:44:01浏览次数:27  
标签:Phi Transducers Trillion Actions action Generative than

目录

Zhai J., Liao L., Liu X., Wang Y., Li R., Cao X., Gao L., Gong Z., Gu F., He M., Lu Y. and Shi Y. Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations

本文介绍了一种推荐大模型的框架的训练方法.

GRs (Generative Recommenders)

任务形式

  • 如上图所示, DRs 这里把 E/F, G, H 分别进行 merge and sequentialize, 这里 (E, F) 表示哪些用户的交互行为, merge 后得到的是 \((\Phi, a, t)\): (Context, action, timestamp), 二 G, H 则是一些 "not related to user-content engagements".

  • 对于 ranking, 作者设计的任务是:

    \[P(a_{i}| \Phi_{i}, a_{i-1}, \ldots, a_0, \Phi_0), \]

    即通过过往的信息预测下一个 action.

  • 对于 retrieval, 作者设计的任务是仅对那些 \(a_i\) 为 positive 的情况进行:

    \[P(\Phi_{i}| a_{i-1}, \Phi_{i-1}, \ldots, a_0, \Phi_0). \]

    negative 的 action 不进行预测.

模型设计

  • 作者为了兼顾效率, 特别改进了模型框架:

  • 注意到, 其中的每个模块变成了:

o

  • 虽然形式上和 attention 还是比较像的, 但是注意到:
    1. \(Q(X) K(X)^T\) 并没有经过 softmax 处理, 作者认为这样除了效率外, 还能够保证不同的参与度能够有所区分;
    2. \(U(X)\), 门控机制的引入 (作者用来模拟 MoE).

  • 可以发现, softmax 这个点的影响很大.

  • 此外, 还有数据集的切分, 优化器的选择等等.

虽然最后的效果并没有特别夸张, 但是这些尝试是值得肯定的.

代码

[official]

标签:Phi,Transducers,Trillion,Actions,action,Generative,than
From: https://www.cnblogs.com/MTandHJ/p/18213367

相关文章

  • Jenkins发版时报错Failed to instantiate [io.seata.spring.annotation.GlobalTransac
    Failedtoinstantiate[io.seata.spring.annotation.GlobalTransactionScanner]:Factorymethod'globalTransactionScanner'threwexception;nestedexceptionisjava.lang.ExceptionInInitializerError一开始以为是seata配置有问题,但最近也没有动过,直接执行发版脚本就没事......
  • Could not load file or assembly 'Microsoft.Extensions.Configuration.Abstractions
    Category:Microsoft.AspNetCore.Diagnostics.ExceptionHandlerMiddlewareEventId:1RequestId:800000f3-0003-eb00-b63f-84710c7967bbRequestPath:/SampleSpanId:|e04026eb-470f4c64c48ec282.TraceId:e04026eb-470f4c64c48ec282ParentId:Anunhandledexception......
  • 使用GitHub Actions和GitHub pages实现前端项目的自动打包部署
    1.引言Asweallknow,前端部署项目是比较简单的,通常情况下只需要将打包的产物(index.html、.js文件、.css文件等)放在Web服务器下就......
  • 配置Hexo的GitHub Actions自动推送
    还在用hexod来推送你的Blog到Github上吗?本文教您如何使用GithubActions自动推送!生成公私钥对首先,你需要准备一个ssh的公私钥匙对。你可以使用本地的ssh-keygen也可以使用在线网站,例如https://8gwifi.org/sshfunctions.jsp这样的公私钥生成器。生成完后,保存下你的公私钥(分......
  • Robust mapping of spatiotemporal trajectories and cell–cell interactions in hea
    这篇论文主要介绍了一种名为"Robustmappingofspatiotemporaltrajectoriesandcell-cellinteractionsinhealthyanddiseasedtissues"的新方法,该方法能够在健康和疾病组织中对细胞过程进行可靠的映射,同时研究细胞间的相互作用。在生物组织中,细胞类型、局部组成和状态、分......
  • [POI2007] ATR-Tourist Attractions
    [POI2007]ATR-TouristAttractions题目背景EnglishEdition题目描述给出一张有\(n\)个点\(m\)条边的无向图,每条边有边权。你需要找一条从\(1\)到\(n\)的最短路径,并且这条路径在满足给出的\(g\)个限制的情况下可以在所有编号从\(2\)到\(k+1\)的点上停留过。每......
  • POI2007ATR-Tourist Attractions
    最短路#状压dp#滚动优化#POI#Year2007从前\(k\)个跑\(dijksta\),对这\(k\)个点到达的状态状压会MLE,考虑每次转移都只会增加一个状压下的\(1\),按照\(popcount\)分组做滚动//Author:xiaruizeconstintINF=0x3f3f3f3f;constintMOD=1000000007;constin......
  • 用友 NC ActionServlet SQL注入漏洞复现
    0x01产品简介用友 NC是用友网络科技股份有限公司开发的一款大型企业数字化平台。0x02漏洞概述用友NC/service/~iufo/com.ufida.web.action.ActionServlet接口处存在SQL注入漏洞,未经身份验证的恶意攻击者利用SQL注入漏洞获取数据库中的信息(例如管理员后台密码、站点......
  • [POI2007] [LUOGU P3451]旅游景点 Tourist Attractions
    本题解由于作者太菜在POI及LUOGU上会TLE,该题解主要讲思路,剩下的内存优化请各位大佬自行补充,欢迎评论区讨论本题解运行时间10406ms,空间194584KiB题目描述FGD想从成都去上海旅游。在旅途中他希望经过一些城市并在那里欣赏风景,品尝风味小吃或者做其他的有趣的事情。经过这些城......
  • Microservice - Distributed Transactions Based on Saga and Kafka in Practice
       ......