首页 > 其他分享 >WWW2023 | 基于强化学习的多任务推荐

WWW2023 | 基于强化学习的多任务推荐

时间:2023-07-16 16:34:26浏览次数:45  
标签:WWW2023 RMTL 模型 损失 推荐 MTL 强化 多任务

论文:Multi-Task Recommendations with Reinforcement Learning

摘要:近年来,多任务学习(MTL)在推荐系统(RS)应用中取得了巨大成功。 然而,当前基于 MTL 的推荐模型往往忽略用户-项目交互的会话模式,因为它们主要是基于项目数据集构建的。 此外,平衡多个目标一直是该领域的一个挑战,现有工作中通常通过线性估计来避免这一问题。 为了解决这些问题,在本文中,我们提出了一种强化学习(RL)增强的 MTL 框架,即 RMTL,使用动态权重来结合不同推荐任务的损失。 具体来说,RMTL 结构可以通过(i)从会话交互构建 MTL 环境和(ii)训练多任务 Actor-Critic 网络结构来解决上述两个问题,该结构与大多数现有的基于 MTL 的推荐兼容 模型,以及 (iii) 使用批评者网络生成的权重优化和微调 MTL 损失函数。 对两个真实世界公共数据集的实验证明了 RMTL 的有效性,其 AUC 高于最先进的基于 MTL 的推荐模型。 此外,我们还评估和验证 RMTL 在各种 MTL 模型之间的兼容性和可转移性。

https://arxiv.org/abs/2302.03328

1 引言

为了解决上述两个问题,我们提出了一种强化学习增强的多任务推荐框架 RMTL,它能够将交互中用户-项目的顺序属性合并到 MTL 推荐中,并自动更新任务中的权重 整体损失函数。 强化学习 (RL) 算法最近已应用于 RS 研究,它将顺序用户行为建模为马尔可夫决策过程 (MDP),并利用 RL 在每个决策步骤生成推荐 [32, 58]。 基于强化学习的推荐系统能够处理连续的用户-项目交互并优化长期用户参与度[2]。 因此,我们的 RL 增强框架 RMTL 可以将会话 RS 数据转换为 MDP 方式,并训练 Actor-Critic 框架来生成动态权重以优化 MTL 损失函数。 为了实现多任务输出,我们采用两塔 MTL 主干模型作为参与者网络,该模型通过针对每个任务的两个不同的批评者网络进行优化。 与具有逐项输入和恒定损失函数权重设计的现有 MTL 模型相比,我们的 RMTL 模型从会话式 MDP 输入中提取顺序模式,并自动更新每批数据实例的损失函数权重。 在本文中,我们重点关注 CTR/CTCVR 预测,这是电子商务和短视频平台的关键指标[26]。 在两个真实数据集上针对最先进的基于 MTL 的推荐模型进行的实验证明了所提出模型的有效性。

我们的工作贡献总结如下:(i)将多任务推荐问题转换为演员批评家强化学习方案,能够实现会话级多任务预测; (ii) 我们提出了一种强化学习增强的多任务学习框架 RMTL,它可以为损失函数设计生成自适应调整的权重。 RMTL兼容大多数现有的基于MTL的推荐模型; (iii) 对两个真实世界数据集的广泛实验证明了 RMTL 比 SOTA MTL 模型优越的性能,我们还验证了 RMTL 在各种 MTL 模型之间的可迁移性。

2 提出的框架

本节将详细描述我们的方法,即RMTL框架,该框架通过动态调整损失函数权重实现会话式多任务预测,有效解决现有工作的瓶颈。

2.1 预备知识和符号

会话式多任务推荐。 我们注意到,选择损失函数作为逐项多目标组合可能缺乏从数据中提取顺序模式的能力。 在我们的工作中,我们提出了会话级多目标损失,它通过最小化每个会话的加权累积损失来优化目标。 给定一个

标签:WWW2023,RMTL,模型,损失,推荐,MTL,强化,多任务
From: https://www.cnblogs.com/tuyuge/p/17558040.html

相关文章

  • 强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)
    强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)特点自我对弈详细注释流程简单代码结构net:策略价值网络实现mcts:蒙特卡洛树实现server:前端界面代码legacy:废弃代码docs:其他文件utils:工具代码network.py:移植过来的网络结构代码model_5400.p......
  • 强化学习Chapter2——优化目标(2)
    强化学习Chapter2——优化目标(2)上文推导出强化学习的一般性目标,即不做确定性假设下的优化目标,得到了下面两个式子:\[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0}P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)\\J(\pi)=\int_\tauP(\tau|\pi)R(\tau)=E_{\tau\sim\pi}[R(\tau)]\]我们的目标就......
  • 强化学习Chapter2——优化目标(1)
    强化学习Chapter2——优化目标(1)上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义。本节的目标旨在介绍algorithm-free的优化目标,即本文将不涉及算法地详述强化学习的目标。强化学习一般性目标上文提到,强化学习的目标可以解释为:......
  • m基于强化学习的永磁同步电机位置控制器simulink仿真,对比传统的PI控制器和模糊PI控制
    1.算法仿真效果MATLAB2017b仿真结果如下:      2.算法涉及理论知识概要       永磁同步电机(PermanentMagnetSynchronousMotor,PMSM)是一种高效、精度高、响应速度快的电机,广泛应用于现代工业和民用领域。PMSM的位置控制是PMSM控制的核心问题之一,其优化控......
  • 强化学习算法,DDPG算法,在simulink或MATLAB中编写强化学习算法,基于强化学习的自适应pid,
    强化学习算法,DDPG算法,在simulink或MATLAB中编写强化学习算法,基于强化学习的自适应pid,基于强化学习的模型预测控制算法,基于RL的MPC,Reinforcementlearning工具箱,具体例子的编程。根据需求进行算法定制:1.强化学习DDPG与控制算法MPC,鲁棒控制,PID,ADRC的结合。2.基于强化学习DDPG的机械......
  • aiohttp模块引出_aiohttp+多任务异步协程实现异步爬虫
    1.为什么要用aiohttp模块引出: 2.异步模块aiohttp对比requests基于同步的区别: 3.需要在response.text()前面添加await进行手动挂起: 4.response.text()前面一定要添加await再次运行程序告警取消: 5.异步爬虫get或post中写入的参数: ......
  • 基于策略的深度强化学习
     策略函数,输入为状态,输出动作a对应的概率。   利用神经网络去近似一个概率函数 softmax函数使概率加和等于1且都为正数。 Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。 状态价值函数V,只与当前状态s有关 将策略函数π替换为神经网络 用梯......
  • 强化学习实践:Policy Gradient-Cart pole游戏展示
    摘要:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5.1]:PolicyGradient-Cartpole游戏展示》,作者:汀丶。强化学习......
  • 多任务异步协程实现
    1.未实现异步操作代码: 2.实现异步操作代码: ......
  • Android架构开发进阶指南,Android Jetpack Compose强化实战
    在我们日常的开发中,如果所有人各自为战,没有统一规范,久而久之,项目代码会变得混乱且后续难以维护。而这时,许多人就会使用Jetpack这个由多个库组成的套件,来减少样板代码,以便将精力更多的集中于重要的编码工作上面。统一的架构模式通常会给我们带来诸多好处,如:统一开发规范,使得代码整洁......