首页 > 其他分享 >WWW2025 多模态对话系统意图识别挑战赛方案总结

WWW2025 多模态对话系统意图识别挑战赛方案总结

时间:2025-01-21 20:31:03浏览次数:3  
标签:模态 截图 WWW2025 意图 分类 商品 挑战赛 识别 页面

WWW2025 多模态对话系统意图识别挑战赛方案

代码实现:https://github.com/klayc-gzl/incent_internvl_2.5_8b
最终成绩:在这里插入图片描述
在这里插入图片描述

大赛背景

互联网已成为提供客户服务的主要沟通渠道。网络客户服务面临的一个关键挑战是服务对话中多模态意图的高效识别。通过利用先进的AI和大型语言模型(LLM)技术,准确识别客户在多次互动中的意图可以大大提升客户体验和服务质量,同时支持公司的商业智能计划。本次竞赛由淘天集团、WWW2025和天池联合主办,提供了涵盖超过40个消费者图像场景和意图分类任务的数据集。目标是在电子商务领域的多模态对话场景中推动意图识别技术的发展。

数据处理

数据格式转换

  • 将数据集转换为 LLaVA 数据集常用的 JSON 格式,用于训练。
  • 修改描述部分,重点解决以下难分类问题:
    • 外部 APP 截图
    • 支付页面
    • 商品头图

数据样例格式

示例数据如下:

{
    "id": "57454dee-9c36-4b76-b6c6-1d5d36c812fd",
    "instruction": "Picture 1: <image>\n你是淘宝和菜鸟APP的电商领域识图专家,可以理解消费者上传的软件截图或实物拍摄图。现在,请你对消费者上传的图片进行分类。以下是可以参考的分类标签: [...]",
    "input": "请严格按照以下三个部分的特定格式进行回答:<图像描述>、<推理>和<结论>。格式示例如下:\n\n<图像描述>[简要描述图像中与问题相关的关键信息和细节。]</图像描述>\n<推理>[解释分类的依据,请确保理由充分、清晰,并紧密结合问题或图片的相关细节。]</推理>\n<结论>[直接给出最终答案。]</结论>",
    "output": "<图像描述>图片显示了一张商品的主图,背景为绿色草地,前景是一把军绿色的折叠椅。图片上方有“工厂直销 性价比”的字样,下方有商品的详细信息,包括价格、优惠信息和发货信息。</图像描述>\n<推理>这张图片展示的是商品的主图,通常用于商品页面的顶部,以吸引消费者的注意力并提供商品的基本信息。图片中包含了商品的主要特点和价格信息,符合商品头图的特征。</推理>\n<结论>商品头图</结论>",
    "image": [
        "data/mire_train/images/b2a45fbf-08c4-4cf1-9d08-21aedc7ed4a2-268-0.jpg"
    ]
}
{
    "id": "e573a802-ddbf-4b91-86f3-d097320bd9a1-1405",
    "image": "/root/incent_internvl_2.5_8b/xtuner/mire_data/train/images/e573a802-ddbf-4b91-86f3-d097320bd9a1-1405-0.jpg",
    "conversations": [
        {
            "from": "human",
            "value": "Picture 1: <image>\n你是一名电商领域的顶级识图专家,专注于分类消费者上传的软件截图或实物拍摄图片。你的任务是基于图像内容进行精准分类。作为淘宝和菜鸟应用的资深专家,请特别注意以下规则:如果图像中包含京东、微信、拼多多、短信或手机系统相关内容,请分类为“外部APP截图”。如果图像中出现“已付X元”或“费用详情”等支付相关字样,即使包含“订单详情”,也应归类为“支付页面”。如果底部有“立即购买”且上方有商品图归“商品头图”。请根据用户上传的图片,对其进行场景分类。分类结果必须从以下列表中选择,并仅输出一个标签:[\"实物拍摄(含售后)\",\"商品分类选项\",\"商品头图\",\"商品详情页截图\",\"下单过程中出现异常(显示购买失败浮窗)\",\"订单详情页面\",\"支付页面\",\"评论区截图页面\",\"物流页面-物流列表页面\",\"物流页面-物流跟踪页面\",\"物流页面-物流异常页面\",\"退款页面\",\"退货页面\",\"换货页面\",\"购物车页面\",\"店铺页面\",\"活动页面\",\"优惠券领取页面\",\"账单/账户页面\",\"投诉举报页面\",\"平台介入页面\",\"外部APP截图\",\"其他类别图片\"]。"
        },
        {
            "from": "gpt",
            "value": "换货页面"
        }
    ]
}
  • 特别注意规则
    • 包含京东、微信、拼多多等内容的图像归类为“外部 APP 截图”。
    • 包含“已付 X 元”或“费用详情”字样的图片归类为“支付页面”。
    • 底部有“立即购买”且上方有商品图归类为“商品头图”。

模型训练

模型与训练框架

  • 使用 InternLV_2.5_8B 模型。
  • 训练框架:xtuner
  • 微调方法:LoRA 微调

多任务微调策略

  1. 电商图像分类任务微调

    • 使用 700 条电商图像分类数据,微调模型并生成 LoRA 权重。
    • 该步骤帮助模型更好地识别图像特征。
  2. 意图识别任务微调

    • 在第一步微调生成的模型权重基础上,微调 300 条对话意图识别数据。
    • 获得新的模型权重,适配对话意图识别任务。
  3. 权重融合 (Adapter-Fusion)

    • 在最新模型权重的基础上,针对原始数据集进行训练。
    • 实现微调融合效果,提升模型的泛化能力。

模型部署

部署工具

  • 使用 lmdeploy 进行部署。

推理策略

  • 启发式搜索,设置 temperature=0.6,生成多样性结果。
  • 采用 三次推理结合投票机制
    • 选择出现次数最多的答案作为最终结果。
    • 若三次推理结果均不在要求的分类范围:
      • 意图识别:随机选择一个标签。
      • 电商图片分类:默认选择“其他类别图片”。

通过以上策略,保证分类和意图识别的准确性,同时满足赛题的推理次数限制。

标签:模态,截图,WWW2025,意图,分类,商品,挑战赛,识别,页面
From: https://blog.csdn.net/qq_30731313/article/details/145289769

相关文章

  • 国自然青年项目|基于多模态影像组学的乳腺癌分子分型预测研究|基金申请·25-01-20
    小罗碎碎念今天和大家分享一份国自然青年项目,项目执行期为2021-2023年,直接费用为24万。项目聚焦乳腺癌分子分型预测,综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系......
  • 对多组学多模态方向感兴趣的医工交叉科研人员,这三篇综述值得参考!|顶刊速递·25-01-20
    小罗碎碎念推文速览第一篇文章围绕高分辨率空间转录组学展开,介绍其技术原理、在构建组织图谱等多方面的应用、临床研究设计要点,分析临床转化面临的挑战,展望未来发展,强调其对揭示疾病机制和推动个性化医疗的重要意义。第二篇文章围绕局部晚期直肠癌的全新辅助治疗(TNT)展......
  • 几乎是跪着看完AI教母李飞飞的开年巨作!-《AI Agent:多模态交互前沿调查》
    多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式,以使其更加互动化。目前,这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中,有助于模型处理和解释视觉和上下文数据的能力,这是创......
  • _EMD-KPCA-LSTM 基于经验模态分解和核主成分分析的长短期记忆网络多维时间序列预测_ma
    EMD-KPCA-LSTM基于经验模态分解和核主成分分析的长短期记忆网络多维时间序列预测MATLAB代码(含LSTM、EMD-LSTM、EMD-KPCA-LSTM三个模型的对比)matlab参考文档:基于EMD-PCA-LSTM的光伏功率预测模型研究内容:本案例使用数据集是北半球光伏功率,共四个输入特征(太阳辐射度气温......
  • 模态分解算法FMD-降噪-机械故障诊断
    一、模态分解算法FMD(FractionalModeDecomposition)简介基本原理FMD是一种新的信号分解方法,它能够将复杂的信号分解为一系列具有不同频率特性的模态分量。其原理是基于分数阶微积分和信号的局部特征。与传统的经验模态分解(EMD)等方法类似,它试图将信号自适应地分解成多个本......
  • Gemini 多模态功能:七大应用场景,解锁 AI 无限可能
    你是否想象过,一台机器可以像人类一样,同时理解图像、视频和文字? GoogleGemini的诞生,让这一想象成为现实。作为GoogleAI的最新成果,Gemini的多模态能力为企业带来了前所未有的机遇。本文将以性能卓越的Gemini1.5Pro为例,分享Gemini在七大实际应用场景中的表现,并重点关注......
  • 智谱发布端到端多模态模型 GLM-Realtime,2 分钟记忆能力;讯飞星火同传语音大模型发布,5
      开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑......
  • 腾讯云AI代码助手编程挑战赛-【用AI构造AI-打造属于个人的Copilot】
    @[腾讯ai代码助手]概要使用腾讯云ai编程助手辅助编程使用AI构造AI打造属于个人的Copilot作品简介腾讯云AI编程助手结合TDesign,为开发者提供了一站式的智能开发解决方案。腾讯云AI编程助手基于混元代码大模型,能够实现代码的智能补全、生成、优化与重构,以及错误检测与修......
  • 多模态大模型InterVL2.5使用记录
    本文记录在本地安装和测试InterVL2.5(26B版本)论文:https://arxiv.org/abs/2412.05271Huggingface模型权重下载页:https://huggingface.co/collections/OpenGVLab/internvl25-673e1019b66e2218f68d7c1cGithub:https://github.com/OpenGVLab/InternVL本地硬件:RTX30901.创建环......
  • 赛果公布!有灵AOP平台首届编程挑战赛圆满落幕
    近日,网易伏羲有灵AOP平台首届编程挑战赛顺利落下帷幕。自赛事启动以来,在短短几周的时间里,来自各地的优秀开发者们汇集于此,通过人机协作的形式,完成了多项充满创意和技术深度的任务。此次挑战赛不仅展现了参赛者的卓越编程技能,也体现了AOP(AgentOrientedProgramming)面向智能体编程......