WWW2025 多模态对话系统意图识别挑战赛方案
代码实现:https://github.com/klayc-gzl/incent_internvl_2.5_8b
最终成绩:
大赛背景
互联网已成为提供客户服务的主要沟通渠道。网络客户服务面临的一个关键挑战是服务对话中多模态意图的高效识别。通过利用先进的AI和大型语言模型(LLM)技术,准确识别客户在多次互动中的意图可以大大提升客户体验和服务质量,同时支持公司的商业智能计划。本次竞赛由淘天集团、WWW2025和天池联合主办,提供了涵盖超过40个消费者图像场景和意图分类任务的数据集。目标是在电子商务领域的多模态对话场景中推动意图识别技术的发展。
数据处理
数据格式转换
- 将数据集转换为 LLaVA 数据集常用的 JSON 格式,用于训练。
- 修改描述部分,重点解决以下难分类问题:
- 外部 APP 截图
- 支付页面
- 商品头图
数据样例格式
示例数据如下:
{
"id": "57454dee-9c36-4b76-b6c6-1d5d36c812fd",
"instruction": "Picture 1: <image>\n你是淘宝和菜鸟APP的电商领域识图专家,可以理解消费者上传的软件截图或实物拍摄图。现在,请你对消费者上传的图片进行分类。以下是可以参考的分类标签: [...]",
"input": "请严格按照以下三个部分的特定格式进行回答:<图像描述>、<推理>和<结论>。格式示例如下:\n\n<图像描述>[简要描述图像中与问题相关的关键信息和细节。]</图像描述>\n<推理>[解释分类的依据,请确保理由充分、清晰,并紧密结合问题或图片的相关细节。]</推理>\n<结论>[直接给出最终答案。]</结论>",
"output": "<图像描述>图片显示了一张商品的主图,背景为绿色草地,前景是一把军绿色的折叠椅。图片上方有“工厂直销 性价比”的字样,下方有商品的详细信息,包括价格、优惠信息和发货信息。</图像描述>\n<推理>这张图片展示的是商品的主图,通常用于商品页面的顶部,以吸引消费者的注意力并提供商品的基本信息。图片中包含了商品的主要特点和价格信息,符合商品头图的特征。</推理>\n<结论>商品头图</结论>",
"image": [
"data/mire_train/images/b2a45fbf-08c4-4cf1-9d08-21aedc7ed4a2-268-0.jpg"
]
}
{
"id": "e573a802-ddbf-4b91-86f3-d097320bd9a1-1405",
"image": "/root/incent_internvl_2.5_8b/xtuner/mire_data/train/images/e573a802-ddbf-4b91-86f3-d097320bd9a1-1405-0.jpg",
"conversations": [
{
"from": "human",
"value": "Picture 1: <image>\n你是一名电商领域的顶级识图专家,专注于分类消费者上传的软件截图或实物拍摄图片。你的任务是基于图像内容进行精准分类。作为淘宝和菜鸟应用的资深专家,请特别注意以下规则:如果图像中包含京东、微信、拼多多、短信或手机系统相关内容,请分类为“外部APP截图”。如果图像中出现“已付X元”或“费用详情”等支付相关字样,即使包含“订单详情”,也应归类为“支付页面”。如果底部有“立即购买”且上方有商品图归“商品头图”。请根据用户上传的图片,对其进行场景分类。分类结果必须从以下列表中选择,并仅输出一个标签:[\"实物拍摄(含售后)\",\"商品分类选项\",\"商品头图\",\"商品详情页截图\",\"下单过程中出现异常(显示购买失败浮窗)\",\"订单详情页面\",\"支付页面\",\"评论区截图页面\",\"物流页面-物流列表页面\",\"物流页面-物流跟踪页面\",\"物流页面-物流异常页面\",\"退款页面\",\"退货页面\",\"换货页面\",\"购物车页面\",\"店铺页面\",\"活动页面\",\"优惠券领取页面\",\"账单/账户页面\",\"投诉举报页面\",\"平台介入页面\",\"外部APP截图\",\"其他类别图片\"]。"
},
{
"from": "gpt",
"value": "换货页面"
}
]
}
- 特别注意规则
- 包含京东、微信、拼多多等内容的图像归类为“外部 APP 截图”。
- 包含“已付 X 元”或“费用详情”字样的图片归类为“支付页面”。
- 底部有“立即购买”且上方有商品图归类为“商品头图”。
模型训练
模型与训练框架
- 使用 InternLV_2.5_8B 模型。
- 训练框架:xtuner。
- 微调方法:LoRA 微调。
多任务微调策略
-
电商图像分类任务微调
- 使用 700 条电商图像分类数据,微调模型并生成 LoRA 权重。
- 该步骤帮助模型更好地识别图像特征。
-
意图识别任务微调
- 在第一步微调生成的模型权重基础上,微调 300 条对话意图识别数据。
- 获得新的模型权重,适配对话意图识别任务。
-
权重融合 (Adapter-Fusion)
- 在最新模型权重的基础上,针对原始数据集进行训练。
- 实现微调融合效果,提升模型的泛化能力。
模型部署
部署工具
- 使用 lmdeploy 进行部署。
推理策略
- 启发式搜索,设置
temperature=0.6
,生成多样性结果。 - 采用 三次推理结合投票机制:
- 选择出现次数最多的答案作为最终结果。
- 若三次推理结果均不在要求的分类范围:
- 意图识别:随机选择一个标签。
- 电商图片分类:默认选择“其他类别图片”。
通过以上策略,保证分类和意图识别的准确性,同时满足赛题的推理次数限制。
标签:模态,截图,WWW2025,意图,分类,商品,挑战赛,识别,页面 From: https://blog.csdn.net/qq_30731313/article/details/145289769