网站首页
编程语言
数据库
系统相关
其他分享
编程问答
VLN
2024-12-28
RSS-2024 | 具身智能体也爱看片!NaVid:视觉语言导航智能体通过视频学习导航动作规划
作者:JiazhaoZhang,KunyuWang,XiaomengFang,RongtaoXu,QiWu,GengzeZhou,ZhizhengZhang,YicongHong,HeWang,单位:中国科学技术大学计算机科学与工程学院,北京人工智能研究院,CASIA,阿德莱德大学,澳大利亚国立大学,Galbot原文链接:NaVid:Video-basedVLMPlans
2024-12-22
【视觉语言导航】VLN辅助任务:MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略
【视觉语言导航】VLN辅助任务:MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略MLM——文本掩码建模SAP和SARSAP——单步动作预测SAR——单步动作回归SPREL——空间关系预测MLM——文本掩码建模出处:《TowardsLearningaGenericAgentforVision-and-Languag
2024-12-15
ECCV-2024 | NavGPT-2:释放视觉语言大模型的导航推理能力
作者:GengzeZhou,YicongHong,ZunWang,XinEricWang,andQiWu阿德莱德大学,AdobeResearch,上海人工智能实验室,加利福尼亚大学圣克鲁斯分校原文链接:NavGPT-2:UnleashingNavigationalReasoningCapabilityforLargeVision-LanguageModels(https://link.spring