VLN

2024-12-28RSS-2024 | 具身智能体也爱看片！NaVid：视觉语言导航智能体通过视频学习导航动作规划
作者：JiazhaoZhang,KunyuWang,XiaomengFang,RongtaoXu,QiWu,GengzeZhou,ZhizhengZhang,YicongHong,HeWang,单位：中国科学技术大学计算机科学与工程学院，北京人工智能研究院，CASIA，阿德莱德大学，澳大利亚国立大学，Galbot原文链接：NaVid:Video-basedVLMPlans
2024-12-22【视觉语言导航】VLN辅助任务：MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略
【视觉语言导航】VLN辅助任务：MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略MLM——文本掩码建模SAP和SARSAP——单步动作预测SAR——单步动作回归SPREL——空间关系预测MLM——文本掩码建模出处：《TowardsLearningaGenericAgentforVision-and-Languag
2024-12-15ECCV-2024 | NavGPT-2：释放视觉语言大模型的导航推理能力
作者：GengzeZhou,YicongHong,ZunWang,XinEricWang,andQiWu阿德莱德大学，AdobeResearch，上海人工智能实验室，加利福尼亚大学圣克鲁斯分校原文链接：NavGPT-2:UnleashingNavigationalReasoningCapabilityforLargeVision-LanguageModels(https://link.spring