本文是LLM系列文章,针对《GenEx: Generating an Explorable World》的翻译。
GenEx:创造一个可探索的世界
摘要
长期以来,理解、导航和探索3D物理现实世界一直是人工智能发展的核心挑战。在这项工作中,我们通过引入GenEx朝着这一目标迈出了一步,GenEx是一个能够规划复杂的具身世界探索的系统,其生成想象力形成了对周围环境的先验(期望)。
GenEx从一张RGB图像中生成一个完整的3D一致的想象环境,通过全景视频流将其变为现实。利用虚幻引擎策划的可扩展3D世界数据,我们的生成模型以物理世界为基础。它毫不费力地捕捉到了一个连续的360°环境,为人工智能代理探索和互动提供了无限的空间。GenEx在长轨迹上实现了高质量的世界生成和稳健的循环一致性,并展示了强大的3D功能,如一致性和主动3D映射。
在世界生成想象的推动下,GPT辅助代理能够执行复杂的具体任务,包括目标无关的探索和目标驱动的导航。这些代理利用对物理世界中看不见的部分的预测期望来完善他们的信念,根据潜在的决策模拟不同的结果,并做出更明智的选择。
总之,我们证明了GenEx为在富有想象力的空间中推进具身人工智能提供了一个变革性的平台,并为将这些能力扩展到现实世界的探索带来了潜力。