发表时间:2023(ICLR 2023)
文章要点:文章提出一个简单有效的ReAct框架,将reasoning和action结合,在交互式的环境上进行测试,取得了很好的效果。其中reasoning作为推理模块,帮助模型归纳,跟踪和更新动作规划,acting和环境交互收集更多信息(reasoning traces help the model induce, track, and update action plans as well as handle exceptions, while actions allow it to interface with and gather additional information from external sources such as knowledge bases or environments.)。这里reasoning指的是像chain-of-thought prompting那种模型自己推理,而没有真正和环境交互的过程,而act就是指和环境交互的过程。
整个方法也很简单,就是人类先提供几个例子作为few-shot in-context examples,然后让模型根据提供的例子进行类似的reason和act(Each in-context example is a human trajectory of actions, thoughts, and environment observations to solve a task instance)。下图举例说明了这种方式相比其他方法的优势。
总结:主要是提出了一个概念性的东西,方法上其实挺常见的。这种文章我们写肯定发不出来。
疑问:无。