Open Book QA(开卷问答)是一种特定类型的问答任务,它模拟了人类在考试中可以查阅书籍或参考资料的情景。在这个设定下,AI系统被允许访问一组预先指定的资源,例如一组科学事实、文章或其他形式的知识库,以帮助回答问题。与之相对的是Closed Book QA(闭卷问答),在这种情况下,AI必须依靠其内部训练过的知识来回答问题,而不能查阅外部资源。
OpenBookQA 数据集
OpenBookQA 是由美国艾伦人工智能研究院(Allen Institute for AI)发布的一个问答技术评测集,旨在评估AI系统对核心科学事实的理解和应用能力。该数据集包含大约6,000个选择题,这些题目主要面向小学科学知识,并且每个问题都关联到一个核心科学事实。值得注意的是,尽管提供了这些核心事实作为参考,但要正确回答许多问题还需要额外的常识性知识。
此外,OpenBookQA 数据集还具有以下特点:
- 它不仅考察对给定事实的记忆,而且测试将这些事实应用于新情况的能力。
- 题目设计使得简单的检索算法或基于词汇共现的方法无法直接得出正确答案。
- 包含了5,167个人类编写的常识性事实,以及扩展版本的问题集,其中每个问题都有对应的核心事实、人类准确性评分、清晰度评分等信息。
研究进展
南京大学的研究团队在其提出的GenMC模型上取得了重要突破,在OpenBookQA评测集中达到了92%的准确率,首次达到了人类水平的表现。GenMC模型通过引入“线索生成器”和“增强阅读器”的双模块架构,有效地结合了编码器的语言理解能力和解码器的语言生成能力,从而更好地处理选择题问答任务。具体来说,当面对一个问题时,GenMC能够生成相关的常识线索,进而辅助理解和对比选项,最终选出正确的答案。
亚利桑那州立大学的一项研究则专注于如何从大量的开放书籍内容中挑选出最有助于解决问题的知识片段。他们提出了使用自然语言归纳的方法来生成查询词,以便更精确地检索缺失的知识点,并通过基于信息增益的重排序来减少干扰信息的影响。这种方法对于解决那些需要多步推理的问题特别有效,因为这类问题往往涉及多个相关但非连续的事实片段。
技术挑战
OpenBookQA任务带来了几个重要的技术挑战:
- 大规模检索:由于开放书籍中的知识点数量庞大(如OpenBookQA提供的1,326条科学事实),找到与特定问题相关的少量关键事实变得非常困难。
- 高质量常识获取:除了书本知识外,回答某些问题还需要广泛的世界观常识,这对现有信息检索系统构成了挑战。
- 复杂推理过程:一些问题可能要求跨多个不同领域进行跳跃式的逻辑推理,这增加了系统的难度。
综上所述,OpenBookQA代表了一种新颖且具有挑战性的问答形式,它鼓励研究人员开发更加智能、灵活的算法,以便更好地模仿人类在学习新知识并将其应用于实践方面的能力。随着更多先进技术和模型的应用,我们期待看到这一领域的持续进步和发展。
标签:问题,GenMC,AI,Open,OpenBookQA,QA,Book,问答,事实 From: https://blog.csdn.net/weixin_32759777/article/details/145096487