中文领域确实存在一些与OpenBookQA类似的问答数据集,这些数据集旨在促进机器阅读理解和问答系统的研究和发展。以下是几个值得注意的中文问答数据集:
-
cMedQA 和 cMedQA2:这两个数据集专注于医疗领域的问答任务,包含大量的医学相关问题及其对应的回答。具体来说,cMedQA 包含大约5.4万个问题和约10万个回答,而cMedQA2是其扩展版本,包含了更多的数据。
-
webMedQA:这是一个更大规模的医学在线问答数据集,包含6万个问题和31万个回答,并且每个问题都有类别标签。这个数据集有助于研究如何在医疗领域构建高效的问答系统。
-
CLUE Fine-Grain NER:虽然主要是为命名实体识别任务设计的数据集,但也可以用于更广泛的自然语言处理任务,包括问答。该数据集基于清华大学开源的文本分类数据集THUCTC,经过细粒度命名实体标注,提供了丰富的语义信息。
-
CMRC2018 和 CMRC2019:这是两个中文机器阅读理解(MRC)竞赛的数据集,类似于英文中的SQuAD。CMRC2018是从维基百科提取的真实问题,而CMRC2019则侧重于句子级填空型阅读理解,要求参赛者将候选句子准确地填充回原文中以形成连贯的文章。
-
DuReader系列:由百度提供的一个大型中文MRC数据集,分为多个子集,如DuReader Robust、DuReader YesNo等,涵盖了不同的难度级别和技术挑战。
-
EST-VQA (Chinese + English):这是一个跨语言视觉问答数据集,其中不仅包含英文问题,还特别加入了中文问题,共有15,056个英文问题和13,007个中文问题。该数据集的特点是可以通过图像中的文本回答问题,并且标注了答案对应的矩形边界框作为证据。
-
JEC-QA:这是一个法律领域的问答数据集,来源于中国国家司法考试,模型在这上面的准确率为28%,相比之下专业人士可以达到81%,非专业人士也能达到64%。
-
教育类数据集汇总:AI Studio上有一个项目收集了多个教育领域的深度学习数据集,包括但不限于数学、物理等多个学科,提供了丰富的资源供研究人员使用。
从上述描述可以看出,中文问答数据集覆盖了从医疗到法律再到教育等多个专业领域,它们不仅促进了特定领域的应用研究,也为通用问答系统的开发提供了宝贵的数据支持。例如,在医疗领域,cMedQA及其后续版本为构建精准的医疗咨询助手提供了基础;而在法律领域,JEC-QA则有助于提高法律文献检索及咨询服务的质量。此外,像CMRC这样的公开竞赛数据集鼓励了社区内的广泛参与,推动了技术的进步。对于想要探索开放书籍问答(Open Book QA)的研究人员而言,这些数据集提供了宝贵的资源,使得可以在中文环境中测试和发展新的算法和技术。
标签:中文,DuReader,问答,领域,问题,OpenBookQA,数据 From: https://blog.csdn.net/weixin_32759777/article/details/145096513