首页 > 其他分享 >中文领域确实存在一些与OpenBookQA类似的问答数据集

中文领域确实存在一些与OpenBookQA类似的问答数据集

时间:2025-01-13 18:33:37浏览次数:3  
标签:中文 DuReader 问答 领域 问题 OpenBookQA 数据

中文领域确实存在一些与OpenBookQA类似的问答数据集,这些数据集旨在促进机器阅读理解和问答系统的研究和发展。以下是几个值得注意的中文问答数据集:

  1. cMedQA 和 cMedQA2:这两个数据集专注于医疗领域的问答任务,包含大量的医学相关问题及其对应的回答。具体来说,cMedQA 包含大约5.4万个问题和约10万个回答,而cMedQA2是其扩展版本,包含了更多的数据。

  2. webMedQA:这是一个更大规模的医学在线问答数据集,包含6万个问题和31万个回答,并且每个问题都有类别标签。这个数据集有助于研究如何在医疗领域构建高效的问答系统。

  3. CLUE Fine-Grain NER:虽然主要是为命名实体识别任务设计的数据集,但也可以用于更广泛的自然语言处理任务,包括问答。该数据集基于清华大学开源的文本分类数据集THUCTC,经过细粒度命名实体标注,提供了丰富的语义信息。

  4. CMRC2018 和 CMRC2019:这是两个中文机器阅读理解(MRC)竞赛的数据集,类似于英文中的SQuAD。CMRC2018是从维基百科提取的真实问题,而CMRC2019则侧重于句子级填空型阅读理解,要求参赛者将候选句子准确地填充回原文中以形成连贯的文章。

  5. DuReader系列:由百度提供的一个大型中文MRC数据集,分为多个子集,如DuReader Robust、DuReader YesNo等,涵盖了不同的难度级别和技术挑战。

  6. EST-VQA (Chinese + English):这是一个跨语言视觉问答数据集,其中不仅包含英文问题,还特别加入了中文问题,共有15,056个英文问题和13,007个中文问题。该数据集的特点是可以通过图像中的文本回答问题,并且标注了答案对应的矩形边界框作为证据。

  7. JEC-QA:这是一个法律领域的问答数据集,来源于中国国家司法考试,模型在这上面的准确率为28%,相比之下专业人士可以达到81%,非专业人士也能达到64%。

  8. 教育类数据集汇总:AI Studio上有一个项目收集了多个教育领域的深度学习数据集,包括但不限于数学、物理等多个学科,提供了丰富的资源供研究人员使用。

从上述描述可以看出,中文问答数据集覆盖了从医疗到法律再到教育等多个专业领域,它们不仅促进了特定领域的应用研究,也为通用问答系统的开发提供了宝贵的数据支持。例如,在医疗领域,cMedQA及其后续版本为构建精准的医疗咨询助手提供了基础;而在法律领域,JEC-QA则有助于提高法律文献检索及咨询服务的质量。此外,像CMRC这样的公开竞赛数据集鼓励了社区内的广泛参与,推动了技术的进步。对于想要探索开放书籍问答(Open Book QA)的研究人员而言,这些数据集提供了宝贵的资源,使得可以在中文环境中测试和发展新的算法和技术。

标签:中文,DuReader,问答,领域,问题,OpenBookQA,数据
From: https://blog.csdn.net/weixin_32759777/article/details/145096513

相关文章

  • 《废品机械师抢先版》V0.7.3.b776官方中文学习版
    《废品机械师抢先版》官方中文版https://pan.xunlei.com/s/VODaeeHvgXUAgJbj2b1-3DR6A1?pwd=wwdv#生存模式!在生存模式中,机械师探索一个充满敌人、宝藏和危险机器人的动态生成的开放世界环境!与朋友组队,建立基地来保护自己和贵重物品。最有创造力的人会活下来!挑战模式!在机械......
  • Mac电脑如何安装Xmind 2025 中文思维导图软件?
    Mac电脑如何安装Xmind2025中文思维导图软件?介绍Xmind,是一款出色的思维导图和头脑风暴软件,拥有美观的智能配色方案,便于你轻松理清思路捕捉创意。丰富的导图模板及多种创意整合工具,可助力导图迸发更多活力。还拥有强大演说模式,及提供Markdown、SVG、PNG、PDF、Office等......
  • Mac电脑如何安装 Axure RP 10 原型设计软件 中文激活版?
    Mac电脑如何安装AxureRP10原型设计软件中文激活版?介绍AxureRP10forMac,是一个专业的原型设计和线框图工具,广泛应用于用户体验设计(UX)和用户界面设计(UI)领域,为设计师、产品经理、开发人员提供了强大的功能,帮助其在项目早期阶段快速创建互动原型和详细的设计文档。软......
  • Mac电脑如何安装Xmind 2025 中文思维导图软件?
    Mac电脑如何安装Xmind2025中文思维导图软件?介绍Xmind,是一款出色的思维导图和头脑风暴软件,拥有美观的智能配色方案,便于你轻松理清思路捕捉创意。丰富的导图模板及多种创意整合工具,可助力导图迸发更多活力。还拥有强大演说模式,及提供Markdown、SVG、PNG、PDF、Office等......
  • Mac电脑如何安装 Axure RP 10 原型设计软件 中文激活版?
    Mac电脑如何安装AxureRP10原型设计软件中文激活版?介绍AxureRP10forMac,是一个专业的原型设计和线框图工具,广泛应用于用户体验设计(UX)和用户界面设计(UI)领域,为设计师、产品经理、开发人员提供了强大的功能,帮助其在项目早期阶段快速创建互动原型和详细的设计文档。软......
  • WINRAR自动查找官方最新中文无广告版并下载脚本
    importrequestsimportrefromdatetimeimportdatetime,timedelta#目标网页URLurl='https://www.rarlab.com/'#发送HTTPGET请求获取网页内容response=requests.get(url)response.raise_for_status()#确保请求成功#使用正则表达式查找连接文字为“C......
  • .NET AI 开发人员库 --AI Dev Gallery简单示例--问答机器人
    资源及介绍接上篇nuget引用以下组件效果展示:内存和cpu占有:代码如下:路径换成自己的模型路径模型请从上篇文尾下载internalclassProgram{privatestaticCancellationTokenSource?cts;privatestaticIChatClient?model;privatestaticList<M......
  • 移植Android百度OCR:百度超轻量级中文OCR Android模型整合到自有工程中的问题与解决
    文章目录移植百度超轻量级中文OCR模型到Android项目的踩坑经历步骤一:下载并准备模型工程目录简介TestInferOcrTask步骤二:问题总结软件闪退识别结果为空log日志一直提示权限未赋予步骤三解决方案总结参考资料移植百度超轻量级中文OCR模型到Android项目的踩坑经历......
  • 提升长文本问答质量:让AI生成真实可信的长篇答案
    人工智能咨询培训老师叶梓转载标明出处RAG通过结合搜索引擎检索的相关信息,显著提升了模型在知识密集型任务中的表现。然而,现有的RAG模型在生成长文本答案时存在两个主要问题:一是生成的答案缺乏事实性(factuality),即生成的内容与检索到的参考信息不完全一致;二是生成的答案逻辑结......
  • [Linux]Arch 中文输入法
    ArchLinux可以安装安装fcitx5 实现输入中文,具体步骤如下sudopacman-Sfcitx5-imsudopacman-Sfcitx5-chinese-addonsfcitx5-rime其中fcitx5-chinese-addons 包含了大量中文输入方式:拼音、双拼、五笔拼音、自然码、仓颉、冰蟾全息、二笔等fcitx5-rime 对经典......