首页 > 其他分享 >NLP QA数据集

NLP QA数据集

时间:2023-11-21 11:24:54浏览次数:34  
标签:NLP com 语料库 摘要 QA https CNN 数据

NLP QA数据集

数据文档

背景描述

CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要,每个要点看成是一个句子。

数据说明

用于单文本摘要的CNN/DM数据集规模:

训练集大小: 286817
验证集大小: 13368
测试集大小: 11487
训练集中平均摘要句子数: 3.72

数据来源

https://cs.nyu.edu/~kcho/DMQA/

引用格式

@misc{dataset_916137,
title = { CNN/Daily Mail新闻数据集 },
author = { KOTO },
howpublished = { \url{https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12} },
year = { 2020 },
}

https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
https://zhuanlan.zhihu.com/p/137689404
https://github.com/hellotransformers/Natural_Language_Processing_with_Transformers/blob/main/chapter6.md
https://blog.csdn.net/qq_25222361/article/details/78694617
https://zhuanlan.zhihu.com/p/504279252

标签:NLP,com,语料库,摘要,QA,https,CNN,数据
From: https://www.cnblogs.com/michaelcjl/p/17846174.html

相关文章

  • 如何通过数据安全交换一体机 实现安全、高效的跨网文件交换?
    随着网络技术的演进,网络攻击和数据窃取风险也随之增加,企业面临更加复杂的网络环境,因此需要更有力的网络保护措施,不少企业选择进行网络隔离来个隔绝外部有害攻击。网络隔离后,依旧存在文件交换需求,从交换系统部署方式来看,主流的有纯软版本和一体机版本,那么,数据安全交换一体机对企业......
  • 解锁数据库运维秘籍:掌握AntDB-T动态共享内存,提升进程间通信效率
    动态共享内存是AntDB数据库通信的重要手段,本文主要阐述AntDB-T数据库动态共享内存的实现原理、实现方式与使用方法。AntDB-T数据库是一款企业级通用分布式关系型数据库,其数据库内核是基于进程模型实现的,因此进程间通信(IPC)是实现分布式架构间进行任务协作和数据共享的关键。实现进......
  • javap获取jni 对应数据类型
    先用javac生成*.class文件,然后javap-cCallJni.class更多帮助:javap-help......
  • 硕迪数据分析系统功能使用怎么样?
    硕迪数据分析系统功能使用怎么样?1、硕迪数据分析系统做大屏有什么亮点吗?2、硕迪数据分析系统部署方不方便?3、硕迪数据分析系统支不支持Liunx?4、硕迪数据分析系统能不能完成复杂的报表?5、硕迪数据分析系统大屏的图表样式多不多?6、硕迪数据分析系统都支持那些数据源连接呢?—————......
  • 非结构化文档提取为excel结构化数据
    一键批量将非结构化文件(Word、PDF、Txt、PPT)按关键字提取为结构化文件(Excel),免安装下载即用,防泄密软件,可离线断网使用官网:http://6laohu.com下载 非结构化文档提取器 无需安装直接运行,可以看到软件界面,按界面上简单的操作步骤来操作即可将文件夹及子文件夹下所有非结构......
  • 如何做一个优秀的数据分析项目?
    数据分析项目的成功往往取决于项目的规划、数据收集、清理、分析和结果呈现。以下是详细的步骤和技巧,以确保您可以完成一个优秀的数据分析项目。1.制定项目目标和范围在开始项目之前,确定项目的具体目标和范围至关重要。这将为整个项目提供方向,并帮助您定义需要采取的行动。2......
  • 数据分析方法之一:标签分析法
    标签分析法(TagAnalysisMethod)是一种常用的数据分析方法,它基于对数据中的标签进行统计和分析,以揭示数据的特征和关联。标签分析法广泛应用于社交媒体数据、商品评论、用户标记等领域,它可以帮助我们了解用户行为、产品特征以及社交关系等方面的信息。理论基础标签分析法的核心......
  • php提前返回数据,后面代码继续执行封装函数
    /*中断并返回数据,后面程序继续执行,避免用户等待(immediate)*可用于返回值后,继续执行程序,但程序占得所以自由没有释放,一致占用,务必注意,最好给单独脚本执行*@paramstring|array$data字符串或数组,数组将被转换成json字符串*@paramintval$set_ti......
  • mysql 统计所有表的数据量
    在mysql里是可以查询​​information_schema.tables​​这张表的,然后获取我们想要的信息:SELECTtable_rows,table_nameFROMinformation_schema.tablesWHERETABLE_SCHEMA='mysql'andtable_namenotin('db','func')ORDERBYtable_rowsDESC;转自:https://z......
  • 数据驱动能源未来:发电厂地区可视化的实用性与优势
    随着全球能源消费的不断增长,电力需求也在不断上升。作为能源行业的重要组成部分,现代发电厂扮演着不可替代的角色。而现代发电厂的数据管理和监控系统,则是确保其安全、高效、稳定运行的重要手段。在这个背景下,现代发电厂地区可视化应运而生,成为了电力行业的新趋势。 什么是现代......