首页 > 其他分享 >【NLP-08】NLP的语料库整理

【NLP-08】NLP的语料库整理

时间:2024-06-15 09:31:33浏览次数:20  
标签:NLP www heywhale 语料库 dataset mw https com 08

史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

具体数据集:
baike_qa2019 百科类问答json版
https://aistudio.baidu.com/datasetdetail/107726

DataFountain产品评论观点提取数据集
https://aistudio.baidu.com/datasetdetail/110473

医疗数据
https://github.com/Toyhom/-_Chinese-medical-dialogue-data

TED演讲数据集
https://www.heywhale.com/mw/dataset/5a72b685cec86121fb01998f

女性用户网购服装反馈数据集
https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30

新闻类别数据集
https://www.heywhale.com/mw/dataset/5b582435a711e6001092bcf7

中华古诗数据集
https://www.heywhale.com/mw/dataset/58a65247d70b31669ea2d5d9
该数据集包含唐宋两朝近1.4万古诗人, 接近5.5万首唐诗和26万首宋诗数据

中文敏感词库
https://www.heywhale.com/mw/dataset/5ecf6214162df90036ddfcff

人民日报文章数据集(1979-2010)
https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19

人民日报文章数据集(1949-1978)
https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b

1998人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

知乎大厂offer热门问题
https://www.heywhale.com/mw/dataset/5ffbf2ea3441fd0015397f1f

金融行业问答数据集
https://www.heywhale.com/mw/dataset/5e9588f8e7ec38002d0331b1
77万条金融行业问答数据

知乎拼多多热门问题数据集
https://www.heywhale.com/mw/dataset/5ffbf3173441fd0015397f6f

英文语句文本数据集
https://www.heywhale.com/mw/dataset/5a69a63dafceb51770d6246a

英文歌词数据集
https://www.heywhale.com/mw/dataset/5aab8085afaabd5e93e4e027

英文作文写作文本数据
https://www.heywhale.com/mw/dataset/5a77f29a4c81a9152e663238

中国对联数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d

sentiment140情感分析数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d

2016-2019新闻联播语料库
https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5

6000条周杰伦微博超话数据!
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa

新型冠状病毒

标签:NLP,www,heywhale,语料库,dataset,mw,https,com,08
From: https://blog.csdn.net/qq_38614074/article/details/136841135

相关文章

  • 计算机组成原理:408考研|王道|学习笔记(持续更新~)
    系列目录目录系列目录第一章计算机系统概述1.1计算机的发展(不考)1.2计算机硬件的基本组成1.2.1计算机硬件组成1.2.2各个硬件的工作原理......
  • m2_day08 [File]
    课程内容:特等优先级方法特等优先级方法staticlistRoots():列出当前计算机的所有根目录,返回File[]  *:File[]rts=File.listRoots();​list():列出一个目录当中所有的[文件名字],返回String[]   *:Filedir=newFile(".");Stri......
  • 【408精华知识】史上最全的数据结构代码题总结!三万字长文!!!
    关于数据结构代码题,可以说是让很多同学感到头疼了,书上的代码太繁琐、网上的总结不全面让大家对代码题感到云里雾里,那么这篇文章可能会给大家带来一点启发,因为我自己也是深受代码题的折磨,所以一直想写一篇有关它的总结,希望能够做到全面、简洁,让大家用最快的速度记住代码书......
  • 5.08
    <?xmlversion="1.0"encoding="utf-8"?><ScrollViewxmlns:android="http://schemas.android.com/apk/res/android"xmlns:app="http://schemas.android.com/apk/res-auto"xmlns:tools="http://schemas.androi......
  • 用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类|附代码数据
    全文下载链接:http://tecdat.cn/?p=8640在本文中,我们将看到如何开发具有多个输出的文本分类模型。我们开发一个文本分类模型,该模型可分析文本注释并预测与该注释关联的多个标签。多标签分类问题实际上是多个输出模型的子集。在本文结尾,您将能够对数据执行多标签文本分类。数据集......
  • [1008] PyPDF2, Merge PDF files, Insert PDF files
    Ref:ThePdfMergerClass:mergesmultiplePDFsintoasinglePDF.merge():Mergethepagesfromthegivenfileintotheoutputfileatthespecifiedpagenumber.append():Identicaltothemerge() method,butassumesyouwanttoconcatenateallpages......
  • NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERN
    本文参考自https://github.com/649453932/Chinese-Text-Classification-Pytorch?tab=readme-ov-file,https://github.com/leerumor/nlp_tutorial?tab=readme-ov-file,https://zhuanlan.zhihu.com/p/73176084,是为了进行NLP的一些典型模型的总结和尝试。中文数据集从THUCNews......
  • 为什么在NLP中迟迟没有出现类似CV预训练的范式
    Q:2018年前,迁移学习在NLP中的运用情况如何?我们知道,直到2018年,ULM-FiT、GPT和BERT模型的出现才开启了NLP预训练模型的时代,才真正实现了CV领域那样的迁移学习方法在NLP领域的应用。那么,是不是说2018年前NLP领域就没有迁移学习呢?答案是,这个说法是非常不准确的!就如我们在6.4.3里预......
  • NLP--朴素贝叶斯
    1.在很多时候,我们不能像抛硬币一样通过客观性的方式来得到正反面的概率,而是常常遇到主观性的概率时,我们就不得不提及贝叶斯学派。贝叶斯概率是一种对概率的解释。概率被解释为代表一种具备某种知识状态的合理预期。因此,贝叶斯原理更符合人们的认知习惯。2.朴素表示假设样本的......
  • 【CMake系列】08-debug release特性设置
    在构建的程序版本中,一共有debugreleaseminisizerelwithDebugInfo四种,其中我们主要使用到就是debugrelease两种,这两种存在着一定的不同,debug版本用于调试,有调试信息,方便调试,体积也更大;release版本用于发布,体积更小;在使用cmake针对debugrelease配置时也存在一定的不......