史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。
项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch
具体数据集:
baike_qa2019 百科类问答json版
https://aistudio.baidu.com/datasetdetail/107726
DataFountain产品评论观点提取数据集
https://aistudio.baidu.com/datasetdetail/110473
医疗数据
https://github.com/Toyhom/-_Chinese-medical-dialogue-data
TED演讲数据集
https://www.heywhale.com/mw/dataset/5a72b685cec86121fb01998f
女性用户网购服装反馈数据集
https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30
新闻类别数据集
https://www.heywhale.com/mw/dataset/5b582435a711e6001092bcf7
中华古诗数据集
https://www.heywhale.com/mw/dataset/58a65247d70b31669ea2d5d9
该数据集包含唐宋两朝近1.4万古诗人, 接近5.5万首唐诗和26万首宋诗数据
中文敏感词库
https://www.heywhale.com/mw/dataset/5ecf6214162df90036ddfcff
人民日报文章数据集(1979-2010)
https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19
人民日报文章数据集(1949-1978)
https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b
1998人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3
知乎大厂offer热门问题
https://www.heywhale.com/mw/dataset/5ffbf2ea3441fd0015397f1f
金融行业问答数据集
https://www.heywhale.com/mw/dataset/5e9588f8e7ec38002d0331b1
77万条金融行业问答数据
知乎拼多多热门问题数据集
https://www.heywhale.com/mw/dataset/5ffbf3173441fd0015397f6f
英文语句文本数据集
https://www.heywhale.com/mw/dataset/5a69a63dafceb51770d6246a
英文歌词数据集
https://www.heywhale.com/mw/dataset/5aab8085afaabd5e93e4e027
英文作文写作文本数据
https://www.heywhale.com/mw/dataset/5a77f29a4c81a9152e663238
中国对联数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d
sentiment140情感分析数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d
2016-2019新闻联播语料库
https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5
6000条周杰伦微博超话数据!
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa
新型冠状病毒
标签:NLP,www,heywhale,语料库,dataset,mw,https,com,08 From: https://blog.csdn.net/qq_38614074/article/details/136841135