首页 > 其他分享 >自然语言处理481个公开数据集和基准任务整理分享

自然语言处理481个公开数据集和基准任务整理分享

时间:2023-06-23 12:33:53浏览次数:49  
标签:NLP Natural 语言 处理 Text 基准 自然语言 481




自然语言处理481个公开数据集和基准任务整理分享_数据集


自然语言处理( Natural Language Processing, NLP)以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解( NaturalLanguage Understanding, NLU)和自然语言生成( Natural LanguageGeneration, NLG)两部分。

自然语言处理包含很多子任务,比如中文自动分词(Chinese word segmentation),词性标注(Part-of-speech tagging),句法分析(Parsing),自然语言生成(Natural language generation),文本分类(Text categorization),信息检索(Information retrieval),信息抽取(Information extraction),文字校对(Text-proofing),问答系统(Question answering),机器翻译(Machine translation),自动摘要(Automatic summarization),文字蕴涵(Textual entailment)等等。

NLP领域非常多,同时又非常多公开数据集和基准任务。本资源整理了大概481个最新的自然语言处理公开数据集和基准任务。

全部数据获取地址:https://datasets.quantumstat.com/

部分数据截图


自然语言处理481个公开数据集和基准任务整理分享_人工智能_02


自然语言处理481个公开数据集和基准任务整理分享_自然语言处理_03


自然语言处理481个公开数据集和基准任务整理分享_人工智能_04


自然语言处理481个公开数据集和基准任务整理分享_深度学习_05


自然语言处理481个公开数据集和基准任务整理分享_Powered by 金山文档_06


自然语言处理481个公开数据集和基准任务整理分享_数据集_07


标签:NLP,Natural,语言,处理,Text,基准,自然语言,481
From: https://blog.51cto.com/u_13046751/6537642

相关文章

  • 66天自然语言处理入门到精通实战计划及资源分享
    自然语言处理是语言学、计算机科学和人工智能的一个领域,涉及计算机和人类语言之间的相互交互,特别是如何编程计算机来处理和分析大量的自然语言数据。本资源整理了自然语言处理所需的各种库、依赖项和模块的等,经过66天的自然语言处理数据实战所需要的所有资源,掌握自然语言处理各......
  • Hugging Face自然语言处理
    课程描述    本课程将使用HuggingFace生态——Transformer、数据集、分词器和加速器——以及HuggingFace主干库,介绍自然语言处理(NLP)课程大纲课程视频截图......
  • 21年最新-自然语言处理系统性入门学习指南中文版分享
        本教程致力于帮助同学们快速入门NLP,并掌握各个任务的SOTA模型。    1. 系统入门方法    2.各任务模型list汇总:文本分类、文本匹配、序列标注、文本生成(todo)、语言模型    3.各任务综述&技巧:文本分类、文本匹配、序列标注、文本生成、语言模型 如何系统地......
  • 中文自然语言处理医疗、法律等公开数据集整理分享
        本文整理了一批医疗、法律等相关的公开数据集,涉及医疗相关的专业词汇分词、问答和医疗实体识别,以及法律文本分类、情感分析和评价相关的数据集。     资源整理自网络,源地址:https://github.com/OYE93/Chinese-NLP-Corpus 分词、词性标注实体识别法律文本分类情感分析......
  • 双语麻省理工-自然语言处理进阶
    课程描述    自然语言处理是如何教计算机理解人类语言的工程艺术和科学。自然语言处理是一种人工智能技术,现在它无处不在—自然语言处理让我们可以和手机通话,使用网络回答问题,在书籍和社交媒体中规划讨论,甚至在人类语言之间进行翻译。由于语言丰富、模棱两可,而且对计算机来......
  • 自然语言处理中数据扩充技术分类整理分享
    本资源整理了自然语言处理中常用的数据扩充技术及相关的论文,按照文本分类、翻译、摘要、问答、序列标记、解析、语法纠错、生成、对话、多模态、减轻偏见、减轻类不平衡、对抗性例子、组合性和自动扩充对论文进行分组。资源整理自网络,源地址:https://github.com/styfeng/DataAug4NLP......
  • 自然语言处理中公平性(fairness)相关论文、会议及资源整理分享
    内容截图......
  • 创造性自然语言生成(NLG)最新研究论文整理分享
    什么是自然语言生成(NLG)?自然语言处理(NLP)分为自然语言理解(NLU)和自然语言生成(NLG),NLU负责理解文本内容而NLG负责根据信息生成文本内容,该信息可以是语音、视频、图片、文字等等。总共分为两种方式:1、文本到语言生成。2、数据到语言生成。NLG的三个级别(Level)1、简单的数据合并,将数据转换......
  • PromptBench:大型语言模型的对抗性基准测试
    PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步,随着这些模型在各种应用中越来越普遍,这个主题也变得越来越重要。研究及其方法论PromptBench采用多种对抗性文本攻击,研究人员生成了4000多个对抗性提......
  • 自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取
    自然语言处理PaddleNLP-信息抽取技术及应用重点:SOP图、BCEWithLogitsLoss基于预训练模型完成实体关系抽取信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组......