首页 > 其他分享 >中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

时间:2023-06-21 20:07:34浏览次数:40  
标签:中文 自然语言 xyz chinesenlp 文本 State https 分享


中文自然语言处理开放任务介绍、数据集、当前最佳结果分享_语言模型

    本文整理了中文自然语言处理相关开放任务,详细任务说明,数据集,相关评价指标,以及当前最佳结果整理。涉及指代消歧 ,对话状态管理,情绪分类,实体链接 ,实体标注 (Entity Tagging),语言模型 ,机器翻译 ,词性标注 ,问答,关系抽取等任务。

    本文内容整理自滴滴NLP实验室Wiki:https://chinesenlp.xyz/#/

 

目录

        指代消歧 (Co-reference Resolution)

        对话状态管理 (Dialogue State Management)

        情绪分类 (Emotion Classification)

        实体链接 (Entity Linking)

        实体标注 (Entity Tagging)

        语言模型 (Language Modeling)

        机器翻译 (Machine Translation)

        词性标注 (POS Tagging)

        问答 (Question Answering)

        关系抽取 (Relation Extraction)

        情感分析 (Sentiment Analysis)

        繁简转化 (Simplified/traditional Conversion)

        拼写纠正 (Spell Correction)

        文本摘要 (Text Summarization)

        话题分类 (Topic Classification)

        音译 (Transliteration)

        词向量 (Word Embedding)

        中文分词 (Word Segmentation)

 

中文指代消歧 (Co-reference Resolution)

背景

    指代消歧 (co-reference resolution) 是指标识一段文本以及将这些文本与其他具有相同指代内容的文本连接起来。有时这些文本片段的长度为0,表示省略了的代词 (pronouns) 或是名词 (nouns)。

示例

    输入:

    我的姐姐给我她的狗。很喜欢.

    输出:

    [我]0的[姐姐]1给[我]0[她]1的[狗]2。[]0很喜欢[]2.

标准评价指标

    以下三种精确率 (Precision) /召回率 (Recall) 得到的F1值 (F1-scores) 的平均值:

    · MUC.

    · B-cubed.

    · Entity-based CEAF.

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/co-reference_resolution

 

中文对话状态管理 (Dialogue State Management)

背景

    在面向任务的对话系统中,对话状态管理(dialogue state management)系统将用户意图 (user intent) 作为输入,与知识库交互,并预测系统的下一个动作 (action)。自然语言理解组件(NLU)负责分析用户意图,该组件有时与对话状态管理(DM)系统结合成为一个单一的端到端学习组件。系统的下一个动作 (action) 通常包括两种类型:对话动作类型 (dialogue act type) 和插槽值对 (slot-value pairs)。给定下一个系统动作,自然语言生成组件(NLG)将生成对用户的回复。

标准评价指标

    分类准确率 (Accuracy):

    · 句子级别.

    · 对话级别。一个对话是正确的当且仅当该对话中的所有句子都被准确的预测了。

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/dialogue_state_management

 

中文情绪分类 (Emotion Classification)

 背景

    情绪分类 (Emotion Classification) 旨在识别叙述者的情绪状态。与情感分析 (Sentiment Analysis) 不同的是,情感分析着重于叙述者对其叙述对象的观点。

示例

    输入:

    讨厌!你骗我!

    输出:

    生气

标准评价指标

    · 分类准确率(Accuracy).

    · F1值.

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/emotion_classification

 

中文实体链接 (Entity Linking)

   背景

    实体链接识别文本片段并将它们与标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。文本片段除了专有名词 (proper noun) (例如"Bob") 外,还包括指代名词 (nominals), 例如 "the player"。

示例

    输入:

    美国国防部长马蒂斯说,与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行,但2019年将“缩小规模”。

    输出:

    [美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说,与[首尔]wiki/Seoul举行的名为“秃鹫”的军事演习每年春天在[韩国]wiki/South_Korea进行,但2019年将“缩小规模”。

   标准评价指标

    · F-score: 正确识别实体并链接到知识库中正确的概念。

    · 在知识库中找不到对应概念的实体 (NIL mentions) 需要被聚类, 并用CEAF(B-cubed的引申指标)指标评价聚类效果。

    TAC-KBP / EDL 2017

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/entity_linking

 

中文实体标注 (Entity Tagging)

    背景

    实体标注 (Entity Tagging) 任务是识别实体概念在文本中的提及 (entity mention) 并且标注对应的类型,比如人(PER),组织(ORG),地缘政治实体(GPE),地点(LOC)等。文本提及除了专有名词 (proper noun) (例如"Bob") 外,还包括指代名词 (nominals), 例如 "the player"。

    示例

    输入:

    美国国防部长马蒂斯说,与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行,但2019年将“缩小规模”。

    输出:

    [美国]GPE国防部长[马蒂斯]PER说,与[首尔]GPE举行的名为“秃鹫”的军事演习每年春天在[韩国]GPE进行,但[2019年]TMP将“缩小规模”。

    标准评价指标

    F-score: 选择正确的文本提及(“mention”)并指定正确类型的。

  数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/entity_tagging

 

中文语言模型 (Language Modeling)

  背景

    语言模型 (language model) 可以对计算任何的文本字符串或语料库的概率。好的语言模型对于未观察过的流畅的文本应该能输出一个高概率或者低混淆度(perplexity),反之则输出低概率。

    示例

    输入:

    我们体育界是有信心做到为北京2022年冬季奥运会提供坚实的人才基础

    输出:

    60.2 混淆度(perplexity)

标准评价指标

    · 混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现。对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度 (Perplexity)为 2^{-(1/N) log2 P(S)}。其中字符串长度单位可以是字符 (characters) 也可以是单词 (words).

    o 语言模型通常以递增方式生成概率, 每个词 (token) 基于左侧的信息得到一个 P(S_i),对每个P(S_i)取对数并求和即得到混淆度 (Perplexity)公式: 2^{-(1/N) sum_i log2 P(S_i)}.

    · 另一个相关的评价指标是 bits-per-character (bpc),当计算基于字符长度单位的混淆度 (Perplexity)时,Perplexity = 2^bpc.

    · 英文语言模型有很成熟的榜单 (leaderboard) 可以追踪最新的结果here . 英文语言模型相关的标准数据集通常都遵循着以下规范:

    o 训练集 (Train)/开发集 (dev)/测试集 (test)的标准划分规范

    o 语言模型预测的单位(通常是单词而不是字符)

    o 固定的 word tokenization

    o 处理未在词表中出现的单词 (out-of-vocabulary (OOV))

 数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/language_modeling

 

中文机器翻译 (Machine Translation)

背景

    机器翻译(MT)将文本从一种语言转换翻译为另一种语言。这里, 我们专注于源语言(source language)或目标语言 (target language)为中文的任务。

 示例

    输入:

    美中两国可能很快达成一个贸易协议。

    输出:

    The United States and China may soon reach a trade agreement.

    标准评价指标

    · 直接评估(人工评判)。Amazon Mechnical Turk上的标注人员会看到一个系统生成的翻译和一个人工翻译,然后回答这样一个问题:“系统翻译有多么精确的表达了人工翻译的含义?”

    · Bleu score (Papineni et al 02 ).

    o Bleu-n4r4: 词级别 {1,2,3,4}-gram 匹配, 与4条人工参考翻译译文比较

    § brevity penalty: 一个系数,用来惩罚长度短于参考翻译的机器翻译结果。

    § 标准的Bleu计算流程会先对参考译文和机器翻译结果进行符号化 (tokenizition)。

    § 如果中文是目标 (target) 语言, 则使用字符级别 {1,2,3,4}-gram匹配。

    § 当只有1条人工参考翻译译文时使用Bleu-n4r1评估。

    o 标准Bleu有很多重要的变种:

    § 大小写敏感 vs. 大小写不敏感

    § Brevity penalty 触发条件: 当机器翻译结果短于最短的参考译文 (reference) 或者短于最接近的参考译文 (reference)。

    · NIST. Bleu的一种变体,赋予少见的n-gram更高的权重。

    · TER (Translation Edit Rate). 计算机器翻译与人工参考译文之间的编辑距离 (Edit distance)。

    · BLEU-SBP ((Chiang et al 08)[http://aclweb.org/anthology/D08-1064] ). 解决了Bleu的解耦(decomposability) 问题,在Bleu和单词错误率取得一个折中。

    · HTER. 修改为一个良好的翻译所需要的人工编辑次数 (the number of edits)。

    数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/machine_translation

 

中文词性标注 (Part-of-speech tagging)

 背景

    词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。

 示例

    输入:

    快速 的 棕色 狐狸 跳过 了 懒惰 的 狗

    输出:

    [快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN

标准评价指标

    在联合分割标注的任务 (the joint segmentation and tagging task) 中, 计算基于词级别 (word-level) 的精确率 (Precision)和召回率 (Recall),以及F1-score.

 数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/pos_tagging

 

中文问答 (Question Answering)

 背景

    问答 (question answering) 任务试图回答自然语言形式提出的问题. 答案有可能来自结构化的数据库中,也可能来自非结构化的文本片段。

示例

    输入:

    世界上最大的国家是什么?

    输出:

    俄国

    标准评价指标

    · 典型的指标包括了准确性 (accuracy), 完全匹配 (exact match) 以及F1-score。

    · 有些任务要求系统能在提供的文本中定位答案,而不是返回一个包含答案的字符串。

    · 某些任务的测试集中包括了一些无法从提供的数据库或者文本中给出答案的问题,模型需要返回“不存在答案”才能得分。

 数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/question_answering

 

中文关系提取 (Relation Extraction)

    背景

    给定两个实体 (entity),识别它们的关系并对关系进行分类。

    示例

    输入:

    [李晓华]和她的丈夫[王大牛]前日一起去[英国]旅行了。

    输出:

    (entity1: 李晓华, entity2: 王大牛, relation: 夫妻)

    `

  标准评价指标

    精确率 (Precision), 召回率 (Recall), F1

 

 数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/relation_extraction

 

中文情感分析 (Sentiment Analysis)

 背景

    情感分析 (Sentiment Analysis) 从文本中识别提取文本的主观态度信息。

示例

    输入:

    总的感觉这台机器还不错,实用的有:阴阳历显示,时间与日期快速转换, 记事本等。

    输出:

    正向 (Positive)

标准评价指标

    准确度 (Accuracy)

    · 在测试集上正确分类的样本的百分比。

    F1-score

    · 准确率和召回率的一种加权平均指标。

    · Wiki百科 

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/sentiment_analysis

 

中文繁简转化 (Simplified/Traditional Conversion)

背景

    简体中文/繁体中文转换将简体中文字符转换为繁体中文字符,或反之。

示例

    输入:

    苟利国家生死以,岂因祸福避趋之.

    输出:

    苟利國家生死以,豈因禍福避趨之.

 标准评价指标

    准确率(Accuracy)

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/simplified_traditional_Chinese_conversion

 

中文拼写纠错 (Spell Correction)

背景

    拼写纠错 (Spell Correction)任务的目标是在文本中查找并更正拼写错误 (typographical errors).

  示例

    输入:

    1986年毕业于国防科技大学计算机应用专业,获学时学位。

    输出:

    1986年毕业于国防科技大学计算机应用专业,获学士学位。

    (时 -> 士)

标准评价指标

    · 识别(Detection): 识别一段文字中所有拼写错误字符的位置,应该做到与正确参考 (gold standard) 相同.

    · 纠正(Correction): 识别的错误字符以及纠正错误字符,应与正确参考 (gold standard)相同.

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/spell_correction

 

中文文本摘要 (Text Summarization)

背景

    文本摘要任务的输入是长的文本文档,任务的目标是将较长的文本转换成简短,流畅而准确的文本摘要。

示例

    输入:

     较早进入中国市场的星巴克, 是不少小资钟情的品牌。相比在美国的平民形象,星巴克在中国就 显得“高端”得多。用料并无差别的一杯中杯美式咖 啡,在美国仅约合人民币12元,国内要卖21元,相当 于贵了75%。第一财经日报

    输出:

    媒体称星巴克美式咖啡售价中国比美国 贵75%。

标准评价指标

    ROUGE将自动生成的摘要与参考摘要进行比较, 其中ROUGE-1衡量unigram匹配情况,ROUGE-2衡量bigram匹配,ROUGE-L记录最长的公共子序列。ROUGE指标的计算可以以字符 (character) 为单位也能以字 (word) 为单位。

    具体实现:

    · http://www.berouge.com/Pages/default.aspx 

    · https://github.com/lancopku/superAE/blob/master/data/script/PythonROUGE.py 

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/text_summarization

 

中文话题分类 (Topic Classification)

  背景

    话题分类 (Topic Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛,类似于流派(新闻,体育,艺术),但有时也会有像标签 (hashtag) 一样的细粒度。

 示例

    输入:

    [国足]有信心了 中国国奥队取得热身赛三连胜

    输出:

    体育

    标准评价指标

    · 准确率 (Accuracy): 正确分类的样本的百分比。

    THUCNews.

    新浪新闻RSS订阅频道数据,数据时间范围从2005年到2011年,其中包含7400万条新闻文件(2.19 GB),14个主题,全部采用UTF-8纯文本格式。

 

  评价指标

    · Accuracy

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/topic_classification

 

中文音译 (Transliteration)

背景

    音译任务通常在使用不同字母和声音系统的语言之间翻译专有名词和技术术语。

示例

    输入:

    约翰伍兹 (yue han wu zi)

    输出:

    John Woods

 标准评价指标

    · Word Accuracy in Top-1 (ACC)

    · Fuzziness in Top-1 (Mean F-score)

    · Mean Reciprocal Rank (MRR)

    · MAP measures precision

    数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/transliteration

 

中文词向量 (Word Embeddings)

背景

    词向量 (Word Embeddings)通过对大量的文本语料进行训练,对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务。在中文任务中,词向量的单位除了词 (word) 以外也可以是字 (character) 或者 sub-character.

示例

    输入:

    大文本语料库

    输出:

    vec(“查询”) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]

标准评价指标

    词向量的表现既可以进行内部任务 (intrinsically) 评估(比如观察相似的单词是否具有相近的词向量),也可以通过外部任务 (extrinsically) 的方式评估,既通过使用新的词向量能为下游NLP任务(例如情感分析)的结果带来多少提升。

    内部任务评估(intrinsic evaluation)主要关注:

 

    词语相关性 (word relatedness):在中文词汇相似性数据集wordsim-240和wordsim-296(英语相关资源的翻译)上,人类标记分数与词向量的內积之间的Spearman correlation (⍴)。

 

    单词类比 (word analogy):评估单词类比任务的准确率(例如:“男人:女人::父亲:X”,其中X由余弦相似性 (cosine distance) 选择)单词类比任务通常包括以下类型的词(1)国家首都(2)省份(3)家庭关系 (family relationships)

 

    外部任务评估(extrinsic evaluation):

    · 在中文情感分析 (sentiment analysis) 任务上的准确率 (Accuracy)

    · 在中文命名实体识别 (named entity recognition) 任务上的F1 score

    · 在中文词性标注 (part-of-speech tagging) 任务上的准确率 (Accuracy)

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/word_embedding

 

 

中文分词 (Word Segmentation)

背景

    中文里每个汉字即为一个字符 (character)。一个单词通常由一个或多个字符 (character) 组成。单词之间没有空格。分词 (segmentation) 是将一系列无空格间隔字符串分割成一系列单词的过程。

    示例

    输入:

    亲 请问有什么可以帮您的吗?

    输出:

    亲 请问 有 什么 可以 帮 您 的 吗 ?

 标准评价指标

    单词级别的 F1-score:

    Gold: 共同 创造 美好 的 新 世纪 —— 二○○一年 新年 贺词

    Hypothesis: 共同 创造 美 好 的 新 世纪 —— 二○○一年 新年 贺词

    Precision = 9 / 11 = 0.818

    Recall = 9 / 10 = 0.9

    F1 = 0.857

 

数据集及State-of-art地址:https://chinesenlp.xyz/#/zh/docs/word_segmentation


标签:中文,自然语言,xyz,chinesenlp,文本,State,https,分享
From: https://blog.51cto.com/u_13046751/6531086

相关文章

  • 8月最新-《可解释机器学习-Christoph Molnar》-新书分享
        机器学习在改进产品、过程和研究方面拥有很大的潜力。但是机器学习模型预测的结果通常是不可解释的,这也是机器学习技术最大不足。本书主要讲解如何搭建机器学习模型,并使他们的预测结果是可解释的。 (文末附本书免费下载地址)    本书首先讲解可解释性的基本概念,然后讲......
  • 100+前沿“拿来即用”开源深度学习模型汇总分享
        本文整理了Tensorflow、Pytorch等开源深度学习模型,可以非常方便供用户调用。比如Pytorch仅需一行代码(torch.hub.load())调用ResNet,ResNext,BERT,GPT,PGAN,Tacotron,DenseNet,MobileNet等最新模型。推荐给大家使用。 PyTorchHub    链接:https://pytorch.org/......
  • 深度学习-强化学习-图神经网络-自然语言处理等AI课程超级大列表-最新版
        本篇文章内容整理自网络,汇集了大量关于深度学习、强化学习、机器学习、计算机视觉、语音识别、强化学习、图神经网络和自然语言处理相关的各种课程。之前分享过一次,经过一年的更新,又补充了很多2019、2020年的最新资源,补充了一些主题,提供给不间断学习,充实自己的朋友,借下面Hi......
  • 应用案例分享 | 基于高精度三维机器视觉的汽车轮胎装配系统应用
    Part.1 行业背景汽车轮胎装配是汽车制造和维修过程中的关键环节,随着汽车产量的增加和市场竞争的加剧,汽车制造商对轮胎装配的自动化需求也越来越高。如今,汽车制造商们也正努力积极的提升其工艺技术水平,以应对不断增长的市场需求,希望采用更先进、更灵活、更智能的装配技术来提高汽车......
  • 亚马逊卖家如何获得A+页面?武汉星起航分享优化策略
    随着亚马逊(Amazon)成为全球最大的在线零售平台之一,卖家们越来越注重产品页面的优化,以提升销售和吸引消费者的注意力。其中,A+页面作为亚马逊上产品展示的最高级别,为卖家提供了更多的自定义和品牌展示的机会。那么,亚马逊卖家如何才能获得A+页面呢?以下是一些关键策略和注意事项。首先,成......
  • 【资料分享】Zynq-7010/7020工业评估板规格书(双核ARM Cortex-A9 + FPGA,主频766MHz)
    1评估板简介创龙科技TLZ7x-EasyEVM是一款基于XilinxZynq-7000系列XC7Z010/XC7Z020高性能低功耗处理器设计的异构多核SoC评估板,处理器集成PS端双核ARMCortex-A9+PL端Artix-7架构28nm可编程逻辑资源,评估板由核心板和评估底板组成。核心板经过专业的PCBLayout和高低温测试验证......
  • 发言稿怎么生成,发言稿生成软件分享!​
    发言稿怎么生成,发言稿是指在某些正式场合下,需要发言者提前准备好的演讲稿。它通常包括演讲者要讲述的内容、演讲的主题、演讲的目的和意义等。发言稿是发言者在演讲时的重要参考材料,能够让演讲者更好地组织语言,准确地表达自己的想法和观点,下面感兴趣的小伙伴一起来看看具体什么软件......
  • 自然语言处理技术在自然语言生成中的应用
    目录标题:《11.《自然语言处理技术在自然语言生成中的应用》》背景介绍自然语言处理技术(NLP)是一种人工智能技术,旨在使计算机理解和生成自然语言。NLP技术可以用于许多不同的应用场景,如机器翻译、文本摘要、情感分析、语音识别等。在自然语言生成方面,NLP技术可以用于生成自然语......
  • 好的,以下是我为您拟定的自然语言处理(NLP)领域的100篇热门博客文章标题,以逻辑清晰、结
    目录1.引言2.技术原理及概念3.实现步骤与流程4.应用示例与代码实现讲解1.机器翻译2.文本分类3.情感分析5.优化与改进6.结论与展望好的,以下是我为您拟定的自然语言处理(NLP)领域的100篇热门博客文章标题,以逻辑清晰、结构紧凑、简单易懂的专业技术语言:1.《自然语言处理(NLP)......
  • 机器翻译中的跨语言自然语言生成与对话系统
    目录《机器翻译中的跨语言自然语言生成与对话系统》随着机器翻译的普及,跨语言自然语言生成和对话系统的需求也越来越广泛。其中,机器翻译对于不同语言之间的交流起到了至关重要的作用,但机器翻译的质量和效率也深受用户的苦恼。本文将介绍如何使用深度学习技术来实现跨语言自然语言生......