1 自然语言的特点
线性:⾃然语⾔呈现为⼀种线性的符号序列。
层次性:⾃然语⾔内部存在层次结构。
歧义性:同⼀个⾃然语⾔句⼦存在多种不同的理解。
演化性:⾃然语⾔随着时代不断演化。
2 自然语言的典型任务
2.1 中文分词
输入:⼀段不带空格的汉语⽂本。
输出:以空格隔开词语的汉语⽂本。
高效的中文词法分析工具包:THULAC
2.2 词性标注
输入:词语的序列。
输出:对应的词性序列。
也可以使用THULAC工具分析
2.3 文本分类
输入:一段文本
输出:该文本的类别
常用工具:languagetech
2.4 语言模型
输入:词语序列。
输出:预测下一个词。
2.5 语法改错
输入:一段可能包含语法错误的文本。
输出:识别出文本中的语法错误并进行修改。
常用工具:gingersoftware
2.6 句法分析
输入:一个自然语言句子。
输出:句子的句法结构(短语结构或依存结构)。
2.7 拼音输入法
输入:拼音符号的序列。
输出:汉字序列。
2.8 情感分析
输入:自然语言文本
输出:情感的类别。
2.9 语义角色标注
输入:自然语言句子
输出:标注句子的谓语以及相关语义角色
2.10 语义分析
输入:自然语言句子。
输出:该句子的语义表示形式。
2.11 指代消解
输入:自然语言文本。
输出:文本中代词所指的角色。
2.12 机器翻译
输入:一段源语言文本。
输出:一段目标语言文本。
2.13 文本摘要
输入:一段自然语言长文本。
输出:一段能概括长文本核心意思的短文本。
常用工具:languagetech
2.14 对联生成
输入:对联的上联
输出:对联的下联以及横批
2.15 诗词生成
输入:诗句的关键词。
输出:五绝,七绝,律诗或者词。
2.16 问答系统
输入:一个自然语言问题。
输出:问题的答案。
2.17 对话系统
输入:一个自然语言句子。
输出:另一个自然语言句子作为回复。
2.18 图像标题生成
输入:一张图像。
输出:一个自然语言句子,对该图像内容的描述。
自然语言处理发展小结
理性主义方法和经验主义方法齐头并进。
理性主义:形式文法,专家系统,知识图谱。
经验主义:隐马尔科夫模型,最大熵模型,神经网路。
自然语言处理存在的挑战
模型:过于依赖人工设计。
数据:标注数据严重不足。
训练:训练成本过于高昂。
推断:难以保证可靠可信。
标签:输出,文本,处理,概述,序列,自然语言,句子,输入 From: https://www.cnblogs.com/RedNoseBo/p/17137218.html