首页 > 其他分享 >自然语言处理概述

自然语言处理概述

时间:2023-02-20 14:22:43浏览次数:31  
标签:输出 文本 处理 概述 序列 自然语言 句子 输入

1   自然语言的特点

线性:⾃然语⾔呈现为⼀种线性的符号序列。

层次性:⾃然语⾔内部存在层次结构。

歧义性:同⼀个⾃然语⾔句⼦存在多种不同的理解。

演化性:⾃然语⾔随着时代不断演化。

 

2   自然语言的典型任务

2.1  中文分词

输入:⼀段不带空格的汉语⽂本。

输出:以空格隔开词语的汉语⽂本。

高效的中文词法分析工具包:THULAC

2.2  词性标注

输入:词语的序列。

输出:对应的词性序列。

也可以使用THULAC工具分析

2.3  文本分类

输入:一段文本

输出:该文本的类别

常用工具:languagetech

2.4  语言模型

输入:词语序列。

输出:预测下一个词。

2.5  语法改错

输入:一段可能包含语法错误的文本。

输出:识别出文本中的语法错误并进行修改。

常用工具:gingersoftware

2.6  句法分析

输入:一个自然语言句子。

输出:句子的句法结构(短语结构或依存结构)。

2.7  拼音输入法

输入:拼音符号的序列。

输出:汉字序列。

2.8  情感分析

输入:自然语言文本

输出:情感的类别。

2.9  语义角色标注

输入:自然语言句子

输出:标注句子的谓语以及相关语义角色

2.10  语义分析

输入:自然语言句子。

输出:该句子的语义表示形式。

2.11  指代消解

输入:自然语言文本。

输出:文本中代词所指的角色。

2.12  机器翻译

输入:一段源语言文本。

输出:一段目标语言文本。

2.13  文本摘要

输入:一段自然语言长文本。

输出:一段能概括长文本核心意思的短文本。

常用工具:languagetech

2.14  对联生成

输入:对联的上联

输出:对联的下联以及横批

2.15  诗词生成

输入:诗句的关键词。

输出:五绝,七绝,律诗或者词。

2.16  问答系统

输入:一个自然语言问题。

输出:问题的答案。

2.17  对话系统

输入:一个自然语言句子。

输出:另一个自然语言句子作为回复。

2.18  图像标题生成

输入:一张图像。

输出:一个自然语言句子,对该图像内容的描述。

自然语言处理发展小结

理性主义方法和经验主义方法齐头并进。

理性主义:形式文法,专家系统,知识图谱。

经验主义:隐马尔科夫模型,最大熵模型,神经网路。

 

自然语言处理存在的挑战

模型:过于依赖人工设计。

数据:标注数据严重不足。

训练:训练成本过于高昂。

推断:难以保证可靠可信。

 

 

标签:输出,文本,处理,概述,序列,自然语言,句子,输入
From: https://www.cnblogs.com/RedNoseBo/p/17137218.html

相关文章

  • 泛型概述
    泛型概述Author:MsuenbDate:2023-02-20所谓泛型,就是允许在定义类、接口时通过一个标识表示类中某个属性的类型或者是某个方法的返回值及参数类型。这个类型参数将......
  • 项目一众筹网03_5_RBAC(权限管理)模型-概述
    系列文章目录文章目录​​系列文章目录​​​​18-RBAC模型-概述​​​​19-RBAC模型-多对多在数据库的表示​​​​20-RBAC模型-RBAC0~3​​​​21-RBAC模型-RBAC模型的数......
  • golang 入门(十) 异常处理
    1、recovery捕获异常代码在运行的时候,总会遇到错误。有的时候我们会希望程序遇到错误以后继续运行后面的流程,而不是直接异常退出。在Python中,使用tryexcept组合实现这种需......
  • 00022.06 IO的概述
    系列文章目录文章目录​​系列文章目录​​​​一、IO是什么?​​​​二、IO的分类​​​​三、IO流有四大抽象的基类/超类/父类​​​​总结​​一、IO是什么?I:input,输入O:o......
  • 00013.07 内部类概述与分类以及匿名内部类的讲解
    系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章Python机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参......
  • 00022.15 序列化与反序列化的概述二(序列化版本ID:serialVersionUID)
    序列化版本目录文章目录​​序列化版本目录​​​​前言​​​​一、是什么?​​​​解决方式1;修改本地的serialVersionUID为流中的serialVersionUID​​​​解决方式二(推荐):......
  • 00022.14 对象的序列化和反序列化的概述:ObjectOutputStream和ObjectInputStream
    对象的序列化和反序列化目录ObjectOutputStream和ObjectInputStream文章目录​​对象的序列化和反序列化目录​​​​前言​​​​一、对象的序列化和反序列化是什么?​​​......
  • Spring-Boot捕获处理异常并让事务回滚
    1.不捕获异常可以正常回滚@Transactional(rollbackFor=Exception.class)@OverridepublicbooleantestTransaction(){baseMapper.updateById(......
  • js树状结构数据处理
    使用了两个for循环,为了方便理解,可以理解为父亲找儿子,把儿子写入家族谱//pid:父id,为0是最顶级数据,其他则对应每项的id,即父.id=子.pid,则父.children=子interfaceT......
  • pandas缺失值的处理
    缺失值的处理缺失值的类型numpy库中的:np.nan/np.NaN,不区分大小写None,区分大小写pandas中:pd.NA/pd.NaT:区分大小写缺失值判断#isna()/isnull()data=[[3,8,31],......