首页 > 其他分享 >【升华】自然语言处理架构

【升华】自然语言处理架构

时间:2024-10-31 16:49:35浏览次数:3  
标签:NLP 识别 架构 机器翻译 文本 升华 自然语言 生成

      自然语言处理(Natural Language Processing,NLP)是指让计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。在很大程度上与计算语言学(Computational Linguistics,CL)重合,是计算机科学与语言学的交叉学科,也是人工智能的重要方向。自然语言处理的研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言,并自然地与人进行交互是NLP的最终目标。自然语言处理的挑战通常涉及语音识别、自然语言理解和自然语言生成。

一般的业务架构

NLP模型生产过程

 

运用到的基础技术和算法

  • 分词:基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步。
  • 词性标注:判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用。
  • 句法分析:分为句法结构分析和依存句法分析两种。
  • 词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理。
  • 命名实体识别:识别并抽取文本中的实体,一般采用BIO形式。
  • 指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体。
  • 关键词抽取:提取文本中的关键词,用以表征文本或下游应用。
  • 词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础。
  • 文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域。

算法:

fidf、BM25、TextRank、HMM、CRF、LSI、主题模型、word2vec、GloVe、LSTM/GRU、CNN、seq2seq、Attention

机器翻译机器翻译是利用计算机将一种自然语言(源语言)自动转换为另一种自然语言(目标语言)的过程。
命名实体识别(NER)命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具。在给定一个文本流的情况下,确定文本中的哪些项目映射到适当的名称。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。
自然语言生成从计算机知识库或逻辑形式的机器表述系统去生成自然语言,文本到文本生成(text-to-text generation)和数据到文本生成(data-to-text generation)都是自然语言生成的实例
自然语言理解自然语言理解是将文本块转换成更正式的表示形式,研究如何让电脑读懂人类语言的一门技术。自然语言理解涉及到从多种可能的语义中识别预期的语义,例如封闭世界假定 (CWA)对开放世界假设,或者主观正/误、真/假的判断,并可从自然语言表达式中导出。自然语言表达式通常采用自然语言概念的有组织的符号的形式。语言元模型和本体的引入和创建被认为是有效的。[13]
光学字符识别对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程
问答给定一个人类语言的问题,确定它的答案。典型的问题有特定的正确答案(比如“加拿大的首都是哪里?”),但有时也会考虑开放式问题(例如“生命的意义是什么?”)。[14]
认识文字蕴涵在自然语言处理是一个文字片段之间的定向关系。拥有一个文字片段的含意时,可以从另一个文字如下关系。TE的框架中,将会导致必须需要的文本被称为文本(T)和假设(H)作为分别。文字蕴涵是不一样的纯逻辑蕴涵,它有一个更宽松的定义:"T推导到H"(T⇒H),通常情况下,如果一个人阅读T将推断为H是最有可能的正确的关系。文字蕴含关系是有方向性的,如正向的"T推导到H"或反向的"H推导到T"
关系提取给定一段文本,确定命名实体之间的关系(例如谁与谁结婚)
情感分析通常从一组文档中提取主观信息,使用在线评论来确定特定对象的“极性”。它特别有助于识别社交媒体中的舆论趋势,以达到营销的目的。
话题分割和识别给定一段文本,将其分成几段,每段都有一个主题,并确定该段的主题。
词义消歧许多词汇有不止一个含义;我们必须联系上下文理解意义。对于这个问题,我们通常会需要一个相关词义列表,例如从字典或在线资源中获取。

标签:NLP,识别,架构,机器翻译,文本,升华,自然语言,生成
From: https://blog.csdn.net/dongjing991/article/details/143405425

相关文章

  • 科普文:软件架构数据库系列之【MySQL:InnoDB预读Ahead-read(线性预读linear read-ahead和
    概叙操作系统文件预读(Prefetching)科普文:软件架构Linux系列之【Linux的文件预读readahead】-CSDN博客前面文章我们从操作系统角度解释了文件预读readahead,指Linux系统内核将指定文件的某区域预读进页(OSpagecache)缓存起来,便于接下来对该区域进行读取时,不会因缺页(pagefault)......
  • 深入解析 Memcached原理、架构与最佳实践
    1.引言什么是Memcached?Memcached是一个高性能的分布式内存对象缓存系统,旨在通过减少数据库负载来加速动态Web应用程序。它以键值对的形式将数据存储在内存中,允许应用程序快速读取数据,从而提高响应速度和系统的可扩展性。由于其简单的设计和高效的性能,Memcached被广......
  • Zipkin使用指南分布式追踪核心概念与架构详解
    1.简介什么是ZipkinZipkin是一个分布式追踪系统,主要用于监控和分析微服务架构中的调用链路。它帮助开发者和运维团队深入理解服务调用路径,从而识别性能瓶颈、异常或故障点。Zipkin最初是由Twitter开源的,当前已成为微服务追踪的流行解决方案,特别是在SpringCloud、Kuberne......
  • 学习高校课程-系统设计与分析-初步架构设计(lec7)
    Index•WhyandWhat?为什么和什么?•UnderstandingArchitecture了解架构•TypicalArchitectureViews典型架构视图•OnSoftwareArchitects论软件架构师•DiagramingandPresentingArchitecture绘制和呈现架构•APracticalWaytoThinkAboutArchitectur......
  • 企业级邮件系统架构
    通常是将**外部邮件网关(MailGateway)**放置在企业网络的边界,负责接收和发送所有外部邮件流量,并将内部邮件流量引导至内网的Exchange服务器群组。内部的Exchange服务器通过负载均衡器(LoadBalancer)或数据库可用性组(DAG)等技术来共同承担邮件服务的负载。这种架构设计旨在......
  • 在K8S中,有一家公司希望在从裸机到公共云的不同云基础架构上运行各种工作负载。在存在
    在Kubernetes(K8s)中,一家公司若希望在从裸机到公共云的不同云基础架构上运行各种工作负载,并在存在不同接口的情况下实现这一目标,可以采取以下策略:1.采用Kubernetes作为统一的管理平台Kubernetes是一个开源的容器编排平台,它提供了强大的资源管理和调度能力,支持跨云、跨数据中心的......
  • 读«单体架构比微服务架构更落后吗?»有感
    文章:单体架构比微服务架构更落后吗?在看到“单体还是微服务”-“为什么要选择微服务”里面章节的时候,想到了我们团队的前端,完美符合“2.1.1当团队内个人能力因素成为系统发展的明显制约”,我们当前团队的前端水平参差不齐,如果采用微前端则可以把每个人拉的屎都隔离起来,由......
  • 揭秘JDQ限流架构:实时数据链路的多维动态带宽管控
    作者:京东零售饶璐1、背景在数字化转型的浪潮席卷之下,大数据和云计算技术已成为企业创新和发展的关键驱动力。尤其是以京东为代表的电商平台为例,其日常运营中持续生成海量数据,涵盖实时交易记录、点击曝光统计及用户行为轨迹等,这些数据对精准业务决策、深化用户体验优化等方面具......
  • 电子电气架构---面临巨大的网络架构和设计挑战
    我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师:屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。无......
  • 【数字化转型】数字化平台数据架构设计与规划
    免责声明本号所载内容为原创或整理于互联网公开资料,版权归原作者所有。文章仅供读者学习交流,不作任何商业用途。因部分内容无法确认真正来源,如有标错来源或涉及作品版权问题烦请告知,将及时处理,谢谢!-End-参考......