首页 > 其他分享 >自然语言处理发展,主要存在哪些难点?

自然语言处理发展,主要存在哪些难点?

时间:2023-04-18 15:36:14浏览次数:28  
标签:难点 哪些 错别字 连续 自然语言 向量 新词


1.语言不规范,灵活性高

自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。

2.错别字

在处理文本时,我们会发现有大量的错别字,怎么样让计算机理解这些错别字想表达的真正含义,也是NLP的一大难点

3.新词

我们处在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让计算机理解也是NLP的难点

4.用词向量来表示词依然存在不足

上述,我们讲到,我们是通过词向量来让计算机理解词,但是词向量所表示的空间,它是离散,而不是连续,比如表示一些正面的词:好,很好,棒,厉害等,在“好”到“很好”的词向量空间中,你是不能找到一些词,从“好”连续到“很好”,所以它是离散、不连续的,不连续最大的问题就是不可导.计算机是处理可导的函数非常容易,不可导的话,计算量就上来了。
  当然现在也有一些算法是计算词向量做了连续近似化,但这肯定伴随着信息的损失。总之,词向量并不是最好的表示词的方式,需要一种更好的数学语言来表示词,当然可能我们人类的自然语言本身就是不连续的,或者人类无法创建出“连续”的自然语言。
 

标签:难点,哪些,错别字,连续,自然语言,向量,新词
From: https://blog.51cto.com/u_13973070/6203459

相关文章

  • 大数据的安全防护,带来了哪些全新的挑战,建设数据防护体系的思路是什么?
    大数据时代,数据的产生、流通和应用更加普遍和密集。然而,新的技术、新的需求和新的应用场景给数据安全防护带来了全新的挑战。一是新技术带来的挑战。分布式计算存储架构、数据深度发掘及可视化等新型技术能够大大提升数据资源的存储规模和处理能力,但也为数据安全保护带来......
  • 物联网应用领域有哪些呢?
    物联网的应用领域广泛,简单介绍几个应用场景:物流与仓储、健康与医疗、智能环境、社交智能交通、智能建筑、文物保护、古迹的实时监测、智能家居、定位导航、物流管理、视频监控、数字医疗等产业都有广泛的应用。简单介绍几个应用例子1)智慧城市一般利用物联网、人工智能、云边计算、......
  • ChatGPT/大模型+零代码,给中小企业带来哪些机会?
    ChatGPT让2023年成了AI之年。正如iPhone在2007年开启了智能手机时代,我们现在正在进入人工智能时代。新形势下,零代码应如何借势发力?伙伴云“AI+零代码”给出了答案。作为零代码领域的头部平台,伙伴云全量发布【AI零代码应用搭建平台】,无需用户单独训练,无需额外投资,根据用户具体需求、......
  • 美元指数是什么意思?影响美元指数走向的因素有哪些?
    美元指数是一种衡量美元相对于一篮子其他主要货币的汇率指标。它通常由一篮子货币中的六种货币的汇率加权平均值计算而得,包括欧元、日元、英镑、加拿大元、瑞典克朗和瑞士法郎。美元指数的变动反映了美元在国际货币市场上的表现,对全球金融市场和经济产生广泛影响。影响美元指数走向......
  • 内网沟通软件都有哪些?
    近些年来,互联网的迅速发展,给人们的生活和工作带来了许多便利性,但却给企业带来了一个问题,信息泄露。由于企业内部敏感信息通过互联网的泄露的事件频发,不少企业只能转用内网环境办公,企业内部原本的互联网沟通软件无法再继续使用,只能寻找支持内网环境使用的沟通软件。那么内网沟通软件......
  • VS Code 有哪些好用的插件呢?【持续更新】
    一、画图工具:vscode-drawio  功能:在VSCode中画流程图、数据流图等等。      使用方法:    创建一个后缀名为.drawio的文件,然后用VSCode打开即可。  效果如下图:  二、格式化工具:PrettyFormatter  功能:格式化文档,包括js、json、html、css、xml等......
  • JDK8到JDK17有哪些吸引人的新特性?
    作者:京东零售 刘一达前言2006年之后SUN公司决定将JDK进行开源,从此成立了OpenJDK组织进行JDK代码管理。任何人都可以获取该源码,并通过源码构建一个发行版发布到网络上。但是需要一个组织审核来确保构建的发行版是有效的,这个组织就是JCP(JavaCommunityProcess)。2009年,SUN公......
  • 域名权重相关数据有哪些
    域名权重相关数据有哪些域名权重在很大程度上决定整个网站的排名能力。主要参考数据如下:1.域名年龄既包括域名最初注册时间,也包括网站第一次被搜索引擎收录的时间。域名越老,权重越高。2.GooglePR值虽然PR值在Google排名中的重要性近来下降很多,而且GooglePR值也不能说明网站......
  • 工单系统的功能有哪些?
    工单系统是一个在线表单,用于公司内部各部门间的问题传递和任务转移。因此,工单系统用于将一些客户服务不能直接处理的用户问题传递给相关部门,并对处理结果进行跟踪,以便通知用户。那么工单系统的功能有哪些?1.基本配置:工单系统支持工单分类和工单权限角色,工单处理时限设置,SLA指标设置......
  • Git log怎么查看分支提交过哪些文件
    以上简单介绍了一些 gitlog 命令支持的选项。表2-2还列出了一些其他常用的选项及其释义。选项说明-p按补丁格式显示每个更新之间的差异。--word-diff按worddiff格式显示差异。--stat显示每次更新的文件修改统计信息。--shortstat只显示--stat中最后的行数修改添加移除统......