首页 > 其他分享 >分词器-normalization

分词器-normalization

时间:2022-11-06 12:11:55浏览次数:48  
标签:end start token 分词器 offset position type normalization

作用:将词语规范化

比如仅仅从字符串来看monmother是不一样的,这个就代表无法在搜索的时候匹配成功。
但是从单词含义来讲是一致,应该被匹配到。

所以这个时候就需要normaliztion来讲词语进行规范化。

  • 语气词去掉
  • 大小写规范化
  • 时态的转化
  • ...

不同的分词器,解析方式是不同的。拿standardenglish来对比

默认分词器-standard

请求
GET _analyze
{
  "analyzer": "standard",
  "text": "hello Mr.Li, my name is Hanmeimei. I'm a students"
}

返回
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "mr.li",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "my",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "name",
      "start_offset" : 16,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "is",
      "start_offset" : 21,
      "end_offset" : 23,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "hanmeimei",
      "start_offset" : 24,
      "end_offset" : 33,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "i'm",
      "start_offset" : 35,
      "end_offset" : 38,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "a",
      "start_offset" : 39,
      "end_offset" : 40,
      "type" : "<ALPHANUM>",
      "position" : 7
    },
    {
      "token" : "students",
      "start_offset" : 41,
      "end_offset" : 49,
      "type" : "<ALPHANUM>",
      "position" : 8
    }
  ]
}

  1. 统一大写转小写
  2. 并没有忽略isa这些助词(语气词?)
  3. 最后写的是i'm a students,多了一个s但是没有处理

英语分词器 -- English

请求
GET _analyze
{
  "analyzer": "english",
  "text": "hello Mr.Li, my name is Hanmeimei. I'm a students"
}

返回
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "mr.li",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "my",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "name",
      "start_offset" : 16,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "hanmeimei",
      "start_offset" : 24,
      "end_offset" : 33,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "i'm",
      "start_offset" : 35,
      "end_offset" : 38,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "student",
      "start_offset" : 41,
      "end_offset" : 49,
      "type" : "<ALPHANUM>",
      "position" : 8
    }
  ]
}
  1. 统一大写转小写
  2. 忽略了isa这些助词(语气词?)
  3. 最后写的是i'm a students,studets中的s被标准化去掉

标签:end,start,token,分词器,offset,position,type,normalization
From: https://www.cnblogs.com/yeasxy/p/16862361.html

相关文章

  • Elasticsearch Analyzer 内置分词器
    ElasticsearchAnalyzer内置分词器篇主要介绍一下Elasticsearch中Analyzer分词器的构成和一些Es中内置的分词器以及如何使用它们前置知识es提供了analyzeap......
  • 详解深度学习中的Normalization,BN/LN/WN
    from: https://zhuanlan.zhihu.com/p/33173246深度神经网络模型训练之难众所周知,其中一个重要的现象就是InternalCovariateShift.BatchNorm大法自2015年由Google......
  • Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
    前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NETCore2.0版本,而Lucene使用的版本是3.6.......
  • 分词器(4) -- 使用分词器
    创建索引时指定分词器创建PUTtest_index{"settings":{"analysis":{"analyzer":{"my_custom_analyzer":{"type":"custom",......
  • 中文分词器-ik
    安装ik1dockerexec-it容器ID/bin/bash2#下载对应版本,我用的es是8.4.1,地址https://github.com/medcl/elasticsearch-analysis-ik/releases./bin/elastic......
  • 自带分词器
    Standard-默认分词器,按词切分支持多语言,并小写处理Simple-非字母切分,小写处理(UU-a切成uu,adoni`t切成doni和t)Stop-小写处理,停用词过滤(the,a,is,2)Wh......
  • es索引、类型(mapping)、文档、ik分词器
    一、概念1、初学可以把es看作数据库可以建立索引(库)文档(库中的数据)2、es是面向文档的,一切都是json3、物理设计es后台把每个索引划分成多个分片,每份分片可以在集群中的不同......
  • ECCV2020 | Unsupervised Batch Normalization
    计算机视觉研究院专栏作者:Edison_GBN的基本思想:因为深层神经网络在做非线性变换前的激活输入值(就是x=WU+B,U是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者......
  • 04-Elasticsearch-ES集成IK分词器
    分词器分词器汇总分词器拆分方式standard空格simple非字母whitespace空格stop去除英文的助词(atheis)keyword不拆分......
  • LayerNormalization2016
    LayerNormalization#paper1.paper-info1.1MetadataAuthor::[[JimmyLeiBa]],[[JamieRyanKiros]],[[GeoffreyE.Hinton]]作者机构::Keywords::#DeepLea......