分词器-normalization

时间：2022-11-06 12:11:55浏览次数：48

标签：end start token 分词器 offset position type normalization

作用：将词语规范化

比如仅仅从字符串来看mon和mother是不一样的，这个就代表无法在搜索的时候匹配成功。
但是从单词含义来讲是一致，应该被匹配到。

所以这个时候就需要normaliztion来讲词语进行规范化。

语气词去掉
大小写规范化
时态的转化
...

不同的分词器，解析方式是不同的。拿standard和english来对比

默认分词器-standard

请求
GET _analyze
{
  "analyzer": "standard",
  "text": "hello Mr.Li, my name is Hanmeimei. I'm a students"
}

返回
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "mr.li",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "my",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "name",
      "start_offset" : 16,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "is",
      "start_offset" : 21,
      "end_offset" : 23,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "hanmeimei",
      "start_offset" : 24,
      "end_offset" : 33,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "i'm",
      "start_offset" : 35,
      "end_offset" : 38,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "a",
      "start_offset" : 39,
      "end_offset" : 40,
      "type" : "<ALPHANUM>",
      "position" : 7
    },
    {
      "token" : "students",
      "start_offset" : 41,
      "end_offset" : 49,
      "type" : "<ALPHANUM>",
      "position" : 8
    }
  ]
}

统一大写转小写
并没有忽略is、a这些助词（语气词？）
最后写的是i'm a students，多了一个s但是没有处理

英语分词器 -- English

请求
GET _analyze
{
  "analyzer": "english",
  "text": "hello Mr.Li, my name is Hanmeimei. I'm a students"
}

返回
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "mr.li",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "my",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "name",
      "start_offset" : 16,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "hanmeimei",
      "start_offset" : 24,
      "end_offset" : 33,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "i'm",
      "start_offset" : 35,
      "end_offset" : 38,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "student",
      "start_offset" : 41,
      "end_offset" : 49,
      "type" : "<ALPHANUM>",
      "position" : 8
    }
  ]
}

统一大写转小写
忽略了is、a这些助词（语气词？）
最后写的是i'm a students，studets中的s被标准化去掉

标签：end,start,token,分词器,offset,position,type,normalization
From： https://www.cnblogs.com/yeasxy/p/16862361.html

Elasticsearch Analyzer 内置分词器
ElasticsearchAnalyzer内置分词器篇主要介绍一下Elasticsearch中Analyzer分词器的构成和一些Es中内置的分词器以及如何使用它们前置知识es提供了analyzeap......
详解深度学习中的Normalization，BN/LN/WN
from: https://zhuanlan.zhihu.com/p/33173246深度神经网络模型训练之难众所周知，其中一个重要的现象就是InternalCovariateShift.BatchNorm大法自2015年由Google......
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NETCore2.0版本,而Lucene使用的版本是3.6.......
分词器(4) -- 使用分词器
创建索引时指定分词器创建PUTtest_index{"settings":{"analysis":{"analyzer":{"my_custom_analyzer":{"type":"custom",......
中文分词器-ik
安装ik1dockerexec-it容器ID/bin/bash2#下载对应版本，我用的es是8.4.1,地址https://github.com/medcl/elasticsearch-analysis-ik/releases./bin/elastic......
自带分词器
Standard-默认分词器，按词切分支持多语言，并小写处理Simple-非字母切分,小写处理（UU-a切成uu,adoni`t切成doni和t）Stop-小写处理，停用词过滤(the,a,is,2)Wh......
es索引、类型（mapping）、文档、ik分词器
一、概念1、初学可以把es看作数据库可以建立索引（库）文档（库中的数据）2、es是面向文档的，一切都是json3、物理设计es后台把每个索引划分成多个分片，每份分片可以在集群中的不同......
ECCV2020 | Unsupervised Batch Normalization
计算机视觉研究院专栏作者：Edison_GBN的基本思想：因为深层神经网络在做非线性变换前的激活输入值（就是x=WU+B，U是输入）随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者......
04-Elasticsearch-ES集成IK分词器
分词器分词器汇总分词器拆分方式standard空格simple非字母whitespace空格stop去除英文的助词(atheis)keyword不拆分......
LayerNormalization2016
LayerNormalization#paper1.paper-info1.1MetadataAuthor::[[JimmyLeiBa]],[[JamieRyanKiros]],[[GeoffreyE.Hinton]]作者机构::Keywords::#DeepLea......

分词器-normalization

默认分词器-standard

英语分词器 -- English

相关文章

赞助商

阅读排行