62_索引管理_快速上机动手实战修改分词器以及定制自己的分词器

时间：2024-10-02 13:01:42浏览次数：9

标签：index 上机 type analyzer filter 62 分词器 my

1、默认的分词器

standard

standard tokenizer：以单词边界进行切分
standard token filter：什么都不做
lowercase token filter：将所有字母转换为小写
stop token filer（默认被禁用）：移除停用词，比如a the it等等

2、修改分词器的设置

启用english停用词token filter

PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"es_std": {
"type": "standard",
"stopwords": "english"
}
}
}
}
}

GET /my_index/_analyze
{
"analyzer": "standard",
"text": "a dog is in the house"
}

GET /my_index/_analyze
{
"analyzer": "es_std",
"text":"a dog is in the house"
}

3、定制化自己的分词器

PUT /my_index
{
"settings": {
"analysis": {
"char_filter": {
"&_to_and": {
"type": "mapping",
"mappings": ["&=> and"]
}
},
"filter": {
"my_stopwords": {
"type": "stop",
"stopwords": ["the", "a"]
}
},
"analyzer": {
"my_analyzer": {
"type": "custom",
"char_filter": ["html_strip", "&_to_and"],
"tokenizer": "standard",
"filter": ["lowercase", "my_stopwords"]
}
}
}
}
}

GET /my_index/_analyze
{
"text": "tom&jerry are a friend in the house, , HAHA!!",
"analyzer": "my_analyzer"
}

PUT /my_index/_mapping/my_type
{
"properties": {
"content": {
"type": "text",
"analyzer": "my_analyzer"
}
}
}

标签：index,上机,type,analyzer,filter,62,分词器,my
From： https://www.cnblogs.com/siben/p/18444589

61_索引管理_快速上机动手实战创建、修改以及删除索引
1、为什么我们要手动创建索引？2、创建索引创建索引的语法PUT/my_index{"settings":{...anysettings...},"mappings":{"type_one":{...anymappings...},"type_two":{...anymappings...},...}}创建索引的示例PUT/my_index{"se......
27_分布式文档系统_上机动手实战演练bulk批量增删改
课程大纲1、bulk语法POST/_bulk{"delete":{"_index":"test_index","_type":"test_type","_id":"3"}}{"create":{"_index":"test_index","_type"......
24_上机动手实战演练基于groovy脚本进行partial update
es，其实是有个内置的脚本支持的，可以基于groovy脚本实现各种各样的复杂操作基于groovy脚本，如何执行partialupdateesscriptingmodule，我们会在高手进阶篇去讲解，这里就只是初步讲解一下PUT/test_index/test_type/11{"num":0,"tags":[]}（1）内置脚本POST/test_index/test_t......
26_上机动手实战演练mget批量查询api
1、批量查询的好处就是一条一条的查询，比如说要查询100条数据，那么就要发送100次网络请求，这个开销还是很大的如果进行批量查询的话，查询100条数据，就只要发送1次网络请求，网络请求的性能开销缩减100倍2、mget的语法（1）一条一条的查询GET/test_index/test_type/1GET/test_index/te......
21_上机动手实战演练基于_version进行乐观锁并发控制
1、上机动手实战演练基于_version进行乐观锁并发控制（1）先构造一条数据出来PUT/test_index/test_type/7{"test_field":"testtest"}（2）模拟两个客户端，都获取到了同一条数据GETtest_index/test_type/7{"_index":"test_index","_type":"test_type"......
22_上机动手实战演练基于external version进行乐观锁并发控制
课程大纲1、上机动手实战演练基于externalversion进行乐观锁并发控制externalversiones提供了一个feature，就是说，你可以不用它提供的内部_version版本号来进行并发控制，可以基于你自己维护的一个版本号来进行并发控制。举个列子，加入你的数据在mysql里也有一份，然后你的应用系统......
leetcode刷题day33|动态规划Part02（62.不同路径、63. 不同路径 II、 343.整数拆分、96.
62.不同路径机器人从(0,0)位置出发，到(m-1,n-1)终点。动规五部曲1、确定dp数组（dptable）以及下标的含义dp[i][j]：表示从（0，0）出发，到(i,j)有dp[i][j]条不同的路径。2、确定递推公式想要求dp[i][j]，只能有两个方向来推导出来，即dp[i-1][j]和dp[i][j-1]。dp[i]......
鹏哥C语言62---第9次作业：函数递归练习
#define_CRT_SECURE_NO_WARNINGS#include<stdio.h>#include<string.h>//-------------------------------------------------------------------------------------------第九次作业函数递归等//----------------------------------------------------------------......
题解：P11062 【MX-X4-T2】「Jason-1」加法
考虑两种情况：\(a,b\)符号相同：考虑经过操作后\(a,b,\lverta-b\rvert\)会变成什么。：\(a\)\(b\)\(\lverta-b\rvert\)操作1\(a+b\)\(b\)\(\lverta\rvert\)操作2\(a\)\(a+b\)\(\lvertb\rvert\)可以看出只进行零次或一次操作后可以取到最小值......
HS6621Cx 一款低功耗蓝牙SoC芯片应用于键盘、鼠标和遥控器消费类产品动能世纪
HS6621Cx是一款功耗优化的真正片上系统(SOC)解决方案，适用于低功耗蓝牙和专有2.4GHz应用。它集成了高性能、低功耗射频收发器，具有蓝牙基带和丰富的外设IO扩展。HS6621Cx还集成了电源管理功能，可提供高效的电源管理。它面向2.4GHz蓝牙低功耗系统、专有2.4GHz系统、人机接口设备（键盘......

62_索引管理_快速上机动手实战修改分词器以及定制自己的分词器

相关文章

赞助商

阅读排行