ElasticSearch安装分词器与整合SpringBoot
如果还没安装的点击安装ElasticSearch查看怎么安装
分词器
1.分词器
在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入(如字符串)分割成一系列的词元(tokens)。这些词元是搜索和索引的基础单元。
分词器的作用
分割文本
:将输入文本按照特定的规则分割成独立的词元。记录位置信息
:为每个词元记录其在原始文本中的位置信息,如起始和结束字符偏移量。记录词元顺序
:确定词元的顺序,这对于短语查询和词近邻查询非常重要。
内置分词器
Whitespace Tokenizer
:按空白字符分割文本。Standard Tokenizer
:基于Unicode字符属性进行分词,类似于Java的String.split方法。Punctuation Tokenizer
:按标点符号分割文本。Keyword Tokenizer
:不进行分词,将整个输入文本作为一个词元。Pattern Tokenizer
:使用正则表达式进行分词。
2.ik分词器
- 点击下载:注意你是什么版本的下什么版本,如:我的elasticsearch是7.6.2就下7.6.2
- 解压后找到你的
/usr/share/elasticsearch/plugins
挂载的目录下,例如:
#当初我挂载的是/docker/elasticsearch/plugins
-v /docker/elasticsearch/plugins:/usr/share/elasticsearch/plugins
- 把解压后得到的
ik目录
放入plugins,只要ik目录,别是ik/ik/
- 重启
3.测试分词器
- 使用默认
POST _analyze
{
"text": "我是中国人"
}
- 使用分词器
POST _analyze
{
"analyzer": "ik_smart",
"text": "我是中国人"
}
- 另外一个分词器
ik_max_word
POST _analyze
{
"analyzer": "ik_max_word",
"text": "我是中国人"
}
观察结果,就可以看出使用分词器之后的区别了
整合SpringBoot
Elasticsearch-Rest-Client
3.Maven导入
<dependency>
<groupId>org.elasticsearch.client</groupId>
<artifactId>elasticsearch-rest-high-level-client</artifactId>
<version>7.6.2</version>
</dependency>
2.配置
@Bean
RestHighLevelClient client() {
RestClientBuilder builder = RestClient.builder(new HttpHost("<你的虚拟机ip>", 9200, "http"));
return new RestHighLevelClient(builder);
}
3.测试
@Test
void test1() throws IOException {
IndexRequest request = new IndexRequest("test").id("20").source("name","中国","id",20L);
try {
IndexResponse response = client.index(request, RequestOptions.DEFAULT);
System.out.println(request.toString());
IndexResponse response2 = client.index(request, RequestOptions.DEFAULT);
} catch (ElasticsearchException e) {
if (e.status() == RestStatus.CONFLICT) {
}
}
}
标签:SpringBoot,词元,Tokenizer,ik,elasticsearch,分词器,ElasticSearch,文本
From: https://blog.csdn.net/2301_77207909/article/details/142520344