ik

2024-11-07安装和启动ElasticSearch
安装和启动ElasticSearch我们直接使用docker部署好的ElasticSearch访问路径：http://192.168.144.160:9200ES默认端口是9200ES基本使用<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spri
2024-10-17ES(IK，索引)
IK分词器Elasticsearch的关键就是倒排索引，而倒排索引依赖于对文档内容的分词，而分词则需要高效、精准的分词算法，IK分词器就是这样一个中文分词算法。1.在线安装dockerexec-ites./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/r
2024-10-14csp-s模拟11
E题面最暴力的做法，枚举连续段长度$i$,然后暴力搜索,复杂度$O(n^3)$点击查看代码#include<bits/stdc++.h>#definespeed()ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);#definelllonglong#definepbpush_back#defineullunsignedlonglong#define
2024-09-25ElasticSearch安装分词器与整合SpringBoot
ElasticSearch安装分词器与整合SpringBoot如果还没安装的点击安装ElasticSearch查看怎么安装分词器1.分词器在Elasticsearch中，分词器（Tokenizer）是分析器（Analyzer）的一部分，它的主要职责是将文本输入（如字符串）分割成一系列的词元（tokens）。这些词元是搜索和索引的基础单元。
2024-09-24安装ES和Kibana和IK分词器
dockerpullelasticsearch:7.12.1dockerpullkibana:7.12.1dockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"\-e"discovery.type=single-node"\-ves-data:/usr/local/elasticsearch7.12.1/data\
2024-08-27Transformer
Transformer八股目录Transformer八股Self-Attention的注意力分数计算公式为什么要进行scaling？为什么是$\sqrt{d_k}$？PositionEmbeddingTransformer位置编码的性质Self-Attention的注意力分数计算公式\[score=Softmax(\frac{QK^T}{\sqrt{d_k}})\]为什么要进行scaling？当
2024-08-26Elasticsearch常用的IK分析器原理
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Luce
2024-08-24elasticsearch整合自定义词库实现自定义分词
在进行分词时es有时没有办法对人名或者其他新词、偏词进行精准的分词，这时候就需要我们进行自定义分词。前置： 1).安装完成ik分词器，安装流程可以参考：ik安装流程 2).自定义的远程库我们使用nginx，所以需要提前安装nginx1.进入到
2024-08-19ElasticSearch IK分词器的MySQL热部署字典（Docker）
1.下载插件源码找到自己对应ES版本的下载Releases·infinilabs/analysis-ik·GitHub2.添加mysql驱动依赖<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.
2024-08-13ElasticSearch分词器
什么是分词器❓顾名思义，文本分析就是把全文本转换成一系列单词（term/token）的过程，也叫分词。在ES中，Analysis是通过分词器（Analyzer）来实现的，可使用ES内置的分析器或者按需定制化分析器。分词器组成部分分词器是专门处理分词的组件，分词器由以下三部分组成：characte
2024-08-04es安装和ik分词器
es相关联知识记录一下，方便以后学习1、es集群的安装和部署docker-compose2、es设置账号和密码3、es安装和ik分词器一、docker拉取es镜像dockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.14.0二、创建es目录并授权mkdir-p/data/es/single/dat
2024-07-22elasticsearch8.X tokenizer分词器优化
一、使用指定中文分词器1.1一个查询小例子我们安装好es和kibana之后，就可以在kibana控制台开始我们的查询探索之旅。首先创建一个包含了两个字段“product"和"summary"的索引product_00:PUTproduct_00{"mappings":{"properties":{"product":{"typ
2024-07-11elasticsearch: 安装ik中文分词(es 8.14.2)
一，测试分词命令:1,查看已安装的插件:[lhdop@blog~]$curl-XGET"localhost:9200/_cat/plugins?v&s=component"namecomponentversion2,standard分词[lhdop@blog~]$curl-XGET"localhost:9200/_analyze?pretty"-H'Content-Type:application/json&
2024-06-22【抽代复习笔记】21-群（十五）：循环群引理及定义
例4：证明，如果σ=(i1i2…ik)是Sn中的一个k-循环，而r∈Sn，则rσr^(-1)也是一个k-循环，且rσr^(-1)=(r(i1),r(i2),…,r(ik))。证：①设σ=(i1i2…ik)=(i1ik)(i1ik-1)…(i1i2)，则rσr^(-1)=r(i1i2…ik)r^(-1)=r(i1ik)(i1ik-1)…(i1i2)r^(-1)=r(i1ik)[r^(-1)r](i1ik-1)[
2024-06-13elasticsearch之ik分词器和自定义词库实现
ElasticSearch分词器所谓的分词就是通过tokenizer(分词器)将一个字符串拆分为多个独立的tokens(词元-独立的单词)，然后输出为tokens流的过程。例如"mynameisHanMeiMei"这样一个字符串就会被默认的分词器拆分为[my,name,isHanMeiMei].ElasticSearch中提供了很多默认的分词器，我
2024-06-11Lucene的IK分词器学习，增加支持单个特殊符号搜索
前言感谢CSDN这篇文章，原始代码基于这里。正常对于“[email protected]”这段文字，搜索'@'这个符号是搜不出来的。本文主要修改是扩展IK分词器，增加了对诸如"@-"这种特殊文字的检索。当然这个其实并没有多少实际意义，所以基本也是出于学习的目的。正文IK分词器分析这里不深入原理，
2024-05-23搜索引擎ElasticSearch18_IK 分词器和ElasticSearch集成使用3
一、上述查询存在问题分析在进行字符串查询时，我们发现去搜索"搜索服务器"和"钢索"都可以搜索到数据；而在进行词条查询时，我们搜索"搜索"却没有搜索到数据；究其原因是ElasticSearch的标准分词器导致的，当我们创建索引时，字段使用的是标准分词器： { "query": {
2024-05-15ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用
在Elasticsearch中，IK分词器是一个非常流行的中文分词插件，它支持两种分词模式：IK-MAX-WORD：这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(ConditionalRandomField,CRF)模型来识别词汇边界，然后使用动态规划寻找最优的词段划分。IK-SMART：这种模式结合了
2024-05-15P1140 相似基因
链接：https://www.luogu.com.cn/problem/P1140题目：思路：设置递推状态：dp[i][j]表示a的前i个碱基和b的前j个碱基配对的最大值。那么递推：1.ans1设置为dp[i-1][j-1]+val[a[i]][b[j]]就是说a[i]和b[j]可以凑一对，那么就凑；2.ans2设置为dp[i-1][j]+val[0][a[i]]就是说a[i]和b的空凑一
2024-05-06Elasticsearch 全文搜索
Elasticsearch全文搜索全文搜索是ES的关键特性之一，平时我们使用SQL的like语句，搜索一些文本、字符串是否包含指定的关键词，但是如果两篇文章，都包含我们的关键词，具体那篇文章内容的相关度更高？这个SQL的like语句是做不到的，更别说like语句的性能问题了。ES通过分词处理、相关度计
2024-05-01C. Theofanis' Nightmare
链接：https://codeforces.com/problemset/problem/1903/C洛谷链接（有翻译）：https://www.luogu.com.cn/problem/CF1903C解答：观察可知：如果后面连续的和大于等于0，那么后面就可以连成一段（贪心），就是说因为前面每加上一个数，后面的所有数出现的次数都会+1，那么只要后面的和大于等于0，就可以知
2024-04-25LLM应用实战：当KBQA集成LLM(二)
1.背景又两周过去了，本qiang~依然奋斗在上周提到的项目KBQA集成LLM，感兴趣的可通过传送门查阅先前的文章《LLM应用实战：当KBQA集成LLM》。本次又有什么更新呢？主要是针对上次提到的缺点进行优化改进。主要包含如下方面：1.数据落库上次文章提到，KBQA服务会将图谱的概念、属性、实体
2024-04-22有序表插入新元素
include<stdio.h>include<stdlib.h>include<string.h>int*sort(int*L,intj,intsize){intL2=(int)malloc(size*4+4);intik=0;for(inti=0;i<size-1;i++){if(L[i]<j){L2[i]=L[i];}else{ik=i;break;}}L2[ik-1]=j
2024-04-21P8207 [THUPC2022 初赛] 最小公倍树题解
题目大意有编号为$[L,R]$区间的点，连接两个点$x,y$边权的为$LCM(x,y)$，求这张图的最小生成树。\[1\leqL\leqR\leq10^6,R-L\leq10^5\]解题思路我们有一个结论：对于张图$G$中的一个生成子图$E$，$E$之中的一条边$k$如果不在$E$最小生成树中，那么\(
2024-04-20荒岛野人题解
Statement有$n(\le15)$个野人，第$i$个野人的寿命是$L_i(\le10^6)$年。荒岛上有$m$个山洞排列成一个环，但你不知道$m$到底是多少。第$i$个野人第一年会从第一个山洞开始往后数$C_i$个住下来，此后每一年都会往后数$P_i$个山洞住下来。已知不会发生某