Ik
  • 2024-10-17ES(IK,索引)
    IK分词器Elasticsearch的关键就是倒排索引,而倒排索引依赖于对文档内容的分词,而分词则需要高效、精准的分词算法,IK分词器就是这样一个中文分词算法。1.在线安装dockerexec-ites./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/r
  • 2024-10-14csp-s模拟11
    E题面最暴力的做法,枚举连续段长度\(i\),然后暴力搜索,复杂度\(O(n^3)\)点击查看代码#include<bits/stdc++.h>#definespeed()ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);#definelllonglong#definepbpush_back#defineullunsignedlonglong#define
  • 2024-09-25ElasticSearch安装分词器与整合SpringBoot
    ElasticSearch安装分词器与整合SpringBoot如果还没安装的点击安装ElasticSearch查看怎么安装分词器1.分词器在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入(如字符串)分割成一系列的词元(tokens)。这些词元是搜索和索引的基础单元。
  • 2024-09-24安装ES和Kibana和IK分词器
     dockerpullelasticsearch:7.12.1dockerpullkibana:7.12.1dockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"\-e"discovery.type=single-node"\-ves-data:/usr/local/elasticsearch7.12.1/data\
  • 2024-08-27Transformer
    Transformer八股目录Transformer八股Self-Attention的注意力分数计算公式为什么要进行scaling?为什么是\(\sqrt{d_k}\)?PositionEmbeddingTransformer位置编码的性质Self-Attention的注意力分数计算公式\[score=Softmax(\frac{QK^T}{\sqrt{d_k}})\]为什么要进行scaling?当
  • 2024-08-26Elasticsearch常用的IK分析器原理
    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Luce
  • 2024-08-24elasticsearch整合自定义词库实现自定义分词
            在进行分词时es有时没有办法对人名或者其他新词、偏词进行精准的分词,这时候就需要我们进行自定义分词。前置:        1).安装完成ik分词器,安装流程可以参考:ik安装流程        2).自定义的远程库我们使用nginx,所以需要提前安装nginx1.进入到
  • 2024-08-19ElasticSearch IK分词器的MySQL热部署字典(Docker)
    1.下载插件源码找到自己对应ES版本的下载Releases·infinilabs/analysis-ik·GitHub2.添加mysql驱动依赖<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.
  • 2024-08-13ElasticSearch分词器
    什么是分词器❓顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在ES中,Analysis是通过分词器(Analyzer)来实现的,可使用ES内置的分析器或者按需定制化分析器。分词器组成部分分词器是专门处理分词的组件,分词器由以下三部分组成:characte
  • 2024-08-04es安装和ik分词器
    es相关联知识记录一下,方便以后学习1、es集群的安装和部署docker-compose2、es设置账号和密码3、es安装和ik分词器一、docker拉取es镜像dockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.14.0二、创建es目录并授权mkdir-p/data/es/single/dat
  • 2024-07-22elasticsearch8.X tokenizer分词器优化
    一、使用指定中文分词器1.1一个查询小例子我们安装好es和kibana之后,就可以在kibana控制台开始我们的查询探索之旅。首先创建一个包含了两个字段“product"和"summary"的索引product_00:PUTproduct_00{"mappings":{"properties":{"product":{"typ
  • 2024-07-11elasticsearch: 安装ik中文分词(es 8.14.2)
    一,测试分词命令:1,查看已安装的插件:[lhdop@blog~]$curl-XGET"localhost:9200/_cat/plugins?v&s=component"namecomponentversion2,standard分词[lhdop@blog~]$curl-XGET"localhost:9200/_analyze?pretty"-H'Content-Type:application/json&
  • 2024-06-22【抽代复习笔记】21-群(十五):循环群引理及定义
    例4:证明,如果σ=(i1i2…ik)是Sn中的一个k-循环,而r∈Sn,则rσr^(-1)也是一个k-循环,且rσr^(-1)=(r(i1),r(i2),…,r(ik))。证:①设σ=(i1i2…ik)=(i1ik)(i1ik-1)…(i1i2),则rσr^(-1)=r(i1i2…ik)r^(-1)=r(i1ik)(i1ik-1)…(i1i2)r^(-1)=r(i1ik)[r^(-1)r](i1ik-1)[
  • 2024-06-13elasticsearch之ik分词器和自定义词库实现
    ElasticSearch分词器所谓的分词就是通过tokenizer(分词器)将一个字符串拆分为多个独立的tokens(词元-独立的单词),然后输出为tokens流的过程。例如"mynameisHanMeiMei"这样一个字符串就会被默认的分词器拆分为[my,name,isHanMeiMei].ElasticSearch中提供了很多默认的分词器,我
  • 2024-06-11Lucene的IK分词器学习,增加支持单个特殊符号搜索
    前言感谢CSDN这篇文章,原始代码基于这里。正常对于“[email protected]”这段文字,搜索'@'这个符号是搜不出来的。本文主要修改是扩展IK分词器,增加了对诸如"@-"这种特殊文字的检索。当然这个其实并没有多少实际意义,所以基本也是出于学习的目的。正文IK分词器分析这里不深入原理,
  • 2024-05-23搜索引擎ElasticSearch18_IK 分词器和ElasticSearch集成使用3
    一、上述查询存在问题分析在进行字符串查询时,我们发现去搜索"搜索服务器"和"钢索"都可以搜索到数据;而在进行词条查询时,我们搜索"搜索"却没有搜索到数据;究其原因是ElasticSearch的标准分词器导致的,当我们创建索引时,字段使用的是标准分词器: {    "query": {  
  • 2024-05-15ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用
    在Elasticsearch中,IK分词器是一个非常流行的中文分词插件,它支持两种分词模式:IK-MAX-WORD:这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(ConditionalRandomField,CRF)模型来识别词汇边界,然后使用动态规划寻找最优的词段划分。IK-SMART:这种模式结合了
  • 2024-05-15P1140 相似基因
    链接:https://www.luogu.com.cn/problem/P1140题目:思路:设置递推状态:dp[i][j]表示a的前i个碱基和b的前j个碱基配对的最大值。那么递推:1.ans1设置为dp[i-1][j-1]+val[a[i]][b[j]]就是说a[i]和b[j]可以凑一对,那么就凑;2.ans2设置为dp[i-1][j]+val[0][a[i]]就是说a[i]和b的空凑一
  • 2024-05-06Elasticsearch 全文搜索
    Elasticsearch全文搜索全文搜索是ES的关键特性之一,平时我们使用SQL的like语句,搜索一些文本、字符串是否包含指定的关键词,但是如果两篇文章,都包含我们的关键词,具体那篇文章内容的相关度更高?这个SQL的like语句是做不到的,更别说like语句的性能问题了。ES通过分词处理、相关度计
  • 2024-05-01C. Theofanis' Nightmare
    链接:https://codeforces.com/problemset/problem/1903/C洛谷链接(有翻译):https://www.luogu.com.cn/problem/CF1903C解答:观察可知:如果后面连续的和大于等于0,那么后面就可以连成一段(贪心),就是说因为前面每加上一个数,后面的所有数出现的次数都会+1,那么只要后面的和大于等于0,就可以知
  • 2024-04-25LLM应用实战:当KBQA集成LLM(二)
    1.背景又两周过去了,本qiang~依然奋斗在上周提到的项目KBQA集成LLM,感兴趣的可通过传送门查阅先前的文章《LLM应用实战:当KBQA集成LLM》。本次又有什么更新呢?主要是针对上次提到的缺点进行优化改进。主要包含如下方面:1.数据落库上次文章提到,KBQA服务会将图谱的概念、属性、实体
  • 2024-04-22有序表插入新元素
    include<stdio.h>include<stdlib.h>include<string.h>int*sort(int*L,intj,intsize){intL2=(int)malloc(size*4+4);intik=0;for(inti=0;i<size-1;i++){if(L[i]<j){L2[i]=L[i];}else{ik=i;break;}}L2[ik-1]=j
  • 2024-04-21P8207 [THUPC2022 初赛] 最小公倍树 题解
    题目大意有编号为\([L,R]\)区间的点,连接两个点\(x,y\)边权的为\(LCM(x,y)\),求这张图的最小生成树。\[1\leqL\leqR\leq10^6,R-L\leq10^5\]解题思路我们有一个结论:对于张图\(G\)中的一个生成子图\(E\),\(E\)之中的一条边\(k\)如果不在\(E\)最小生成树中,那么\(
  • 2024-04-20荒岛野人 题解
    Statement有\(n(\le15)\)个野人,第\(i\)个野人的寿命是\(L_i(\le10^6)\)年。荒岛上有\(m\)个山洞排列成一个环,但你不知道\(m\)到底是多少。第\(i\)个野人第一年会从第一个山洞开始往后数\(C_i\)个住下来,此后每一年都会往后数\(P_i\)个山洞住下来。已知不会发生某
  • 2024-04-08ES分词器
    1 normalization:文档规范化,提高召回率2 字符过滤器(characterfilter):分词之前的预处理,过滤无用字符HTMLStripCharacterFilter:html_strip参数:escaped_tags需要保留的html标签MappingCharacterFilter:typemappingPatternReplaceCharacterFilter:typepattern_repl