• 2024-04-14mysql中文全文索引的记录
    在MySQL5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分词器把中文段落预处理拆分成单词,然后存入数据库。从MySQL5.7.6开始,MySQL内置了ngram全文解析器,用来支持中文、日文、韩文分词。创建示例--创建表格CREATETABLEarticles(idINTAUTO_INCREME
  • 2024-03-26【IT老齐055】Mysql Ngram全文检索技术
    【IT老齐055】MysqlNgram全文检索技术场景select*fromarticlewheretitlelikeJava%可能用到索引,看索引选择性select*fromarticlewheretitledlike%Java一定不会用到索引select*fromarticlewheretitlelike%Java%一定不会用到索引解决
  • 2024-01-08Ngram模型在机器翻译中的应用与挑战
    1.背景介绍机器翻译是自然语言处理领域的一个重要研究方向,其目标是将一种自然语言文本自动翻译成另一种自然语言文本。在过去的几十年里,机器翻译技术发展了很长一段时间,从基于规则的方法(如规则引擎和统计规则)开始,到基于模型的方法(如统计模型、深度学习模型等)发展。在这些方法中,N-gr
  • 2023-12-08Mysql Full-Text Index 介绍
    MysqlFull-TextIndex介绍ngramFull-TextParser参考链接Thebuilt-inMySQLfull-textparserusesthewhitespacebetweenwordsasadelimitertodeterminewherewordsbeginandend,whichisalimitationwhenworkingwithideographiclanguagesthatdono
  • 2023-09-04mysql中文全文搜索
    在MySQL5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分词器把中文段落预处理拆分成单词,然后存入数据库。从MySQL5.7.6开始,MySQL内置了ngram全文解析器,用来支持中文、日文、韩文分词。本文使用的MySQL版本是5.7.22,InnoDB数据库引擎。为什么要用全文索引呢?
  • 2023-08-16elasticsearch中的数据类型search_as_you_type及查看底层Lucene索引
    search_as_you_type字段类型用于自动补全,当用户输入搜索关键词的时候,还没输完就可以提示用户相关内容。as_you_type应该是说当你打字的时候。它会给索引里的这个类型的字段添加一些子字段_2gram_3gram和_index_prefix。_2gram的意思是,如果一个值是abcd,2gram就是abbccd,3gr
  • 2023-07-18es常用重要语句
    自定义分析器,分词器PUThttp://xxx.xxx.xxx.xxx:9200/test_index/{"settings":{"analysis":{"analyzer":{"char_edge_ngram_analyzer":{"tokenizer":"char_edge_ngram_tokenizer&q
  • 2023-05-31使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同,因为CNN里图像检测卷积一般是3x3,而文本分类的话是直接是一维的3、4、5
    代码如下:from__future__importdivision,print_function,absolute_importimporttensorflowastfimporttflearnfromtflearn.layers.coreimportinput_data,dropout,fully_connectedfromtflearn.layers.convimportconv_1d,global_max_poolfromtflearn.layers
  • 2023-04-13Elasticsearch——》kibana操作索引:增删改查
    一、新建索引PUT/test_001{"settings":{"index":{"max_result_window":1000000},"analysis":{"analyzer":{"ik_max_word":{"tokenizer":"ik_max_
  • 2023-04-10马尔科夫链文本生成(散列表,状态机,马尔科夫链)
    Codingame散列表为主题的练习题中,马尔科夫链文本生成吸引到了我的注意力。它集合了马尔科夫链,状态机和散列表三个方面的学习内容。其中,n-gram马尔科夫链运用到了文本聊天机器人的设计中,还是蛮有启发性的,应该是chatgpt之前的一项经典技术。下面简单讲讲这个编程练习题。目标制作
  • 2023-04-09elasticsearch
    elasticsearch1、安装mkdir-p/opt/elasticsearch/configmkdir-p/opt/elasticsearch/datamkdir-p/opt/elasticsearch/pluginsecho"http.host:0.0.0.0">>/opt/elasticsearch/config/elasticsearch.ymldockerrun--nameelasticsearch-p9200:9200-
  • 2023-02-14提取关键词的算法
    1、keyBERT(英文效果>中文)链接:https://hidadeng.github.io/blog/keybert_tutorial/ 用法:!pip3installgensim==4.0.0!pip3installkeybert==0.5.1!pip3installgen
  • 2022-11-21【MySQL8】中文分词支持全文索引
    第一步:配置文件my.ini(Windows10默认路径:C:\ProgramData\MySQL\MySQLServer8.0)中增加如下配置项,同时重启MySQL80服务:[mysqld]ngram_token_size=2       #这
  • 2022-11-12【MySQL8】中文分词支持全文索引
    参考:https://blog.csdn.net/qq_54169998/article/details/122471199第一步:配置文件my.ini(Windows10默认路径:C:\ProgramData\MySQL\MySQLServer8.0)中增加如下配置
  • 2022-10-18Elasticsearch能检索出来,但不能正确高亮怎么办?
    1、问题引出微信群里的线上实战问题:诸位大哥,es中:keyword类型的字段进行高亮查询,值为123asd456,查询sd4,高亮结果是em123asd456em有没有办法只对我查询的sd4高亮?明明查询