首页 > 其他分享 >ElasticSearch

ElasticSearch

时间:2022-11-15 17:13:09浏览次数:44  
标签:数据 int 压缩算法 ElasticSearch 数据量 100w 排表

视频学习地址:https://www.bilibili.com/video/BV1LF411j7rm/?p=8&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4

 

 倒排表:有存储 就会有数据量大的问题,怎么去解决数据量大的问题:1.压缩大数据变成小数据(压缩算法) 2.如何存数据让查询更快(数据结构)

如图 posting LIst 匹配到了100w条的数据

 

 

压缩算法 Frame Of Referenct:

倒排表存储结构为有序数组 所以现在有了100w的int, 1个int类型占用4个字节 100W就是3.8MB的数据 这还只是匹配一个 如果100w的原始文本 每个文本差不多相同 所以拆分出来的词项匹配都相同 

每一个原始数据都会被拆分成词项  如果原始数据为100Wt条 因为拆分里面的词 可能会导致 倒排表的数据比原始表还多

 

标签:数据,int,压缩算法,ElasticSearch,数据量,100w,排表
From: https://www.cnblogs.com/LZXX/p/16893043.html

相关文章

  • 2 ElasticSearch
    ElasticSearch版本及发布时间图片来自网络......
  • logstash 同步mysql 到elasticsearch
    1.下载logstash要和es的版本一致 用的是7.17.6     下载地址:https://www.elastic.co/cn/downloads/past-releases#logstash2.配置  LS_JAVA_HOME  系......
  • Elasticsearch-head安装
    1.安装node要安装elasticsearch-head插件,需要先安装node.js。官网下载地址:https://nodejs.org/en/download/或者使用命令行安装wgethttps://npm.taobao.org/mirrors......
  • 通过fluentd配置输出到elasticsearch,启动服务报错 Using Elasticsearch client 8.4.0
    问题描述 通过fluentd的配置文件,将fluentd的输出定向到elasticsearch中,配置文件如下: <matchsyslog.**>@typeelasticsearchhost172.20.58.152port1920......
  • elasticsearch安装(Linux)
    1.下载安装包官网下载,下载地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch将安装包上传到服务器#创建文件mkdirelasticsearch  2.创建......
  • ElasticSearch深度分页详解
    1前言ElasticSearch是一个实时的分布式搜索与分析引擎,常用于大量非结构化数据的存储和快速检索场景,具有很强的扩展性。纵使其有诸多优点,在搜索领域远超关系型数据库,但依......
  • elasticsearch多字段聚合实现方式
    目录1、背景2、实现多字段聚合的思路3、需求4、数据准备4.1创建索引4.2准备数据5、实现方式5.1multi_terms实现5.1.1dsl5.1.2java代码5.1.3运行结果5.2script实现5......
  • ElasticSearch的安装
    windows上安装1、下载指定版本并解压下载地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch2、配置JDK环境将安装包的JDK目录配置进系统环境变量......
  • [译]ElasticSearch中如何处理关联数据?
    InnerObject、Nested、Parent/Child、Denormalization现实世界中的数据很少是简单的–通常情况下,数据之间有着错综复杂的联系。你如何在Elasticsearch中表示关系数据?有......
  • Elasticsearch 集群内应该设置多少个分片(shard)?
    我应该设置多少个分片?我应该设置多大的分片?Elasticsearch是一个功能十分丰富的平台,支持各种用例,能够在数据整理和复制战略方面提供很大的灵活性。然而这一灵活性有时也会带......