视频学习地址:https://www.bilibili.com/video/BV1LF411j7rm/?p=8&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4
倒排表:有存储 就会有数据量大的问题,怎么去解决数据量大的问题:1.压缩大数据变成小数据(压缩算法) 2.如何存数据让查询更快(数据结构)
如图 posting LIst 匹配到了100w条的数据
压缩算法 Frame Of Referenct:
倒排表存储结构为有序数组 所以现在有了100w的int, 1个int类型占用4个字节 100W就是3.8MB的数据 这还只是匹配一个 如果100w的原始文本 每个文本差不多相同 所以拆分出来的词项匹配都相同
每一个原始数据都会被拆分成词项 如果原始数据为100Wt条 因为拆分里面的词 可能会导致 倒排表的数据比原始表还多
标签:数据,int,压缩算法,ElasticSearch,数据量,100w,排表 From: https://www.cnblogs.com/LZXX/p/16893043.html