• 2023-07-04lucene .doc文件格式解析——见图
    摘自:http://forfuture1978.iteye.com/blog/5468414.2.2.文档号及词频(frq)信息 文档号及词频文件里面保存的是倒排表,是以跳跃表形式存在的。此文件包含TermCount个项,每一个词都有一项,因为每一个词都有自己的倒排表。对于每一个词的倒排表都包括两部分,一部分是倒排表本身,也即一个
  • 2023-06-03大白话讲解数据库的三级模式(所谓的内外模式在生活中到底是什么东西?)
    具象化理解数据库的三级模式形象一点来说,把数据看做货物,数据库是仓库,模式就是表格。你有一个仓库,仓库里成千上万的货物,随便你怎么堆,你堆个正方体,堆个圆柱体,甚至随便乱堆都行,你怎么堆的叫内模式。完事你写了一张表,表上对全部货物按某个标准分类,而且标清了啥货物在哪(这个是模式内
  • 2023-01-13信息检索导论--读书笔记(一)布尔检索
    术语介绍信息检索(InformationRetrieval):信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。非结构化数
  • 2022-11-15ElasticSearch
    视频学习地址:https://www.bilibili.com/video/BV1LF411j7rm/?p=8&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4  倒排表:有存储就会有数据量