• 2024-08-02[paper阅读笔记][2023]CorpusLM: Towards a Unified Language Model on Corpusfor Knowledge-Intensive Tasks
    文章链接:https://arxiv.org/pdf/2402.01176v2Paper的任务处理各种知识密集型任务任务的科学问题本文任务虽然是:提出一个统一的语言模型来处理各种知识密集型任务,但其实其本质科学问题是:如何提高LLMs在知识密集型任务中的检索效率。原因是:LLMs在生成文本时容易出现错误信
  • 2024-01-18xapian 搜索引擎介绍与使用入门
    Xapian是一个开源搜索引擎库,使用C++编写,并提供绑定(bindings )以允许从多种编程语言使用。它是一个高度适应性的工具包,允许开发人员轻松地将高级索引和搜索功能添加到自己的应用程序中。Xapian支持多种加权模型和丰富的布尔查询运算符。最新稳定版本是1.4.24,发布于2023年
  • 2023-11-19网络协议地图
    https://support.huawei.com/hedex/hdx.do?docid=EDOC1000105967&id=ZH-CN_CONCEPT_0000001501534705https://support.huawei.com/hedex/hdx.do?docid=EDOC1000105967&id=ZH-CN_CONCEPT_0000001501534705
  • 2023-06-23循环参数提取
    #循环参数提取StringIteration=vars.get("Counter");StringDocID=vars.get("DocID");//log.info("Counteris"+DocID);if(Iteration.equals("1")){ StringDocID1=DocID; vars.put("DocID1",DocID1);}if
  • 2023-06-11sphinx索引文件进一步说明——最好是结合lucene一起看,直觉告诉我二者本质无异
    Sphinx使用的文件包括“sph”,“spa”,“spi”,“spd”,“spp”,“spm”,还有锁文件。其中sph是系统的配置文件。其它则为索引文件。.Spi文件:保存WordId及指向此WordId对应的文档信息在spd文件的指针。Spi文件在检索程序启动时完全加载入内存。Spi文件是分块的,块内排序,块之间也
  • 2023-06-04备忘:值得一看的文章,网站架构相关
    http://3g.163.com/ntes/special/0034073A/qq_article.html?docid=9GD1NIUD00964KA8http://3g.163.com/ntes/special/0034073A/qq_article.html?docid=9HIPAKH400964KA8http://3g.163.com/ntes/special/0034073A/qq_article.html?docid=99N86UP700964KA8http://3g.163.com/nte
  • 2023-05-30wukong引擎源码分析之索引——part 1 倒排列表本质是有序数组存储
    searcher.IndexDocument(0,types.DocumentIndexData{Content:"此次百度收购将成中国互联网最大并购"})engine.go中的源码实现://将文档加入索引////输入参数://docId标识文档编号,必须唯一//data见DocumentIndexData注释////注意://1.这个函数是线程安全