【IT老齐072】全文检索执行原理
全文检索引擎就是对非结构化文本进行解析、搜索的技术
非结构化文本的处理关键在于分词与倒排索引
分词
分词是指将一段文本中有用的词汇提取出来
常见的中文分词算法
- Ngram穷举 n=2
- 语法分析+字典: 按中文动名词分析推测外加分词字典维护
- 爬虫+大数据+AI分析: 根据语义分析 (NLP)、词频、上下文推测筛选
倒排索引
产生分词后便会形成正向索引,倒排索引是反向将分词与文本的对应
多分词复杂情况要通过算分Score决定结果与排序前后,全文检索引擎要根据相似度算法 (TF-IDF和BM25) 进行算分按分数从高到低进行排序
标签:072,倒排,索引,老齐,全文检索,分词 From: https://www.cnblogs.com/faetbwac/p/18096908