首页 > 其他分享 >搜索引擎-03-搜索引擎原理

搜索引擎-03-搜索引擎原理

时间:2024-04-04 09:14:02浏览次数:24  
标签:03 search 网页 index spider 搜索引擎 索引 原理

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何?

全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(粉色部分):

(1)spider 爬虫系统;

(2)search+index: 建立索引与查询索引系统,这个系统又主要分为两部分:

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

(3)rank 打分排序系统;

核心数据主要分为两部分(紫色部分):

(1)web 网页库;

(2)index 索引数据;

全网搜索引擎的业务特点决定了,这是一个“写入”和“检索”分离的系统

如何写入

系统组成:由spider与search+index;两个系统完成。

输入:站长们生成的互联网网页。

输出:正排倒排索引数据。

流程:如架构图中的1,2,3,4:

(1)spider把互联网网页抓过来;

(2)spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像);

(3)build_index从网页库中读取数据,完成分词;

(4)build_index生成倒排索引;

如何建立索引

系统组成:由search+index;与rank两个系统完成。

输入:用户的搜索词。

输出:排好序的第一页检索结果。

流程:如架构图中的a,b,c,d:

(a)search_index获得用户的搜索词,完成分词;

(b)search_index查询倒排索引,获得“字符匹配”网页,这是初筛的结果;

(c)rank对初筛的结果进行打分排序;

(d)rank对排序后的第一页结果返回;

标签:03,search,网页,index,spider,搜索引擎,索引,原理
From: https://www.cnblogs.com/houbbBlogs/p/18113889

相关文章

  • 第十一章、MSTP 协议原理与配置
    1、单生成树的缺点:1、无法实现流量负载分担2、存在二层次优路径解决上述问题:部署MSTP,通过实例在不同的域中区分不同的生成树,各生成树之间计算相互独立2、Stp、Rstp、Mstp之间兼容:1、当RSTP或MSTP如果相连的交换机运行是STP,则RSTP或......
  • 注意力机制在自然语言处理中的原理与实践
    注意力机制在自然语言处理中的原理与实践作者:禅与计算机程序设计艺术1.背景介绍近年来,注意力机制在自然语言处理领域取得了巨大的成功,在机器翻译、文本摘要、对话系统等众多应用中发挥了关键作用。注意力机制通过学习输入序列中的重要位置和相关性,赋予不同的输入部分......
  • 图像分类模型AlexNet原理与实现
    图像分类模型AlexNet原理与实现作者:禅与计算机程序设计艺术1.背景介绍图像分类是计算机视觉领域的一个核心任务,其目标是将输入图像归类到预定义的类别中。随着深度学习技术的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的图像分类模型取得了突破性的进......
  • 【阿里淘天笔试题汇总】2024-04-03-阿里淘天春招笔试题(第一套)-三语言题解(CPP/Pytho
    ......
  • 【阿里淘天笔试题汇总】2024-04-03-阿里淘天春招笔试题(第二套)-三语言题解(CPP/Pytho
    ......
  • 2024-04-03
    2024-04-03上午去杜甫草堂了中午吃火锅了下午打球了晚上来写题了(就写了一个……)Explorationplan发现答案是有上界的并且是最小化最大值直接想到二分Floyd预处理两点之间的距离二分一个limit点拆成左右两个每次距离不超过limit的点对之间连容量为Inf的边表示......
  • P3038 [USACO11DEC] Grass Planting G
    原题链接题解树上区间修改加单点查询,虽然可以树状数组,但是线段树更通用一点然而线段树通常处理的是点权,可这里是边权,怎么办呢?我们可以把边权转换成点权,由于每个点的子边有若干个,但父边有且只有一个,这样我们就把边权变成边下方点的点权然后区间修改和单点求和的时候把lca的点权......
  • 深度学习之详解常见梯度算法(概念、公式、原理、算法实现过程)
    目录前言一、如何实现梯度下降?二、梯度计算三、常见的梯度公式及梯度算法常见的梯度公式:1.标量对向量的梯度:2.标量对矩阵的梯度:3.向量对标量的梯度:常见梯度算法:四、常见梯度算法实现 1、批量梯度下降算法实现函数2、随机梯度下降算法实现函数 3、小批量梯度......
  • 【问题记录】CCES编译报错:“[Error li1030] Can not open input file ‘libadi_sigma
    一,问题现象编译工程时,报错提示:“[Errorli1030]Cannotopeninputfile‘libadi_sigma_sharc_awc.dlb’”,“[Errorli1030]Cannotopeninputfile‘libadi_sigma_sharc_nwc.dlb’”:二,问题原因&解决方法没有安装对应的插件,安装插件:SigmaStudioForSHARC-SH-Rel2.......
  • MySQL索引背后的数据结构及算法原理
    摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MyS......