首页 > 其他分享 >关于 Google 搜索运作方式的解析

关于 Google 搜索运作方式的解析

时间:2023-09-07 18:33:31浏览次数:35  
标签:Google 网页 网站 抓取 索引 搜索 解析

Google 搜索是一款全自动搜索引擎,会使用名为“网页抓取工具”的软件定期探索网络,找出可添加到 Google 索引中的网页。实际上,Google 搜索结果中收录的大多数网页都不是手动提交的,而是我们的网页抓取工具在探索网络时找到并自动添加的。本文档从网站的角度介绍了 Google 搜索运作方式的各个阶段。掌握这些基础知识可以帮助您解决抓取问题、让您的网页编入索引,并且了解如何优化您的网站在 Google 搜索结果中的呈现效果。

开始之前的一些注意事项

在深入了解 Google 搜索的运作方式之前,请务必注意,Google 不会通过收取费用来提高网站抓取频率或网站排名。任何与此不符的消息均是子虚乌有。

Google 不保证一定会抓取您的网页、将其编入索引或在搜索结果中显示您的网页,即使您的网页遵循 Google 搜索要素也是如此。

Google 搜索的 3 个阶段简介

Google 搜索的工作流程分为 3 个阶段,并非每个网页都会经历这 3 个阶段:

  1. 抓取:Google 会使用名为“抓取工具”的自动程序从互联网上发现各类网页,并下载其中的文本、图片和视频。
  2. 索引编制:Google 会分析网页上的文本、图片和视频文件,并将信息存储在大型数据库 Google 索引中。
  3. 呈现搜索结果:当用户在 Google 中搜索时,Google 会返回与用户查询相关的信息。

抓取

第一阶段是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页和更新过的网页,并将其添加到已知网页列表中。此过程称为“网址发现”。由于 Google 之前已经访问过某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页,例如类别网页等中心页会链接到新的博文。当您以列表形式(站点地图)提交一系列网页供 Google 抓取时,Google 也会发现其他网页。

Google 发现网页的网址后,可能会访问(或“抓取”)该网页以了解其中的内容。我们使用大量计算机抓取网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为抓取工具、漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。Google 的抓取工具也经过编程,确保不会过快地抓取网站,避免网站收到过多请求。此机制基于网站的响应(例如,HTTP 500 错误意味着“降低抓取速度”)和 Search Console 中的设置。

但是,Googlebot 不会抓取它发现的所有网页。某些网页可能被网站所有者设置为禁止抓取,而其他网页可能必须登录网站才能访问。

在抓取过程中,Google 会使用最新版 Chrome 呈现网页并运行它找到的所有 JavaScript,此过程与浏览器呈现您访问的网页的方式类似。呈现很重要,因为网站经常依靠 JavaScript 将内容引入网页,缺少了呈现过程,Google 可能就看不到相应内容。

能否抓取取决于 Google 的抓取工具能否访问网站。Googlebot 访问网站时的一些常见问题包括:

  • 服务器在处理网站时出现问题
  • 网络问题
  • robots.txt 规则阻止 Googlebot 访问网页

索引编制

抓取网页后,Google 会尝试了解该网页的内容。这一阶段称为“索引编制”,包括处理和分析文字内容以及关键内容标记和属性,例如 <title> 元素和 Alt 属性、图片、视频等。

在索引编制过程中,Google 会确定网页是否与互联网上的其他网页重复或是否为规范网页。 规范网页是可能会显示在搜索结果中的网页。为了选择规范网页,我们首先会将在互联网上找到的内容类似的网页归为一组(也称为聚类),然后从中选择最具代表性的网页。该组网页中的其他网页可作为备用版本在不同情况下提供,例如用户在移动设备上进行搜索时,或他们正在查找该组网页中的某个具体网页时。

Google 还会收集关于规范网页及其内容的信号,这些信号可能会在下一阶段(即在搜索结果中呈现网页)时用到。一些信号包括网页语言、内容所针对的国家/地区、网页易用性等。

所收集的关于规范网页及其网页群组的相关信息可能会存储在 Google 索引(托管在数千台计算机上的大型数据库)中。我们无法保证网页一定会编入索引;并非 Google 处理的每个网页都会编入索引。

是否会编入索引还取决于网页内容及其元数据。一些常见的索引编制问题可能包括:

  • 网页内容质量低
  • Robots meta 规则禁止编入索引
  • 网站的设计可能使索引编制难以进行

呈现搜索结果

Google 不会通过收取费用来提高网页排名,网页排名是程序化地完成的。 

用户输入查询时,我们的机器会在索引中搜索匹配的网页,并返回我们认为与用户的搜索内容最相关的优质结果。相关性是由数百个因素决定的,其中可能包括用户的位置、语言和设备(桌面设备或手机)等信息。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的结果与向香港用户显示的结果有所不同。

根据用户的查询,搜索结果页上显示的搜索功能也会发生变化。例如,如果您搜索“自行车维修店”,系统可能会显示本地搜索结果,而不会显示图片搜索结果;不过,搜索“现代自行车”更有可能显示图片搜索结果,但不会显示本地搜索结果。您可以在谷歌的视觉元素库中探索 Google 网页搜索中最常见的界面元素。

Search Console 可能提示您某个网页已编入索引,但您在搜索结果中看不到该网页。这可能是因为:

  • 网页内容与用户查询无关
  • 内容质量低
  • Robots meta 规则阻止提供内容

虽然本指南介绍了 Google 搜索的运作方式,但谷歌一直在努力改进算法。后续我们也会实时跟进谷歌更新算法,给予解析。

标签:Google,网页,网站,抓取,索引,搜索,解析
From: https://blog.51cto.com/u_16211399/7400189

相关文章

  • 阿里巴巴API接口解析,实现获得商品详情
    要解析阿里巴巴API接口并实现获取商品详情,你需要按照以下步骤进行操作:了解阿里巴巴开放平台:访问阿里巴巴开放平台,并了解相关的API文档、开发者指南和规定。注册开发者账号:在阿里巴巴开放平台上注册一个开发者账号,并创建一个应用,获取到API权限。获取API密钥:为了使用阿里巴巴API接口,......
  • Oracle OCP 19c认证考试1Z0-082题库最新解析 第四题
    4.YoucurrentlyhaveanactivetransactioninyoursessionandhavebeengrantedselectaccesstoV$TRANSACTIONInwhichthreesituationswillre-executingthisquerystillreturnarowbutwithadifferentXIDindicatinganewtransactionhasstarted?A.af......
  • 计算稿件原理解析
    *.起因一位卡哇伊得同事姐姐想知道这个公式得应用原理,所以就写了一篇教程*.原理就是用名称管理器给需要计算得区域文本(计算式区域)利用宏表函数evaluate对名称区域进行计算1.名称管理器命名区域在表格《试验桩中》,查看“名称管理器”,可以看到被命名成“ww”的名称,被Evaluate......
  • map、sync.map、concurrent-map适用场景与源码解析
    最近一直加班,无论工作日还是周末,虽然每天很忙但总感觉空空的,很少有时间停下来思考与总结。项目中各种甩锅,最后最苦逼的还是落到了研发的头上,文档编写、环境部署、问题排查虐得一遍又一遍。事情杂乱,研发效率超级低,不知道何是是个头呀背景在go中,map是最常用的集合之一。其底层key存......
  • Acegi-security-samples-tutorial-1.0.7.zip 实例代码解析
    前面一篇文章,展现了Acegi的作用:现在我将对其中的代码进行讲解:web.xml文件:<?xmlversion="1.0"encoding="UTF-8"?><!DOCTYPEweb-appPUBLIC'-//SunMicrosystems,Inc.//DTDWebApplication2.3//EN''http://java.sun.com/dtd/web-app_2_3.dtd'......
  • Go 语言内置类型全解析:从布尔到字符串的全维度探究
    关注微信公众号【TechLeadCloud】,分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。本文深入探讨了Go语言的内......
  • Android并发编程高级面试题汇总(含详细解析 十八)
    Android并发编程高级面试题汇总最全最细面试题讲解持续更新中......
  • Sermant类隔离架构解析——解决JavaAgent场景类冲突的实践
    一、JavaAgent场景为什么要注意类冲突问题?类冲突问题并非仅存在于JavaAgent场景中,在Java场景中一直都存在,该问题通常会导致运行时触发NoClassDefFoundError、ClassNotFoundException、NoSuchMethodError等异常。从使用场景来看,基于JavaAgent技术所实现的工具,往往用于监控、治理等场......
  • 2.6 PE结构:导出表详细解析
    导出表(ExportTable)是Windows可执行文件中的一个结构,记录了可执行文件中某些函数或变量的名称和地址,这些名称和地址可以供其他程序调用或使用。当PE文件执行时Windows装载器将文件装入内存并将导入表中登记的DLL文件一并装入,再根据DLL文件中函数的导出信息对可执行文件的导入表(IAT......
  • 2.7 PE结构:重定位表详细解析
    重定位表(RelocationTable)是WindowsPE可执行文件中的一部分,主要记录了与地址相关的信息,它在程序加载和运行时被用来修改程序代码中的地址的值,因为程序在不同的内存地址中加载时,程序中使用到的地址也会受到影响,因此需要重定位表这个数据结构来完成这些地址值的修正。当程序需要被......