如何不影响搜索排名情况下降低搜索爬虫对网站的影响（google ,bing, yandex,pinterest 等）

时间：2022-10-12 12:00:25浏览次数：67

标签：google pinterest bing 爬虫 delay 搜索 https

引言：网站资源（CPU,内存等）使用率在某个时段很高，甚至出现502状态，查日志（看请求头user-agent）发现爬虫在某个时段大量爬取，超出网站正常的负荷，如何在不影响搜索排名情况下合理降低搜索爬虫对网站的影响呢？

方法1：在服务端限制

适用：对不知道，或恶意爬虫限流

在nginx或防火墙上针对爬虫和IP进行限流

https://cdn.modb.pro/db/327255

方法2：通过robots.txt规格限制

适用：对正规的爬虫限流

正规的爬虫会遵循robots.txt规范，通过把规则写到根目录的robots.txt文件正确引导爬虫

想更多了解robots请看wiki https://zh.m.wikipedia.org/zh-hans/Robots.txt

这里讲一下使用 Crawl-delay指令来控制爬虫的爬取频率

User-agent: *
Crawl-delay: 1

每个搜索引擎对Crawl-delay: 1 的执行有差异，有些爬虫是爬取一个页面后暂停1秒再爬第二个页面，有些爬虫是每一秒发起一个爬取的请求。

0         1         2         3         4         5  seconds
|*page1**          
|         |        **page2********
|         |         |         |         |   **page3*

0         1         2         3  seconds
|*page1**          
|         |*page2*********
|         |         |*page3*

不管是哪种都实际上能起到降低爬取频率的作用（google 爬虫不遵循这个限制，需要导google search console 配置）,如果了解某个爬虫具体影响设置，可以找一下对应爬虫的规则

bing： https://blogs.bing.com/webmaster/2009/08/10/crawl-delay-and-the-bing-crawler-msnbot

google : https://support.google.com/webmasters/answer/48620?hl=en

yandex : https://yandex.com/support/webmaster/robot-workings/crawl-delay.html

pinterest:https://help.pinterest.com/zh-hans/business/article/pinterest-crawler

其他爬虫可以在 google上搜索：名称+Crawl-delay ，如 yahoo 搜索关键词 crawl-delay yahoo

提醒：在网站允许情况下这个值要尽可能设小一点，这样能加快你的网站在搜索引擎的收录和更新

标签：google,pinterest,bing,爬虫,delay,搜索,https
From： https://www.cnblogs.com/jinshao/p/16784056.html

搜索中常见数据结构与算法探究（二）
本文介绍了几个常见的匹配算法，通过算法过程和算法分析介绍了各个算法的优缺点和使用场景，并为后续的搜索文章做个铺垫；读者可以通过比较几种算法的差异，进一步了解匹配算法演进......
消除google浏览器记住密码自动填充背景色
//消除google浏览器记住密码自动填充黄色框背景:-webkit-autofill,:-webkit-autofill:hover,:-webkit-autofill:focus,:-webkit-autofill:active{//字体颜色......
搜索中常见数据结构与算法探究（二）
本文介绍了几个常见的匹配算法，通过算法过程和算法分析介绍了各个算法的优缺点和使用场景，并为后续的搜索文章做个铺垫；读者可以通过比较几种算法的差异，进一步了解匹配算法演......
搜索中常见数据结构与算法探究（一）
1前言ES现在已经被广泛的使用在日常的搜索中，Lucene作为它的内核值得我们深入研究，比如FST，下面就用两篇分享来介绍一些本文的主题：第一篇主要介绍数据结构和算法基础和分析方......
各浏览器useragent大全包括(chrome/360/搜狗浏览器以及百度/google/搜狗/神马)
1、IE10Mozilla/5.0(MSIE10.0;WindowsNT6.1;Trident/5.0)2、iPhone6Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26(KHTML,likeG......
网安软件：撒旦网络空间搜索引擎
https://www.shodan.io/1、点我最快获取软件2、点我获悉三点声明......
Google发布文本内容生成短视频工具：Imagen Video
我是卢松松，点点上面的头像，欢迎关注我哦！AI视频机器人方面的两个突破性进展，一个产品叫imagenvideo,可以生成1280×768的24帧的高清视频片段，另一个叫PHENAKI,可以根据文字描述......
【2022】关于 iPhone 「Spotlight(聚焦搜索)/Siri Suggestion(Siri 建议)」无法显示/
有不少人iPhone的「聚焦搜索/Siri建议」下拉出现空白什么都不显示的情况。像这样 https://sm.ms/image/41uTFKPMntNczZa现在有一个办法可以解决。——1⃣️打开「飞行模......
解决Google无法验证此账号归你所有
本来正常使用的谷歌，突然有一天登录的时候，被提示“Google无法验证此账号归你所有”，当看到这个提示，不要着急,现在就教大家怎么解决这个问题,1、首先，我们先切换科学上网地址，再......
PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(
相关项目链接：Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案）应用实......

如何不影响搜索排名情况下降低搜索爬虫对网站的影响（google ,bing, yandex,pinterest 等）

方法1：在服务端限制

方法2：通过robots.txt规格限制

相关文章

赞助商

阅读排行