robots其实就是指Robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时,第一个访问的文件就是robots.txt文件,如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。
文件包含内容:
User-agent: 搜索引擎蜘蛛的名称 Disallow: 既要拦截的部分 Allow : 允许搜索的部分 Sitemap: 网站地图
作用:
1 设置禁止搜索引擎访问的页面,如后台页面,搜索结果页面,静态页面,重复的页面。低质量 或者不希望被收录的网页。 2 告诉搜索引擎网站地图在哪 3 如果不设置,,会使用搜索引擎匹配到很多无用的信息,会降低该网站的权重,影响该网站的排行等
示例
一、 User-agent: *(定义所有搜索引擎) User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取) User-agent: Baiduspider (定义百度,只允许百度蜘蛛爬取) 不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。 二、Disallow:(用来定义禁止蜘蛛爬取的页面或目录) 示例: Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下) Disallow: /admin (禁止蜘蛛爬取admin目录) Disallow: /abc.html (禁止蜘蛛爬去abc.html页面) Disallow: /help.html (禁止蜘蛛爬去help.html页面) Disallow: /search?1.html (?禁止这个开头的页面) 三、Allow:(用来定义允许蜘蛛爬取的页面或子目录) 示例: Allow: /admin/test/(允许蜘蛛爬取admin下的test目录) Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面) 两个通配符如下: 四、匹配符 “$” $ 通配符:匹配URL结尾的字符 五、通配符 “*” * 通配符:匹配0个或多个任意字符 Disallow: *-* 屏蔽全站url内带有的 - 的链接
标签:文件,robots,Disallow,爬取,蜘蛛,搜索引擎,txt,html,页面 From: https://www.cnblogs.com/lccsdncnblogs/p/16911852.html