自从发表百度App的问题后,闹着玩下网似乎被K了,本来就想屏蔽百度,不过除了淘宝,一般很少有网站会去主动屏蔽搜索引擎,那差不多是断了流量来源,个人博客几乎不会这么做,为什么建议屏蔽呢?
因为百度出个文心一言,这个所谓的文心一言大模型其实是通过读取搜索引擎内容训练学习,文心一言默认强制启用百度搜索插件,说是为了保证生成更实时准确的信息,还不支持关闭
之前闹着玩下网百度收录相当快,百度蜘蛛每天来,发布文章后秒录,让人受宠若惊。可是你要意识到,你的文章一旦被百度抓取收录后,就不是你的了。
百度可以任意使用你的内容,并且不会注明出处,把你的文章重新表达下,就变成文心一言说的了,根本没有引用来源,如果你在内容上加了文字水印,直接拿去,也是搞笑,当然这后面肯定会改进(去文字水印)。
网站如果要屏蔽百度蜘蛛来访,直接修改网站的根目录文件“robots.txt”,这是最简单方便的方法:
User-agent: Baiduspider
Disallow: /
如果只允许抓取首页,可以这样修改:
User-agent: Baiduspider
Disallow: /
Allow: /$
但蜘蛛不一定会遵守协议,比如淘宝还是被百度收录了,只是收录的比较少。
标签:闹着玩,屏蔽,搜索引擎,下网,文心,百度 From: https://www.cnblogs.com/nzone/p/nzonex-baiduspider.html