1 archive.org
- 官网
- 网站简介
- https://archive.org 由 Brewster Kahle 创办,是一个非营利性的数字图书馆。
- 从 1996 年起,它每隔一会就会抓取各种各样的网页、视频、图片等资料,保存在 “ 图书馆 ” 。
- 目前图书馆里存了 8660 亿个网页,1200 万个视频,490 万张图片和 110 万个软件程序。
点进网站,从 MJ 演唱会视频,到 1999 年测试版的 Google 搜索页面,再到你多年前送给凤姐的表白,都会重新进入你的世界。
2 archive.today/md (今日胆寒)
- 官网
- https://archive.today (将自动重定向至:
.md
域名)- https://archive.md
- 网站简介
archive.today
于 2012 年创办。从名字和功能上看,它类似于http://archive.org ,可以备份网页。
但它俩之间还是有个很大区别——http://archive.org
类似于搜索引擎,绝大多数资料都是爬虫自动抓取的。所以一直以来他们都遵守 robot.txt 。
robot.txt
是互联网里通行的一个君子协议。通过它,网站可以告诉搜索引擎,哪些东西它不能抓。百度里搜不到微信文章和淘宝商品,就是因为 robot.txt 。
但 archive.today 不遵守这个协议,即便网站不让它存,它也会霸王硬上弓。
不过,这也不能说 archive.today 缺德。 因为它并非自动抓取别人的网站,只有用户上传某个网页时,它才会抓取。
目前,archive.today 已经存储了 5 亿个网页。虽然远不及 http://archive.org ,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。
X 参考文献
标签:快照,网站,软件工具,网页,https,归档,org,archive,today From: https://www.cnblogs.com/johnnyzen/p/18242618