题目
分析
标题大致翻译:
训练 WWW 网络爬虫。
场景内部文段大致翻译:
在这个小小的训练挑战中,您将学习 Robots_exclusion_standard(网络爬虫排除标准)。
robots.txt 文件用于网络爬虫检查它们是否被允许抓取和索引您的网站或仅部分网站。
有时,这些文件揭示了目录结构,而不是保护内容不被抓取。享受吧!
根据指引,我们来看看场景的 robot.txt。在 url 后接上 /robot.txt
:
看到第一条限制中爬虫不允许访问 /fl0g.php
,这文件名字看着像 flag,打开看看。在 url 后接上 /fl0g.php
:
得到 flag。
Flag
cyberpeace{126bc8a4c1f965f692a8c551f703960a}
参考
Robots协议 :Robots Exclusion Standard(网络爬虫排除标准)-Amber.Li-CSDN
爬虫第一步:查看robots.txt-宋小雅-知乎