文章目录
1、目标任务
目标站点:情话网(http://www.ainicr.cn/tab/)
任务:抓取该网站下所有标签
下的所有情话语句
,并将其存入mysql数据库
2、网页分析
- 用浏览器打开网页,按F12或右键检查,进入开发者模式,在
Network-Doc
下找到网页的数据接口,发现该网页的内容存在于该接口下,该网页就是一级网页,我们将抓取该网页所有标签的链接
- 第1步抓取到所有的标签链接后,我们将依次向这些链接发送请求,解析二级页面你的内容;我们先随便进入一个标签链接,发现二级页面的内容存放在
Network-Doc
下,接下来我们将抓取所有三级页面的链接