当前,到网络中查找想要的信息是最大家普遍的行为之一,不管是工作调研还是单纯学习了解。与此同时,将查找的信息有效提取下来也是必不可少的环节,除了通用的复制粘贴,还有更多手段需要了解掌握。
网络免费进行数据提取是可以的,但是也会有一点缺陷。如网络不够稳定、ip容易被封掉等。实际上,数据收集方面比较大的花费是使用代理服务器,它们用于网络抓取工具以防止网站检测到网络抓取机器人,因为大多数网站不允许对其进行自动化活动,因此您需要采取措施来克服这些规则。以下是两种不同的网页抓取方法:
一、如果网站上存储所有他们对HTML前端的信息,你可以直接用代码来下载HTML内容,提取出有用的信息。步骤如下:
1、检查您要抓取的网站HTML;
2、使用代码访问网站的URL并下载页面上的所有HTML内容;
3、将下载的内容格式化为可读格式;
4、提取有用信息并保存为结构化格式;
5、对于网站多个页面上显示的信息,您可能需要重复步骤2-4才能获得完整信息。
这种方法简单而直接。但是,如果网站的前端结构发生变化,那么您需要相应地调整代码。
二、如果网站将数据存储在API中,用户每次访问网站时网站都会查询API,可以模拟请求,直接从API查询数据。步骤如下:
1、检查要抓取的URL的XHR网络部分;
2、找出为您提供所需数据的请求-响应;
3、根据请求的类型(发布或获取)以及请求标头和有效负载,在您的代码中模拟请求并从API检索数据。通常,从API获取的数据格式非常简洁;
4、提取您需要的有用信息;
5、对于查询大小有限制的API,您将需要使用“for循环”来重复检索所有数据。
如果您能找到API请求,这绝对是一种首选方法。您收到的数据将更加结构化和稳定。这是因为与网站前端相比,公司不太可能更改其后端API。但是,它比第一种方法稍微复杂一些,尤其是在需要身份验证时。神龙HTTP提供海量高匿、高可用、高稳定代理IP资源,有效应对IP封锁问题,并可以免费试用,欢迎了解使用。
标签:API,提取,HTML,网站,抓取,信息,学一学 From: https://blog.51cto.com/u_15890319/5947273