Python中的爬虫究竟是什么？

时间：2023-03-08 10:11:33浏览次数：48

标签：请求 Python 爬虫 --- json 解析数据究竟

其实所谓的上网就是用客户端的机器去请求目标网站的计算机，然后通过目标计算机反馈下载数据到本地的一个过程，只是用户获取数据时通过浏览器提交请求->下载网页代码->解析/渲染成页面。

Python爬虫要做的是什么？

而爬虫程序要做的就是：模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中　

爬虫基本流程：

发送请求 ---> 获取响应内容 ---> 解析内容 ---> 保存数据

1、发起请求使用爬虫ip库向目标站点发起请求，即发送一个RequestRequest包含：请求头、请求体等。

2、获取响应内容如果服务器能正常响应，则会得到一个ResponseResponse包含：html，json，图片，视频等。

3、解析内容解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等解析json数据：json模块解析二进制数据:以b的方式写入文件。

4、分类保存数据如：excel表格、数据库文件。

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的猎物(数据)。

爬虫的定义：向网站发起请求，获取资源后分析并提取有用数据的程序

爬虫的价值：互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

总结爬虫流程：爬取--->解析--->存储

爬虫所需工具：

请求库：requests,selenium

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

爬虫常用框架： scrapy

标签：请求,Python,爬虫,---,json,解析,数据,究竟
From： https://www.cnblogs.com/q-q56731526/p/17191014.html

python连接oracle 19c报错误ORA-01017: invalid username/password
环境:db:19cpython:3.6最近有使用到cx_oracle(5.3)模块，这里记录下出现的问题由于我的项目一直在是windows上测试，最近把项目更新到linux下后，再去跑代码，发现代码报出ORA-2......
Python基础命令
#查询安装包piplist#更新包pipinstall--upgrade*(包名）#Windows换源pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/......
如何提高爬虫工作效率
单进程单线程爬取目标网站太过缓慢，这个只是针对新手来说非常友好，只适合爬取小规模项目，如果遇到大型项目就不得不考虑多线程、线程池、进程池以及协程等问题。那么我们该如......
中文数字转阿拉伯数字（python）
大体思路：利用中文数字和计数单位交替出现的特点，设定好计数单位出现的顺序，从低往高交替搜索数字和计数单位，预期的数字或单位没有出现时都补0；对中文......
Python常见面试题011. 如何在Python中动态创建类?
011.如何在Python中动态创建类?说在前面答案是type你印象中的type是用来查看对象的类型的li=[]type(li)#得到list对自定义的类是这样的classPerson:......
python+playwright 学习-22理解Locator 定位机制与元素句柄 ElementHandle
前言ElementHandle表示页内DOM元素。ElementHandles可以使用page.query_selector()方法创建。如果你能理解ElementHandle和Locator定位机制，那也就明白了selenium......
Python常见面试题009. 元组和列表有什么区别
009.元组和列表有什么区别这个题是简单的，但要拿满分或者说高分不容易相同点共性说明可以存放任意元素一般都放同类型支持索引访问甚至是负数支持切......
python中的魔法属性吗
楔子作为动态语言，python里面提供了很多以双下划线：__开头和结尾的属性，我们称之为魔法属性，这些属性是对象所内置的。我们可以直接通过这些魔法属性动态地查看一个对象的信......
matplotlib:python数据处理三剑客之一
1.基本使用importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspd#生成一系列xx=np.linspace(-1,1,50)#生成对应的yy1=2*x+1y2=x......
Python写一个下载B站内容的GUI工具，视频、弹幕、评论都能下载，真的太方便了!
今天我们分享一个用Python写下载视频+弹幕+评论的代码。之前自游写了采集小破站视频、弹幕、评论的代码，还录了视频。我当时就问他，你就不能把这些写成GUI，把这些功能......

Python中的爬虫究竟是什么？

相关文章

赞助商

阅读排行