爬虫01

爬虫01

时间：2022-09-06 16:23:07浏览次数：64

标签：01 浏览器请求爬虫 html 服务器数据客户端

爬虫

通过编写程序来获取互联网资源

需求：用程序模拟浏览器，输入一个网址，从该网址中获取到资源或者内容

python搞定以上需求

导包 from urllib.request import urlopen

2.写url
urlopen这个网址
返回得到内容

web请求过程剖析

两种渲染方式：

服务器渲染：在服务器那边直接把数据和html整合一起，统一返回给浏览器（即服务器收到的一定是带有内容的html）（数据能在源代码中找到的就是服务器渲染）
客户端渲染：所用的浏览器即为客户端，第一次请求只要了一个html骨架，第二次请求拿到数据，然后进行数据展示。在页面源代码中看不到数据

客户端向服务器发送网页请求，服务器会返回一个html骨架，就是只给了一个网页，里面没有内容，这时候客户端再次请求要数据，服务器返回数据，然后客户端接收数据后将该数据与骨架拼接。

HTTP协议

超文本传输协议，直白点，传输的就是网页页面源代码，浏览器和服务器之间的数据交互遵守的就是HTTP协议

HTTP在发送和得到数据分为请求和响应两大块

请求：1.请求行（请求方式（get/post）、请求URL地址、协议）

请求头 (放一些服务器要使用的附加信息)
请求体（放请求参数）

响应： 1.状态行（协议、状态码（200 302 500 404等））

2.响应头 (放一些客户端要使用的附加信息)

3.响应体（服务器返回的真正客户端要用的内容（html、json）等)

写爬虫格外注意请求头和响应头，这两个部分一般隐含较为重要的内容

请求头中常见重要内容：

User-Agent :请求载体的身份标识（浏览器，用什么浏览器发送的请求）
Refer:防盗链（这次请求是从哪个页面来的，反爬会用到）
cookie：本地字符串数据信息（用户登录信息，反爬的token）

响应头中常见重要内容：

cookie：本地字符串数据信息（用户登录信息，反爬的token）
各种神奇的莫名其妙的字符串（一般都是token字样，放置各种攻击和反爬）

请求方式：

GET 显示提交: 查询东西用get居多在浏览器地址栏里头的都是get方式提交的

POST 隐示提交:对服务器内容增加修改，上传一些内容用post居多

# 入门超小爬虫
from urllib.request import urlopen

url = "http://www.baidu.com"
response = urlopen(url)


with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(response.read().decode("utf-8"))  # decode解码 读取到网页的页面源代码
print("over")

标签：01,浏览器,请求,爬虫,html,服务器,数据,客户端
From： https://www.cnblogs.com/aowei/p/16662233.html

ASP.NET Core 01基础知识概述
Program.cs使用Web模板创建的ASP.NETCore应用包含Program.cs文件中的应用程序启动代码。Program.cs文件中包含：已配置应用所需的服务。应用的请求处理管道定义......
代码笔记24 windows+opencv4.5.5安装中出现的IPPICV: Download: ippicv_2020_win_inte
1环境介绍：windows10,visualstudio2019,CMake,OPENCV4.5.5出现问题IPPICV:Download:ippicv_2020_win_intel64_20191018_general.zipTry1failedCMakeWarninga......
01-linux基础命令
1、常用命令常用Linux命令的基本使用序号命令对应英文作用01lslist查看当前目录下的内容02pwdprintworkingderectory查看当前所在文件夹03cd[目录......
[极客大挑战 2019]Upload 1
进入可以看到，这时一道文件上传题目直接上传test.php提示Notimage不是图片，可能是MIME绕过，尝试抓包修改Content-Type提示Notphp，猜测可能是检测后缀名不能是php，将te......
Day01初识HTML
HTML+CSS+JavaScript结构+表现+交互重点：1.表单及表单应用1.表单初级验证什么是HTMLHyperTextMarkupLanguage(超文本语言)超文本包括：文字，......
第二章节控制流 01 scanner和m=m++的问题
第二章节控制流01scanner和m=m++的问题用户交互Scanner（扫描器）用完就要关掉I/O流会占用很多资源需要创建Scanner对象Scannerscanner=newScanner(System.in);通......
I [NOIP2012]开车旅行每次往第一或者第二近的点走，求最大比值倍增算法 set
链接：https://ac.nowcoder.com/acm/problem/16562来源：牛客网题目描述小A和小B决定利用假期外出旅行，他们将想去的城市从1到N编号，且编号较......
Java项目实战-瑞吉外卖day01
瑞吉外卖开发笔记笔记内容为黑马程序员视频内容1、软件开发整体介绍软件开发流程角色分工软件环境 2、瑞奇外卖项目介绍项目介绍 ......
P5664[CSP-S2019] Emiya 家今天的饭（dp + 计数）
P5664[CSP-S2019]Emiya家今天的饭（dp+计数）题目传送门题目大意：给定一个大小为\(n*m\)的表格，其中\(a_{i，j}\)表示用第\(i\)种烹饪方式并且有第\(j\)......
[极客大挑战 2019]LoveSQL 1
很明显这时一道SQL注入的题目这题很简单的SQL注入题目，使用union(联合查询注入)，但是缠了我很久为什么呢？因为我们学校的waf，很多可以注入成功的语句，他都会连接被重置，或者被b......

爬虫

web请求过程剖析

HTTP协议

相关文章

赞助商

阅读排行