当我们在浏览器中输入一个网址时,等访问结束后,就能看到对应的内容。那这个过程究竟发生了什么呢?
域名解析
首先,我们需要通过域名解析来获取对应的IP地址,因为访问一个机器需要知道它的IP地址。域名解析有三种渠道:
域名解析的渠道有三种:
- 缓存:包括浏览器缓存、操作系统缓存、运营商缓存和公共DNS缓存。
- DNS服务器
- 域名服务器:包括权限域名服务器、顶级域名服务器和根域名服务器。
两种解析方式:
在域名解析过程中,存在着递归查询和迭代查询两种方式。
- 递归查询是指客户端向本地DNS服务器发出请求,本地DNS服务器负责向其他DNS服务器查询直到找到结果,并将结果返回给客户端。
- 迭代查询是指DNS服务器之间相互查询的过程,每个DNS服务器只负责向下一个级别的服务器查询,并将结果逐级返回,最终将结果返回给客户端。
这两种方式相辅相成,确保了域名解析的高效和准确性。
网络建立
当查询到IP地址时,就需要和服务器建立连接了。由于浏览器使用的是HTTP协议,而HTTP协议是建立在TCP协议之上的,所以需要和服务器建立TCP连接。
建立连接过程中会存在连接池和排队问题:
- 如果连接已经存在,则直接使用。
- 如果连接满了,则会进入排队状态。
TCP的连接过程是三次握手:
- 浏览器(客户端)发送SYN包到服务器,进入 SYN_SENT 状态。
- 服务器收到SYN包,发送一个SYN和ACK包,并确认Client的消息,此时服务器进入SYN_RECV状态。
- Client收到服务器的SYN和ACK 消息,发送一个ACK消息给服务器,进入连接状态。
- 服务器收到 ACK 消息后,进入连接就绪的状态。
- 客户端和服务器都进入了连接就绪状态,可以开始数据传输。
此时,客户端和服务器都进入了连接建立状态,可以开始数据传输。
报文传输
在HTTP通信中,客户端发送请求报文给服务器,请求报文包括请求行、请求头和请求体等部分,用来告知服务器所需资源以及请求方式等信息。
服务器收到请求后,解析请求报文,处理请求,并返回响应报文给客户端,响应报文包括响应头和响应体等部分,用来告知客户端相应内容的属性和具体内容。这样的交互过程构成了 HTTP 通信的基础。
请求报文的发送
为了方便理解,我们以抓取百度的请求为例:
- 从上面的报文可以看到,我们告诉服务器我们的请求方式、请求路径等信息。
- 服务器收到请求后,解析出我们想要的资源内容。
- 服务器把内容读取并响应给客户端。
响应报文接收
- 客户端收到的内容中包含响应头和响应内容。
- 响应头告诉客户端相应内容的属性(长度、类型等)。
内容渲染
当浏览器拿到内容后:
- 根据解析HTML代码,并将其转换为DOM树。
- 根据DOM树,将网页中的元素显示在浏览器中。
- 根据CSS代码,对网页中的元素进行美化。
- 根据JavaScript代码,对网页中的元素进行动态交互。
渲染网页是整个过程中耗时的步骤,如果网页内容较多,渲染时间可能会比较长。
最终,经过这一系列处理,一个完整的网页就会在浏览器中渲染出来。
服务断开
通信结束后,浏览器会根据当前的策略决定是否断开当前TCP连接。在HTTP/1.1中,默认情况下,客户端和服务器之间的TCP连接是持久连接的,即连接不会在单个HTTP请求-响应周期之后立即断开,而是保持一段时间以便后续的请求复用。持久连接可以减少建立和断开连接的开销,并提高性能。
当通信结束后,根据当前的策略,浏览器可能会选择断开当前的TCP连接,释放资源以便其他连接使用。这种断开连接的过程也需要经过四次挥手,确保数据的完整性和安全性。
四次挥手
当请求达到释放策略后,开始进入TCP的断开流程:
- Client 进程发送断开消息,进入FIN-WAIT-1状态。
- Server收到断开消息,返回ACK报文。Server开始释放连接,Server进入CLOSE-WAIT 状态。
- Client收到ACK回来的消息,进入FIN-WAIT-2 状态。
- Server 释放资源完成后,再次通知 Client 可以关闭连接,Server进入LAST-ACK状态。
- Client收到服务器释放完成的消息后,经过2MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。最终关闭完成后通知Server。
- Server收到最后ACK消息后,直接进入CLOSED状态。