也许在某一个平行时空里,我们美好地相遇,白头偕老;也可能在另一个平行时空里,我们在人海中无数次擦身而过,素昧平生;只可惜在这个时空里,你的名字叫遗憾。
爬虫简介
1. 网络爬虫,是一种按照一定的规定,自动抓取互联网信息的程序或者脚本。
2. 爬虫运行原理:先获取数据,再处理数据,最后存储数据。
网页简介
1. 网址,又称统一资源定位符(URL), 用于标识资源在网络上的地址。
2. 一个网址通常由:网络协议类型、域名、资源在服务器中的位置组成。
3. 网址内有时还存在锚点,#...,用于快速定位页面内容。
浏览器上网原理
1. 用户向浏览器输入网址。
2. 浏览器根据我们的网址,找到对应域名的服务器,向服务器发送请求获取资源。
3. 服务器收到请求后做出响应,把资源交给浏览器。
4. 浏览器加载资源并呈现给用户。
开发者工具
1. 推荐使用谷歌浏览器,Ctrl+shift+I,打开开发者工具。
Elements面板
Network面板
1. Network面板记录了发生在该页面的所有请求---响应。
2. Network面板主要关注:功能区、筛选区、请求列表区。
3. 功能区主要关注:clear(清除)、Preserve log(保留请求记录)两个功能。
4. 筛选区主要关注:All、Others等标签。
5. 请求列表区:当开发者工具捕捉到新的请求时,会成列在请求列表区。
6. 请求名:name;请求状态:status;请求类型:type。
7. 点击name,则会在右边的Headers信息区的General部分了解到:请求网址,请求方法,状态码。
响应状态码
1. 面对浏览器发送过来的请求,服务器都会做出相应,而响应状态码可以反应出本次响应的状态。
2. 如果出现客户端错误,则返回404,并且将网页跳转至:
https://web.shanbay.com/codetime/home/404
。
3. 可能是用户输错了 URL,也可能是开发者将资源移动到了其它位置。
HTML文档
1. 点击name,则会在右边的Response信息区了解到:服务器响应后呈现的HTML文档。
2. HTML文档,即超文本标记语言,是计算机语言的一种,用来结构化Web网页及其内容。
HTML基本语法
1. HTML文档由元素构成,元素由三部分组成:开始标签、元素内容、结束标签。
2. p元素:段落;h元素:标题;a元素:超链接。
3. 元素的属性需要在元素的开始标签中标注,写成属性名称="属性值"的形式,如果一个元素有多个属性,属性与属性之间需要用一个空格隔开。
4. href属性,即超文本引用,用于描述超链接的属性,后面跟上超链接的链接。
5. target属性,默认值为_self,表示在当前页面打开链接;还可以改成_blank,表示会在浏览器新标签页打开链接。
6. class、id属性都是用来标识元素的,class可以重复出现,而id是唯一的。
7. style属性则能够为元素设置样式。
8. HTML中用img元素来描述图片。img元素有两个特殊属性,一个是src(图片来源属性),值是图片资源对应的URL;另一个是alt(用于替换的文本)属性,当用户无法查看图片时,浏览器会读取alt属性值,作为图片内容的替代信息展示给用户。
9. img元素只有开始标签,属于空元素;此外还有换行符br元素、水平分割线hr元素都是空元素。
10. 浏览器在解析HTML文档时,会忽略所有多余空格、换行符。
11.  字符表示空格。
12. code 元素用来描述代码。
致谢
标签:小白到,浏览器,请求,Python,牢饭,元素,HTML,标签,属性 From: https://blog.csdn.net/hsy1603914691/article/details/145121884感谢您花时间阅读这篇文章!如果您对本文有任何疑问、建议或是想要分享您的看法,请不要犹豫,在评论区留下您的宝贵意见。每一次互动都是我前进的动力,您的支持是我最大的鼓励。期待与您的交流,让我们共同成长,探索技术世界的无限可能!