认识网页结构和爬虫

时间：2023-05-05 21:55:43浏览次数：46

标签：网页 .. 认识爬虫 robots JScript txt CSS

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）

HTML

HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

常见的标签如下：

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
>..</a>表示超链接

CSS

CSS 表示样式，＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScript

JScript表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。

爬虫的合法性

robots.txt

几乎每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

想要查看robots.txt，在浏览器中访问 https://想要访问的网址/robots.txt即可。

User-Agent:*
Disallow:/

上文意思是除前面代码指定的爬虫外，不允许其他爬虫爬取任何数据。

标签：网页,..,认识,爬虫,robots,JScript,txt,CSS
From： https://www.cnblogs.com/ortas/p/17375459.html

python异步爬虫
异步爬虫基础知识阻塞阻塞状态指程序未得到所需计算资源时被挂起的状态。程序在等待某个操作完成期间，自身无法继续干别的事情，则该程序在操作上是阻塞的。常见的阻塞形式有：网络I/O阻塞、磁盘I/O阻塞、用户输入阻塞等。阻塞是无处不在的，包括在CPU切换上下文时，所有进程都......
爬虫使用http代理
1、每个过程从接口中随机取出IP列表，重复使用。失败后，调用API获取。一般逻辑如下:（1）每个过程，从接口中随机取回部分ip，反复尝试ip目录以获取数据；（2）如果访问成功，继续抓住下一个。（3）如果失败，从界面取一批IP，继续尝试。方案缺点:每个IP都有截止日期。如果提取100个，使用第20个，剩下的大部分可能......
利用Python爬虫采集1688商品详情数据 +商品列表数据+商品API接口（支持全网）
一、如何通过手动方式查看1688商品详情页面的数据1.1688商品详情API接口（item_get-获得1688商品详情接口），1688API接口代码对接可以获取到宝贝ID，宝贝标题，价格，掌柜名称，库存，最小购买数，宝贝链接，宝贝图片，品牌名称，商品详情，详情图片等页面上有的数据均可以获取到，手动方式如下：例......
Python爬虫scrapy框架教程
Scrapy是一个Python爬虫框架，用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤：安装Scrapy：在终端中运行pipinstallscrapy创建一个新项目：在终端中运行scrapystartprojectprojectname创建一个爬虫：在项目文件夹中运行scrapygenspiderspidername http://website.co......
Python爬虫scrapy框架教程
Scrapy是一个Python爬虫框架，用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤：安装Scrapy：在终端中运行pipinstallscrapy创建一个新项目：在终端中运行scrapystartprojectprojectname创建一个爬虫：在项目文件夹中运行scrapygenspiderspidername http://website.com编......
Python爬虫常用框架
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更......
极简爬虫通用模板
网络爬虫的一般步骤如下：1、确定爬取目标：确定需要爬取的数据类型和来源网站。2、制定爬取策略：确定爬取哪些网页、如何爬取和频率等。3、构建爬虫程序：使用编程语言（如Python）实现爬虫程序，通过HTTP请求获取网页内容，并进行解析和处理。4、数据存储：将爬取到的数据存储到数据库或文件......
认识 AI
深度学习先驱杰弗里-辛顿(GeoffreyHinton)周一宣布，在为谷歌公司工作十年后，他将辞去谷歌人工智能研究员的职务。他说，由于他越来越担心人工智能的潜在危害，他希望能自由发言。在宣布这一消息之前，《麻省理工科技评论》的人工智能高级编辑威尔-道格拉斯-斯蒂尔(WillDouglasHeaven)就......
关于Android studio的虚拟机Webview出现网页无法加载，显示net::ERR_NAMENOT_RESOLVED的
一开始出现了这个错误net::ERR_CLEARTEXT_NOT_PERMITTED参考这三个文献，https://www.cnblogs.com/suhq/p/14414882.htmlhttps://blog.csdn.net/qq_59125846/article/details/121953461https://blog.csdn.net/weixin_43169336/article/details/128379580都试了一遍后，问题消失，......
3-selenium反爬了，网页打开一直提示失败
添加如下代码fromselenium.webdriverimportChromeOptionsoption=ChromeOptions()option.add_experimental_option('excludeSwitches',['enable-automation'])option.add_argument("disable-blink-features=AutomationControlled")driver=we......

认识网页结构和爬虫

爬虫的合法性

相关文章

赞助商

阅读排行