首页 > 其他分享 >认识网页结构和爬虫

认识网页结构和爬虫

时间:2023-05-05 21:55:43浏览次数:37  
标签:网页 .. 认识 爬虫 robots JScript txt CSS

网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)

  • HTML

HTML 是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现的。

常见的标签如下:

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
>..</a>表示超链接
  • CSS

CSS 表示样式,<style type="text/css">表示下面引用一个 CSS,在 CSS 中定义了外观。

  • JScript

JScript表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。

 

爬虫的合法性

  •  robots.txt

几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

想要查看robots.txt,在浏览器中访问 https://想要访问的网址/robots.txt即可。

User-Agent:*
Disallow:/

上文意思是除前面代码指定的爬虫外,不允许其他爬虫爬取任何数据。

标签:网页,..,认识,爬虫,robots,JScript,txt,CSS
From: https://www.cnblogs.com/ortas/p/17375459.html

相关文章

  • python异步爬虫
    异步爬虫基础知识阻塞​ 阻塞状态指程序未得到所需计算资源时被挂起的状态。程序在等待某个操作完成期间,自身无法继续干别的事情,则该程序在操作上是阻塞的。​ 常见的阻塞形式有:网络I/O阻塞、磁盘I/O阻塞、用户输入阻塞等。阻塞是无处不在的,包括在CPU切换上下文时,所有进程都......
  • 爬虫使用http代理
    1、每个过程从接口中随机取出IP列表,重复使用。失败后,调用API获取。一般逻辑如下:(1)每个过程,从接口中随机取回部分ip,反复尝试ip目录以获取数据;(2)如果访问成功,继续抓住下一个。(3)如果失败,从界面取一批IP,继续尝试。方案缺点:每个IP都有截止日期。如果提取100个,使用第20个,剩下的大部分可能......
  • 利用Python爬虫采集1688商品详情数据 +商品列表数据+商品API接口(支持全网)
    一、如何通过手动方式查看1688商品详情页面的数据1.1688商品详情API接口(item_get-获得1688商品详情接口),1688API接口代码对接可以获取到宝贝ID,宝贝标题,价格,掌柜名称,库存,最小购买数,宝贝链接,宝贝图片,品牌名称,商品详情,详情图片等页面上有的数据均可以获取到,手动方式如下:例......
  • Python爬虫scrapy框架教程
    Scrapy是一个Python爬虫框架,用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤:安装Scrapy:在终端中运行pipinstallscrapy创建一个新项目:在终端中运行scrapystartprojectprojectname创建一个爬虫:在项目文件夹中运行scrapygenspiderspidername http://website.co......
  • Python爬虫scrapy框架教程
    Scrapy是一个Python爬虫框架,用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤:安装Scrapy:在终端中运行pipinstallscrapy创建一个新项目:在终端中运行scrapystartprojectprojectname创建一个爬虫:在项目文件夹中运行scrapygenspiderspidername http://website.com编......
  • Python爬虫常用框架
    大家都知道python是一门多岗位编程语言,学习python之后可以从事的岗位有很多,python爬虫便在其中,不过很多人对python不是很了解,所以也不知道python爬虫是什么,接下来小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言,相比于其他静态编程语言,Python抓取网页文档的接口更......
  • 极简爬虫通用模板
    网络爬虫的一般步骤如下:1、确定爬取目标:确定需要爬取的数据类型和来源网站。2、制定爬取策略:确定爬取哪些网页、如何爬取和频率等。3、构建爬虫程序:使用编程语言(如Python)实现爬虫程序,通过HTTP请求获取网页内容,并进行解析和处理。4、数据存储:将爬取到的数据存储到数据库或文件......
  • 认识 AI
    深度学习先驱杰弗里-辛顿(GeoffreyHinton)周一宣布,在为谷歌公司工作十年后,他将辞去谷歌人工智能研究员的职务。他说,由于他越来越担心人工智能的潜在危害,他希望能自由发言。在宣布这一消息之前,《麻省理工科技评论》的人工智能高级编辑威尔-道格拉斯-斯蒂尔(WillDouglasHeaven)就......
  • 关于Android studio的虚拟机Webview出现网页无法加载,显示net::ERR_NAMENOT_RESOLVED的
    一开始出现了这个错误net::ERR_CLEARTEXT_NOT_PERMITTED参考这三个文献,https://www.cnblogs.com/suhq/p/14414882.htmlhttps://blog.csdn.net/qq_59125846/article/details/121953461https://blog.csdn.net/weixin_43169336/article/details/128379580都试了一遍后,问题消失,......
  • 3-selenium反爬了,网页打开一直提示失败
    添加如下代码fromselenium.webdriverimportChromeOptionsoption=ChromeOptions()option.add_experimental_option('excludeSwitches',['enable-automation'])option.add_argument("disable-blink-features=AutomationControlled")driver=we......