首页 > 其他分享 >【爬虫】第一章-Web基础知识

【爬虫】第一章-Web基础知识

时间:2024-04-02 22:00:14浏览次数:18  
标签:Web 字节 编码 标签 元素 爬虫 基础知识 Unicode 字符

目录

HTML

标签分类

空标签/单标签

1) <meta />元信息
2) <img />图片标签
3) <br />换行标签
4) <hr />水平线
5) <link />引入标签
6) <base />base标签

闭合标签/双标签

1) <html>页面标签</html>
2) <body>可视标签</body>
3) <head>头部标签</head>
4)<title>页面标题</title>
5) <div>盒子标签</div>
6) <p>段落标签</p>
7) <h1></h1>标题标签<h6></h6>
8) <span>空元素</sapn>
9) <em></em>斜体字体<i></i>
10) <strong></strong>加粗字体<b></b>
11) <ul>
	<li>无序列表</li>
	</ul>
12) <ol>
	<li>有序列表</li>
	</ol>
13)<dl>
       <dt>儿子</dt>
       <dd><女儿/dd>
    </dl>
14)<a href=””>超链接</a>
15)<iframe>内联框架</iframe>

块级元素

块级元素是指本身属性为display:block;的元素,通常用于进行大布局(大结构)的搭建。

默认情况下独占一行,宽度为父级的100%;支持设置宽高;支持上下左右的margin、padding值。

常用的块级元素有:
div 常用块级容器,也是css layout的主要标签

h1	   大标题
h2	   副标题
h3	   三级标题
h4	   四级标题
h5	   五级标题
h6	   六级标题
hr	           水平分隔线
menu      菜单列表
ol	           有序列表
ul	           无序列表
li	           列表项
dl	           定义列表
dt	           定义术语
dd	   定义描述
table       表格
p	           段落
form       交互表单

内联元素(行内元素)

内联元素是指本身属性为display:inline;的元素,常于进行文字、小图标(小结构)的搭建。

与其他元素并列在一行;不支持设置宽高,宽度随内容撑开;支持左右方向的margin、padding。

 常用的内联元素有:
span	  常用内联容器,定义文本内区块
a	          锚点
b	          加粗
strong	  加粗强调
i	          斜体
em	  斜体强调
s	          中划线(不推荐使用)
strike	  中划线
del	  文档中已被删除的文本
br	          强制换行
u	          下划线
textarea 多行文本输入框
input      输入框
select	   下拉列表
label	   input 元素定义标注(标记)
img	   引入图片
sub	   下标
sup	   上标
big	   大字体文本
small	   小字体文本

几种主要网页编码

Unicode(统一码、万国码、单一码)

是一种在计算机上使用的字符编码,可以容纳世界上所有文字和符号的字符编码方案,用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。只有一个低字节的Uncode字符其实就是Latin1字符,所以Unicode字符集兼容ASCII字符。Unicode又分为:UCS-2(用两个字节编码)和UCS-4(用四个字节编码)。UCS即Universal Character Set。若规定所有的字符都使用固定的最大字节数表示,则会造成空间浪费,而且存在传输问题(Unicode用至少两个字节的整数来表示一个字符,在大端机和小端机上两个字节的顺序正好是相反的,如下图所示),因此在实际的网页编码中常使用utf-8、utf-16等变长编码方式。
image

UTF-8

Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。

GB2312

GBK

标签:Web,字节,编码,标签,元素,爬虫,基础知识,Unicode,字符
From: https://www.cnblogs.com/Gimm/p/18111602

相关文章

  • js实现websocket断线重连功能
    在项目开发中我们可能经常要使用websocket技术,当连接发生断线后,如果不进行页面刷新将不能正常接收来自服务端的推送消息。为了有效避免这种问题,我们需要在客户端做断线重连处理。当网络或服务出现问题后,客户端会不断检测网络状态,如果服务恢复,客户端则会自动重新连接,并断开......
  • Web前端(JS)
    1.JavaScript简介及其导入方式什么是JavaScript?JavaScript简称JS。JavaScript是一种轻量级、解释型、面向对象的脚本语言。它主要被设计用于在网页上实现动态效果,增加用户与网页的交互性。作为一种客户端脚本语言,JavaScript可以直接嵌入HTML,并在浏览器中执行。与HTML和CSS......
  • 自然语言处理基础知识入门(二) Word2vec模型,层次softmax,负采样算法详解
    文章目录前言一、Word2vec模型1.1什么是Word2vec模型?1.2Word2vec模型是如何训练?1.3Word2vec最简单版本整体过程1.4Word2vec详细过程1.5CBOW整体过程1.6Skip-gram整体过程二、优化算法2.1层次softmax2.1.1哈夫曼树2.1.2算法详细逻辑2.2负采样策略总结......
  • SeaTunnel Web 在 Debian 环境的安装
    SeaTunnelWeb在Debian环境的安装目录SeaTunnelWeb在Debian环境的安装下载软件安装目录下载连接器测试SeaTunnel任务下载数据库驱动启动客户端模式配置web元数据库配置Web应用添加MySQL驱动配置JAVA_HOME配置SEATUNNEL_HOME下载连接器到Web复制连接器映射配置文件启动服......
  • webscoket 中的 mask 细节
    掩码用于给客户端到服务端的帧数据加密(异或的方式,非常简单),对此RFC6455中给了一些细节如下:Themaskingkeyiscontainedcompletelywithintheframe,asdefinedinSection5.2asframe-masking-key.Itisusedtomaskthe"Payloaddata"definedinthesamesection......
  • 基础知识-K8s(docker jenkins git)部分
    (0402,更新到Git)资料来源roadmap.sh一小时学会Git|GeekHourDocker部分Docker(容器)到底是什么我的例子预制菜的做法。为了能让使用者都能同一种食材和同一种烹饪方法,我特意在中央厨房,将一种菜式里的食材处理到半熟或者全熟的状态,然后用真空的包装包好,之后在仓库里存放。使......
  • 【javaWeb & 功能介绍第一篇】阿里云OSS文件上传
    文件上传文件上传存储文件本地存储云服务阿里云文件上传文件上传是将本地的图片,视频,音频等文件上传到服务器,供其他用户浏览或下载的过程文件上传在项目中应用十分广泛,我们经常发微博,发微信都用到了文件上传的功能在前端的开发之中,如果需要文件上传功能,则必须在......
  • .net core webapi统一修改日期时间的返回格式
    在写WebApi时,我们的日期时间往往是DateTime类型,如果直接返回,前端拿到的结果有可能会是这种格式:下面是如何将返回的DateTime字段统一改成自定义的格式首先创建一个自定义的JSON序列化器,定义一个继承System.Text.Json.Serialization.JsonConverter的类,实现Read和Write两个抽象方......
  • 54.html+css+js网页设计实例/“企业”酒庄主题介绍/web前端期末大作业/
    一、前言  本实例以“企业”酒庄为主题设计,应用html+css+js、图片轮翻效果、留言板、搜索等,供大家参考。【关注作者|获取更多源码(2000+个Web案例源码)|优质文章】;您的支持是我创作的动力!【点赞收藏博文】,Web开发、课程设计、毕业设计有兴趣的联系我交流分享,3Q!二、网页文......
  • COMP S380F Web应用程序的设计与开发
    COMPS380F集团项目(2024)COMPS380FWeb应用程序的设计与开发集团项目(15%)您需要组成一个最多由4名成员组成的小组,每个成员都应分担类似的工作量。主题:您需要为在线书店实现web应用程序。基本特征(占项目的60%):1.您的web应用程序应满足以下关于网页和功能的基本要求:a.使用讲座和实验室......