四、数据库技术基础
4.1数据库基本概念
4.1.1 数据库系统
数据:是数据库中存储的基本对象,是描述事务的符号记录
数据库DB:是长期存储在计算机内、有组织的、可共享的大量数据的集合
数据库的基本特征:
-
数据按照一定的数据模型组织、描述和存储
-
可为各种用户共享
-
冗余度较小
-
数据独立性高
-
易拓展
数据库系统DBS:是一个采用了数据库技术,有组织地、动态地存储大量相关数据,方便多用户访问的计算机系统。
数据库管理系统DBMS的功能:
-
实现对共享数据有效的组织、管理和存取
-
包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等
4.1.2 三级模式-两级映像
-
内模式:管理如何存储物理的数据,对应具体存储文件
-
模式:又称为概念模式,就是我们通常使用的基本表,根据应用、需求将物理数据划分为一张张表
-
外模式:对应数据库中的视图这个级别,将表进行一定的处理后再提供给用户使用
-
外模式-模式映像:是表和视图之间的映射,存在于概念级和外部级之间,若表中的数据发生了修改,只需要修改此映射,而无需修改应用程序
-
模式-内模式映像:是表和数据物理存储之间的映射,存在于概念级和内部级之间,若修改了数据存储方式,只需要修改此映射,而不需要去修改应用程序
4.1.3 数据库设计
-
需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书
-
概念结构设计:设计E-R图,即实体-联系图,与物理实现无关,说明哪些是实体,实体有哪些属性
-
逻辑结构设计:将E-R图,转换为关系模式,即转换成实际的表和表中的列属性
-
物理设计:根据生成的表等概念,生成物理数据库
4.1.4 E-R模型
-
关系模式是二维表的形式表示的实体-联系模型,是将实体-联系模型转换而来的,经过开发人员设计的
-
概念模型是从用户的角度进行建模的,是现实世界到信息世界的第一抽象,是真正的实体-联系模型
-
网状模型表示实体类型及其实体之间的关系,一个事物和另外几个都有联系,形成一张网
-
面向对象模型是采用面向对象的方法设计数据库,以对象为单位,每个对象包括属性和方法,具有类和继承的特点
数据模型三要素:数据结构(所研究的对象类型的集合)、数据操作(对数据库中各种对象的实例允许执行的操作的集合)、数据的约束条件(一组完整性规则的集合)
用E-R图来描述概念数据模型,在E-R模型中,使用椭圆表示属性(一般没有)、长方形表示实体、菱形表示联系(联系两端要填写联系类型)
-
实体:客观存在并可相互区别的事物
-
弱实体和强实体:弱实体依赖于强实体而存在
-
实体集:具有相同类型和共享相同属性的实体的集合
-
属性:实体所具有的特性
-
属性分类:简单属性和复合属性;单值属性和多值属性;NULL属性;派生属性
-
域:属性的取值范围称为该属性的域
-
码(key):唯一标识实体的属性集
-
联系:现实世界中事物内部以及事物之间的联系,在E-R图中反映为实体内部的联系和实体之间的联系
-
联系类型:1:1、1:N、N:N
4.1.5 关系模式
关系模型
关系模型中数据的逻辑结构是一张二维表,由行列组成。用表格结构表达实体集,用外键标识实体间的联系。
优点:建立在严格的数据概念基础上;概念单一、结构简单、清晰、用户易懂易用;存取路径对用户透明,从而数据独立性、安全性好,简化数据库开发工作
缺点:由于存取路径透明,查询效率往往不如非关系型数据模型
E-R模型转换为关系模型
每个实体都对应一个关系模式。
1:1联系中,联系可以放到任意的两端实体中,作为一个属性(要保证1:1的两端关联),也可以转换为一个单独的关系模式;
1:N的联系中,联系可以单独作为一个关系模式,也可以在N端中加入1端实体的主键
M:N的联系中,联系必须作为一个单独的关系模式,其主键是M和N端的联合主键
4.1.6 关系代数
-
并:结果是两张表中所有记录数合并,相同记录只显示一次
-
交:结果是两张表中相同的记录
-
差:S1-S2,结果是S1表中有而S2表中没有的那些记录
选择:实际是按条件选择某关系模式中的某条记录
投影:实际是按条件选择某关系模式中的某列,列也可以用数字表示
笛卡尔积:S1*S2,产生的结果包括S1和S2的所有属性列,并且S1中每条记录依次和S2中所有记录组合成一条记录,最终属性列为S1+S2属性列,记录数为S1 * S2记录数
自然连接:结果显示全部的属性列,但是相同的属性列只显示一次,显示两个关系模式中属性相同其值相同的记录
4.2规范化和并发
4.2.1 函数依赖
-
给定一个X,能唯一确定一个Y,就称X确定Y,或者说Y依赖于X,例如:Y=X*X函数
函数依赖可以拓展以下两种规则
-
部分函数依赖:A可以确定B,(A,B)也可确定C,(A,B)中的一部分(即A)可以确定C,称为部分函数依赖
-
传递函数依赖:当A和B不等价时,A可确定B,B可确定C,则A可确定C,是传递函数依赖;若A和B等价,则不存在传递,直接就可确定C
函数依赖的公理系统
设关系模式R<U,F>,U是关系模式R的属性全集,F是关系模式R的一个函数依赖集。对于R<U,F>来说有以下的:
-
自反律:若Y⊆X⊆U,则X->Y为F所逻辑蕴含
-
增广律:若X->Y为F所逻辑蕴含,且Z⊆U,则XZ->YZ为F所逻辑蕴含
-
传递率:若X->Y和Y->Z为F所逻辑蕴含,则X->Z为F所逻辑蕴含
-
合并规则:若X->Y,X->Z,则X->YZ为F所蕴含
-
伪传递率:若X->Y,WY->Z,则XW->Z为F所蕴含
-
分解规律:若X->Z,Z⊆Y,则X->Z为F所蕴含
4.2.2 键与约束
-
超键:能唯一标识此表的属性的组合
-
候选键:超键中去掉冗余的属性,剩下的属性就是候选键
-
主键:任选一个候选键,即可作为主键
-
外键:其他表中的主键
-
主属性:候选键内的属性为主属性,其他属性为非主属性
-
实体完整性约束:即主键约束,主键值不能为空,也不能重复
-
参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或者为空
-
用户自定义完整性约束:自定义表达式约束,如设定年龄属性的值必须在0-150之间
4.2.3 范式
-
第一范式1NF:关系中每一个分量必须是一个不可分的数据项。
-
第二范式2NF:如果关系R属于1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R属于2NF。消除了非主属性对主属性的部分函数依赖
-
第三范式3NF:在满足2NF的基础上,表中不存在非主属性对码的传递依赖。消除了非主属性对主属性的传递依赖
-
BC范式BCNF:是指在第三范式的基础上进一步消除主属性对码的部分函数依赖和传递依赖。
候选关键字的求法:根据依赖集,找出从未在右边出现过的属性,必然是候选键之一,以该属性为基础,根据依赖集依次拓展,看能否遍历所有属性,将无法遍历的加入候选键中。
4.2.4 模式分解
-
范式之间的转换一般是通过拆分属性,即模式分解,将具有部分函数依赖和传递依赖的属性分离出来,来达到一步步优化,一般分为以下两种
-
保持函数依赖分解
对于关系模式R,有依赖集F,若对R进行分解,分解出来多个关系模式,保持原来的依赖集不变,则为保持函数依赖的分解。另外,注意消除掉冗余依赖(如传递依赖)
-
无损分解
分解后的关系模式能够还原出原关系模式,就是无损分解,不能还原就是有损
当分解为两个关系模式,可以通过以下定理判断是否无损分解:
-
如果R的分解为p={R1,R2},F为R所满足的函数依赖集合,分解p具有无损连接性的充分必要条件是R1∩R2->(R1-R2)或者R1∩R2->(R2-R1)
-
当分解为三个及以上关系模式时,可以通过表格法求解
4.2.5 并发控制
事务:有一系列操作组成,这些操作要么全做,要么全不做,拥有四种特性
-
(操作)原子性:要么全做,要么全不做
-
(数据)一致性:事务发生后数据是一致的
-
(执行)隔离性:任一事务的更新操作直到其成功提交的整个过程对其他事务都是不可见的,不同事务之间是隔离的,互不干涉
-
(改变)持续性:事务操作的结果是持续性的
事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,提高系统效率,但是在并发控制中存在三个问题
-
丢失更新:事务1对数据A进行了修改并写回,事务2也对数据A进行了修改并写回,此时事务2写回的数据会覆盖事务1写回的数据,就丢失了事务1对A的更新。即对数据A的更新会被覆盖
-
不可重复读:事务2读A,而后事务1对数据A进行了修改病写回,此时若事务2再读A,发现数据不对。即一个事务重复读A两次,会发现数据A有误
-
读脏数据:事务1对数据A进行了修改后,事务2读数据A,而后事务1回滚,数据A恢复了原来的值,那么事务2对数据A做的事是无效的,读到了脏数据
4.2.6 封锁协议
-
X锁是排它锁(写锁):若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能对A再加任何类型的锁,直到T释放A上面的锁
-
S锁是共享锁(读锁):若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事物只能再对A加S锁(也即能读不能修改),直到T释放A上面的锁
共分三级封锁协议
-
一级封锁协议:事务在修改数据R之前必须先对其加X锁,直到事务结束才释放。可解决丢失更新问题。
-
二级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁。可解决丢失更新、读脏数据问题。
-
三级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,直到事务结束才释放。可解决丢失更新、读脏数据、数据重复读问题。
4.3 数据库新技术
4.3.1 数据库安全
数据库安全措施
-
用户标识和鉴定:最外层的安全保护措施,可以使用用户账户、口令及随机数检验等方式
-
存取控制:对用户进行授权,包括操作类型和数据对象的权限
-
密码存储和传输:对远程终端信息用密码传输
-
视图的保护:对视图进行授权
-
审计:使用一个专用文件或数据库,自动将用户对数据库的所有操作记录下来
故障处理
事务本身的可预期故障(本身逻辑):在程序中预先设置RollBack语句
事务本身的不可预期故障(算术溢出、违反存储保护):由DBMS的恢复子系统通过日志,撤销事务对数据库的修改,回退到事务初始状态
系统故障(系统停止运转): 通常使用检查点法
介质故障(外存被破坏):一般使用日志重做业务+
数据备份
静态转储:即冷备份,指在转储期间不允许对数据库进行任何存取、修改操作;优点是能非常快速的备份方法、容易归档(直接物理复制操作);缺点是只能提供到某一时间点上的恢复,不能按表或按用户恢复
动态转出:即热备份,在转储期间允许对数据库进行存取、修改操作,因此,转储和用户事务可并发执行;优点是可在表空间或数据库文件级备份,数据库仍可使用,可达到秒级恢复;缺点是不能出错,否则后果很严重,若热备份不成功,所得结果几乎全部无效
完全备份:备份所有数据
差量备份:仅备份上一次完全备份之后变化的数据
增量备份:备份上一次备份之后变化的数据
-
日志文件:在事务处理的过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态
4.3.2 分布式数据库
局部数据库位于不同的物理位置,使用一个全局的DBMS将所有的局部数据库联网管理,这就是分布式数据库
-
分片模式
-
水平分片:将表中水平的记录分别存放在不同的地方
-
垂直分配:将表中垂直的列值分别存放在不同的地方
-
-
分布透明性
-
分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的
-
位置透明性:应用程序不关心数据存储物理位置的改变
-
逻辑透明性:用户或应用程序无需知道局部使用的是哪种数据模型
-
复制透明性:用户或应用程序不关心复制的数据从何而来
-
4.3.3 数据仓库
数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合,用于支持管理决策
-
面向主题的:按照一定的主题域进行组织的
-
集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息
-
相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库之后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只要定期的加载、刷新
-
反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点(如开始应用数据仓库的时点)到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测
数据仓库的结构通常包含四个层次
-
数据源:是数据仓库的基础,使整个系统的数据源泉
-
数据的存储和管理:是整个数据仓库系统的核心
-
OLAP(联机分析处理)服务器:对分析需要的数据进行有效的集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势
-
前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具
商业智能
BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段
-
数据预处理是整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL)
-
建立数据仓库则是处理海量数据的基础
-
数据分析是体现系统智能的关键,一般采用联机分析处理(OLAP)和数据挖掘两大技术。联机分析处理不仅进行数据的汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量的数据进行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题
-
在海量数据和分析手段增多的情况下,数据展现则主要保障系统分析结果的可视化
4.3.4 反规范化技术
反规范化技术:规范化设计后,数据库设计者希望牺牲部分规范化来提高性能
采用反规范化技术的益处:降低连接操作的需求、降低外码和索引的数据,还可能减少表的数据,能够提高查询效率
可能带来的问题:数据的重复存储,浪费了磁盘空间;可能出现数据的完整性问题,为了保障数据的一致性,增加了数据维护的复杂性,会降低修改速度
具体方法
-
增加冗余列:在多个表中保留相同的列,通过增加数据冗余减少或避免查询时的连接操作
-
增加派生列:在表中增加可以由本表或其它表中数据计算生成的列,减少查询时的连接操作并避免计算或使用集合函数
-
重新组表:如果许多用户需要查看两个表连接出来的结果数据,则把这两个表重新组成一个表来减少连接从而提高性能
-
水平分割表:根据一列或多列数据的值,把数据放到多个独立的表中,主要用于表数据规模很大、表中数据相对独立或数据需要存放到多个介质上使用
-
垂直分割表:对表进行分割,将主键和部分列放到一个表中,主键与其他列放到另一个表中,在查询时减少I/O次数
4.3.5 大数据
特点:大量化、多样化、价值密度低、快速化
大数据和传统数据比较:
比较维度 | 传统数据 | 大数据 |
---|---|---|
数据流 | GB或TB | PB级以上 |
数据分析需求 | 现有数据的分析与检测 | 深度分析(关联分析、回归分析) |
硬件平台 | 高端服务器 | 集群平台 |
要处理大数据:一般使用集成平台,称为大数据处理系统,其特征为:
高度可拓展性、高性能、高度容错、支持异构环境、较短的分析延迟、易用且开放的接口、较低成本、向下兼容
4.3.6 SQL语言
SQL语言中的语法关键字,不区分大小写:
创建表create table;
指定主键primary key();
指定外键foreign key();
修改表alter table();
删除表drop table();
索引index,视图view;
union:出现在两个SQL语句之间,将两个SQL语句的查询结果取或运算,即值存在于第一句或第二句都会被选出
intersect:对两个SQL语句的查询结果做与运算,即值同时存在于两个语句才被选出
标签:事务,数据库,实体,数据仓库,学习,软件,设计师,数据,属性 From: https://www.cnblogs.com/-Gin/p/18168479