一般来说,物理设计的主要工作步骤包括确定数据分布、存储结构和访问方式。
1.确定数据分布
从企业计算机应用环境出发,需要确定数据是集中管理还是分布式管理,目前企业内部网及因特网的应用越来越广泛,数据大都采用分布式管理。对于数据如何分布需要从以下几个方面进行考虑。
(1)根据不同应用分布数据。企业的不同部门一般会使用不同的数据,将与部门应用相关的数据存储在相应的场地,使得不同的场地上处理不同的业务,对于应用多个场地的业务,可以通过网络进行数据处理。
(2)根据处理要求确定数据的分布。对于不同的处理要求,也会有不同的使用频度和相应时间,对于使用频度高、响应时间短的数据,应存储在高速设备上。
(3)对数据的分布存储必然会导致数据的逻辑结构的变化,要对关系模式作新的调整,需要回到数据库逻辑设计阶段做必要的修改。
2.确定数据的存储结构
存储结构具体指数据文件中记录之间的物理结构。在文件中,数据是以记录为单位存储的,可以采用顺序存储、哈希存储、堆存储和树存储等方式。在实际应用中,要根据数据的处理要求和变更频度选定合理的物理结构。
为提高数据的访问速度,通常会采用索引技术。在物理设计阶段,要根据数据处理和修改要求,确定数据库文件的索引字段和索引类型。
3.确定数据的访问方式
数据的访问方式是由其存储结构所决定的,采用什么样的存储结构,就使用什么样的访问方式。数据库物理结构主要有存储记录格式、记录在物理设备上的安排及访问路径(存取方法)等构成。
3.1存储记录结构设计
存储记录结构包括记录的组成、数据项的类型、长度和数据项间的联系,以及逻辑记录到存储记录的映射。在设计记录的存储结构时,并不改变数据库的逻辑结构,但可以在物理上对记录进行分割。数据库中数据项的被访问频率是很不均匀的,基本上符合公认的“80/20规则”,即“数据库中检索的80%的数据由其中的20%的数据项组成”。
当多用户同时访问常用数据项时,往往会因为访盘冲突而等待。若将这些数据分布在不同的磁盘组上,当多用户同时访问常用数据项时,系统可并行地执行I/O,从而减少访盘冲突,提高数据库的性能。可见对于常用关系,最好将其水平分割称多个片,分布到多个磁盘组上,以均衡各个磁盘组的负荷,发挥多磁盘组并行操作的优势,提高系统性能。
3.2存储记录布局
存储记录的布局,就是确定数据的存放位置。存储记录作为一个整体,如何分布在物理区域上,是数据库物理结构设计的重要环节。采用聚簇功能可以大大提高按聚簇码进行查询的效率。聚簇不但可用于单个关系,也适用于多个关系。
建立聚簇索引的原则如下。
(1)聚簇码的值相对稳定,没有或很少需要进行修改。
(2)表主要用于查询,并且通过聚簇码进行访问或连接是该表的主要应用。
(3)对应每个聚簇码值的平均元组数既不太多,也不太少。
3.3存取方法的设计
存取方法是为存储在物理设备(通常是外存储器)上的数据提供存储和检索的能力,是快速存取数据库中数据的技术。存取方法包括存储结构和检索机制两部分。 其中存储结构限定了可能访问的路径和存储记录;检索机制定义了每个应用的访问路径。数据库系统是多用户共享系统,对同一个关系建立多条存取路径才能满足多用户的多种应用要求。为关系建立多种存取路径是数据库物理设计的任务之一。
在数据库中建立存取路径最普遍的方法是建立索引。确定索引的一般顺序如下。
(1)首先可确定关系的存储结构,即记录的存放是无序的,还是按某属性(或属性组)聚簇存放。
(2)确定不宜建立索引的属性或表。对于太小的表、经常更新的属性或表、属性值很少的表、过长的属性、一些特殊数据类型的属性(大文本、多媒体数据)和不出现或很少出现在查询条件中的属性不宜建立索引。
(3)确定宜建立索引的属性。例如,关系的主码或外部码、以查询为主或只读的表、范围查询、聚集函数(Min、Max、Avg、Sum、Count)或需要排序输出的属性可以考虑建立索引。
索引一般还需在数据库运行测试后,在加以调整。在RDBMS中,索引是改善存取路径的重要手段。使用索引的最大优点是可以减少检索的CPU服务时间和I/O服务时间,改善检索效率。但是,不能对进行频繁存储操作的关系建立过多的索引,因为过多的索引也会影响存储操作的性能。
标签:存储,记录,数据库,索引,设计,数据,物理 From: https://blog.csdn.net/huaqianzkh/article/details/137088197