首页 > 编程语言 >替换算法与写策略

替换算法与写策略

时间:2023-04-19 18:55:47浏览次数:43  
标签:缓存 策略 替换算法 访问 算法 数据 替换

一.基础认知

1.个人理解

替换算法是用于管理高速缓存(Cache)中数据的一种策略,当高速缓存已满并需要为新的数据腾出空间时,替换算法会决定哪些数据应该被从高速缓存中替换出去。

2.基础认知

首先,我们需要知道计算机的组成原理,在其中计算机可以划分为cache-主存主存-辅存两种层级结构,而平时CPU是只能访问主存中的内容。为了解决访问主存的速度和主存容量的问题,提出了两种技术方法:高速缓存和虚拟存储器。

其中我们需要了解一点:CPU与Cache或主存之间的数据交换以为单位,Cache和主存之间的数据交换以为单位,而主存与辅存之间的数据交换以段或页为单位。

根据程序的局部性原理,了解了高速缓存与虚拟存储器技术后,我们可以知道高速缓存(Cache)是主存内容的一个副本,在虚拟存储器同样有类似的道理,如果Cache满了之后需要进入新的块,就需要用到替换算法了。

3.常用的替换算法

  • 最近最少使用(LRU)
  • 先进先出(FIFO)
  • 随机替换算法
  • 最不经常使用算法(LFU)
  • 考虑时间因素的替换算法

下面针对这几种算法进行详细的举例介绍。

二.LRU

1.算法原理

如果一个数据在最近一段时间内没有被访问过,那么在将来它被访问的概率也很小。因此,当缓存满时,应该优先淘汰最近最少使用的数据。

2.编程思路

LRU算法维护了一个有序列表,列表的头部是最近最少使用的数据,当需要淘汰数据时,直接删除头部的数据即可。每次访问数据时,如果数据已经在列表中,就将其移动到队尾;如果不在列表中,则将其插入到队尾。这样可以保证队尾的数据是最近被访问的数据,队头的数据是最少被访问的数据。

LRU算法的实现可以通过哈希表和双向链表相结合来完成。哈希表用于快速定位数据是否在列表中,双向链表用于维护数据的顺序。当访问数据时,可以先在哈希表中查找数据是否存在,如果存在,则将数据移到队尾;如果不存在,则将数据插入到队尾,并在哈希表中添加对应的键值对。当需要淘汰数据时,直接删除队头节点即可。

LRU算法的时间复杂度为O(1),空间复杂度为O(n),其中n为缓存的大小。

3.优缺点

1.优点:

  • 实现简单:LRU算法的实现非常简单,只需要维护一个队列即可。

  • 缓存命中率高:LRU算法能够很好地利用局部性原理,保留最近经常使用的数据,从而提高缓存命中率。

  • 适应各种访问模式:LRU算法适用于各种访问模式,包括顺序访问、随机访问和局部性较强的访问模式。

2.缺点:

  • 时间复杂度高:LRU算法在实现过程中需要对缓存进行频繁的访问和更新操作,因此时间复杂度较高。

  • 空间复杂度高:LRU算法需要维护一个队列来记录缓存中各个数据的访问时间,因此空间复杂度较高。

  • 对冷启动不友好:当缓存刚启动时,因为缓存中没有任何数据,所以LRU算法无法正确预测哪些数据会被频繁访问,从而导致缓存命中率低下。

4.举例介绍

假设有一个缓存大小为4的LRU缓存,初始状态为空。现在依次访问以下数据:1, 2, 3, 4, 1, 2, 5, 1, 2, 3, 4, 5,下面是替换过程:

第一次访问数据1,缓存中插入数据1,列表变为[1]。

第二次访问数据2,缓存中插入数据2,列表变为[1, 2]。

第三次访问数据3,缓存中插入数据3,列表变为[1, 2, 3]。

第四次访问数据4,缓存中插入数据4,列表变为[1, 2, 3, 4]。

第五次访问数据1,数据1已经存在于缓存中,移动数据1到队尾,列表变为[2, 3, 4, 1]。

第六次访问数据2,数据2已经存在于缓存中,移动数据2到队尾,列表变为[3, 4, 1, 2]。

第七次访问数据5,缓存已满,淘汰最近最少使用的数据3,插入数据5,列表变为[4, 1, 2, 5]。

第八次访问数据1,数据1已经存在于缓存中,移动数据1到队尾,列表变为[4, 2, 5, 1]。

第九次访问数据2,数据2已经存在于缓存中,移动数据2到队尾,列表变为[4, 5, 1, 2]。

第十次访问数据3,缓存已满,淘汰最近最少使用的数据4,插入数据3,列表变为[5,1, 2, 3]。

第十一次访问数据4,缓存已满,淘汰最近最少使用的数据5,插入数据4,列表变为[1, 2, 3, 4]。

第十二次访问数据5,缓存已满,淘汰最近最少使用的数据1,插入数据5,列表变为[2,3, 4, 5]。

最终缓存中的数据为[2,3,4, 5]。

三.FIFO

1.算法原理

按照任务到达的先后顺序来进行调度,即先到达的任务先执行,后到达的任务后执行。

2.编程思路

无。(太简单了,不解释)

3.优缺点

1.优点:

  • 实现简单:FIFO算法是一种非常简单的调度算法,容易实现和理解。

  • 公平性好:由于FIFO算法按照任务到达的先后顺序进行调度,因此每个任务都能够获得公平的CPU时间片。

  • 适用范围广:FIFO算法适用于多种场景,如进程调度、线程调度、存储器管理等。

2.缺点:

  • 不考虑任务的执行时间:FIFO算法只考虑了任务到达的时间,而没有考虑任务的执行时间。如果一个任务需要运行的时间较长,就会导致其他任务等待的时间变长。

  • 容易产生“饥饿”现象:长时间运行的任务可能会占用大量的CPU时间片,导致其他任务无法及时得到响应,从而出现“饥饿”现象。

  • 低效率:由于FIFO算法不考虑任务的执行时间,因此可能会导致一些短时间任务等待较长时间,从而降低系统的执行效率。

4.举例介绍

假设有一个缓存大小为4的FIFO缓存,初始状态为空。现在依次访问1,2,3,4,1,2,5,1,2,3,4,5:

假设初始状态为空,则依次访问1,2,3,4时,缓存中的状态为:1 2 3 4

当访问1时,因为1已经在缓存中了,所以不需要替换任何数据。同理,当访问2、3、4时,也不需要进行数据替换。

接下来访问1,由于1已经在缓存中了,所以不需要做任何替换操作。访问2时同理,缓存状态仍为1 2 3 4。

当访问5时,由于5没有在缓存中,需要替换掉最早进入缓存的数据,即1。此时缓存状态为2 3 4 5。

接下来依次访问1、2、3、4时,都不需要进行数据替换,缓存状态保持不变为2 3 4 5。

最后再访问5时,因为5已经在缓存中了,所以不需要进行任何替换操作,缓存状态为2 3 4 5。

因此,FIFO缓存的替换过程就是:1、2、3、4不断加入缓存中,当访问到已经在缓存中的数据时不做替换操作;当访问到不在缓存中的数据时,替换掉最早进入缓存的数据。

四.LFU

1.算法原理

根据数据的访问频率来淘汰缓存中不常用的数据,从而保留常用的数据。(一般要结合其他算法使用)

2.编程思路

LFU算法维护了一个缓存页面列表,其中每个页面都有一个计数器,指示该页面被访问的次数。当需要替换页面时,LFU算法选择计数器值最小的页面进行替换。如果有多个页面具有相同的最小计数器值,则选择最久未被访问的页面进行替换。

LFU算法中的计数器可以是简单的整数计数器,也可以是其他类型的计数器,例如时间戳或加权计数器,以反映不同应用程序中数据的访问模式。

3.优缺点

1.优点:

  • 高效地利用缓存:LFU算法能够高效地利用缓存空间,保留经常使用的数据,从而提高缓存命中率。

  • 精确地反映数据访问模式:LFU算法可以精确地反映数据的访问模式,对于经常被访问的数据能够得到更好地保护,对于不常访问的数据能够及时淘汰。

  • 可自适应地调整计数器:LFU算法可以根据实际情况自适应地调整计数器的值,以适应不同应用程序中数据的访问模式。

2.缺点:

  • 算法实现复杂:LFU算法的实现比较复杂,需要维护一个缓存页面列表和对应的计数器,同时需要对计数器进行频繁的更新操作。

  • 对突发性访问不友好:LFU算法主要依赖于长期的访问模式,对于突发性访问的数据处理能力不强。

  • 对新数据不友好:当缓存中没有任何数据时,LFU算法无法判断数据的访问频率,因此可能导致缓存命中率较低。

4.举例介绍

假设缓存大小为4,初始状态为空。按照题目中的访问序列,依次访问每个数据,并记录缓存的替换过程:

  1. 访问数据1,缓存为空,将数据1加入缓存中:[1]
  2. 访问数据2,数据2不在缓存中,将其加入缓存:[1, 2]
  3. 访问数据3,数据3不在缓存中,将其加入缓存:[1, 2, 3]
  4. 访问数据4,数据4不在缓存中,将其加入缓存:[1, 2, 3, 4]
  5. 访问数据1,数据1已经在缓存中,更新其计数器:[2, 3, 4, 1]
  6. 访问数据2,数据2已经在缓存中,更新其计数器:[3, 4, 1, 2]
  7. 访问数据5,数据5不在缓存中,缓存已满,选取计数器最小的数据进行替换,得到:[3, 1, 2, 5]
  8. 访问数据1,数据1已经在缓存中,更新其计数器:[3, 2, 5, 1]
  9. 访问数据2,数据2已经在缓存中,更新其计数器:[3, 5, 1, 2]
  10. 访问数据3,数据3已经在缓存中,更新其计数器:[5, 1, 2, 3]
  11. 访问数据4,数据4不在缓存中,缓存已满,选取计数器最小的数据进行替换,得到:[1, 2, 3, 4]
  12. 访问数据5,数据5已经在缓存中,更新其计数器:[1, 2, 4, 5]

五.随机替换算法

1.基本认知

随机替换算法是一种常见的缓存替换算法,也称为RAND算法或RR(Random Replacement)算法。它的基本思想是,在缓存满时,随机选择一个块进行替换,从而避免了FIFO、LRU等算法中可能出现的“饥饿”和“抖动”等问题。

随机替换算法没有考虑数据使用的时间顺序和频率,因此不能保证命中率,但是由于其简单性和低开销特点,在某些情况下表现优秀。例如,当访问没有局部性或者缓存容量大时,随机替换算法能够表现得比其他算法更好。

但是需要注意的是,由于随机替换算法没有考虑数据使用的时间顺序和频率,因此可能会出现缓存替换后再次访问相同数据时仍然没有命中的情况,从而降低系统性能。由于这个问题的存在,随机替换算法在实际应用中并不常用,常常被其他算法所取代。

2.举例介绍

以下是一个随机替换算法的简单举例:

假设有4个缓存块,初始状态为空。现在依次访问10个数据块,它们的编号分别为:1、2、3、4、5、6、7、8、9、10。使用随机替换算法对它们进行缓存替换。

首先访问1,由于缓存为空,把1放入第一个缓存块。接下来访问2、3、4时,也都可以直接放入缓存中。

当访问到5时,由于缓存块已经满了,需要随机选择一个块进行替换。假设此时随机选择了第三个缓存块,将其替换成5。此时缓存状态为1 2 5 4。

接着访问6、7、8、9时,也可以直接放入缓存中。当访问到10时,由于缓存块已经满了,需要再次随机选择一个块进行替换。假设此时随机选择了第二个缓存块,将其替换成10。此时缓存状态为1 10 5 4。

整个访问过程结束后,缓存中的数据为1、10、5、4。在这个例子中,随机替换算法按照随机顺序替换缓存块,能够保证每个缓存块的使用次数相对平均,但是也可能会出现替换掉最近使用的数据块的情况。因此,在实际应用中需要根据具体情况进行综合考虑选择适当的缓存替换算法。

六.写策略

常见的Cache写策略有:

  1. Write-through策略:在数据写入缓存后,会立即将数据写回到主存中。这种策略可以保证数据的一致性,但是会增加主存的访问次数,降低系统性能。
  2. Write-back策略:在数据写入缓存后,并不立即将数据写回到主存中,而是等到缓存块被替换出去时再写回主存。这种策略可以减少主存访问次数,提高系统性能,但是可能会出现数据的不一致情况。为了避免数据的不一致,需要使用一些额外的技术,如脏位标记、写缓冲区等。
  3. Write-around策略:在数据写入时,直接将数据写入主存,而不是写入缓存。这种策略可以避免缓存污染问题,但是会增加主存的访问次数。
  4. Write-invalidate策略:当一个缓存块被修改时,需要将其它缓存中相同的块标记为无效。这种策略可以保证数据的一致性,但是会增加总线上的通信量和延迟。

选择哪种Cache写策略,需要考虑具体的应用场景和需求。例如,对于读多写少的应用,Write-through策略比较适合;对于写多读少的应用,Write-back策略比较适合。同时,还需要考虑系统的可靠性和性能要求等因素,综合选择最优的Cache写策略。

补充:本次的替换策略是基于计算机组成原理这门课的存储系统来介绍的,和操作系统中的页面调度算法,二者在原理上一样,具体操作不一样,具体情况具体分析。

标签:缓存,策略,替换算法,访问,算法,数据,替换
From: https://www.cnblogs.com/hong1953308269/p/17334336.html

相关文章

  • 缓存与数据库双写一致性几种策略分析
    作者:京东零售 于泷一、背景在高并发场景中,为防止大量请求直接访问数据库,缓解数据库压力,常用的方式一般会增加缓存层起到缓冲作用,减少数据库压力。引入缓存,就会涉及到缓存与数据库中数据如何保持一致性问题,本文将对几种缓存与数据库保证数据一致性的使用方式进行分析。为保证高......
  • 6.1.4 MySQL缓存策略
    LinuxC/C++服务器MySQL缓存策略大部分场景下MySQL的读要远远大于写的需求的,急需要解决的问题是提升读的性能......
  • 一种解决多系统web应用的策略,Module Federation(模块联邦)
    前言针对很多大型的web应用,往往会衍生出很多子应用,而这些子应用之间有时候又往往需要进行交互或者复用一些功能或者组件,这个时候有没有一个比较好的策略来实现这样的交互呢。答案是有的,试试webpack5提供的ModuleFederation。先来个示例万事先实操,然后再谈别的,不付诸实践的......
  • 组策略映射共享文件夹
    在编写了安装脚本之后,本节任务是将提供安装程序的共享文件夹自动映射到每个用户,为了方便每个用户,还可以在每个虚拟机的桌面自动创建快捷方式,现在介绍方法,主要内容如下。(1)在ActiveDirectory域服务器中,打开“组策略管理”程序,在“克隆链接组”组织单位中新建组策略,本示例中新建组策......
  • 【蝴蝶算法】基于随机惯性权重策略+最优邻域扰动策略+动态转换概率策略的蝴蝶算法求解
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 基于非对称纳什谈判的多微网电能共享运行优化策略
    基于非对称纳什谈判的多微网电能共享运行优化策略MATLAB代码,电网技术文献复现:关键词:纳什谈判合作博弈 微网电转气-碳捕集 P2P电能交易交易   参考文档:《基于非对称纳什谈判的多微网电能共享运行优化策略》完美复现仿真平台:MATLABCPLEX+MOSEKIPOPT主要内容:该代码......
  • matlab代码:基于主从博弈的智能小区代理商定价策略及电动汽车充电管理
    matlab代码:基于主从博弈的智能小区代理商定价策略及电动汽车充电管理摘要:提出了一种未来智能小区代理商的定价及购电策略,将代理商和车主各自追求利益最大化建模为主从博弈。该模型亦可为研究电动汽车参与的需求侧响应提供重要的借鉴。另外,还进一步通过Karush-KuhnTucker最优......
  • 策略模式
    概述《设计模式》一书中对于“策略模式”的意图描述如下:定义一系列算法,将它们一个个封装起来,并是他们可以相互替代一般策略模式的UML图如下所示:一般在以下几种情况中使用策略模式:许多相关的类仅仅是行为有异。“策略”提供了一种用多个行为中的一个行为来配置一个类......
  • eureka源码简单剖析-服务端(服务接口暴露策略)
    下面来看下服务接口暴露的策略。其中服务端使用了Jersey框架,而Jersey框架是一个发布restful风格接口的框架,类似我们使用的springmvc, 然后下面看下jersey部分    以上就是服务接口暴露的相关策略部分......
  • 提高查询效率,掌握MongoDB 4.2索引策略中的Measure Index Use技术
    1.使用$indexStats获取索引访问信息使用$indexStats聚合阶段获取有关集合的每个索引的使用情况的统计信息。例如,以下聚合操作返回有关orders集合上索引使用的统计信息:db.orders.aggregate([{$indexStats:{}}])版本3.2中的新功能。返回有关集合的每个索引的使用的统计信息......