IRF概述
IRF(智能弹性架构),将多台设备通过IRF物理端口连接在一起,进行必要的配置后,虚拟化成一台“分布式设备”。使用这种虚拟化技术可以实现多台设备的协同工作、统一管理和不间断维护。
IRF的优点:
(1)简化管理:用户通过任意成员设备即可对IRF内所有成员设备进行统一管理。
(2)高可靠性:IRF的高可靠性体现在多个方面,主设备挂掉,备设备可接替工作,保证网络不受影响;同时设备上下链路支持聚合。
(3)强大的网络扩展能力:通过增加成员设备,端口数、带宽都得到扩展。因为各成员设备都有CPU,能够独立处理协议报文、进行报文转发。
IRF基本概念
1. 运行模式 (设备支持两种运行模式)
(1)独立运行模式:处于该模式下的设备只能单机运行,不能与别的设备形成IRF。
(2)IRF模式:处于该模式下的设备可以与其它设备互连形成IRF。
2.角色:master和slave。
3.IRF端口:专用于IRF的逻辑接口,分为IRF-Port1和IRF-Port2。它需要和物理端口绑定之后才能生效。 在独立运行模式下,IRF端口分为IRF-Port1和IRF-Port2;在IRF模式下,IRF端口分为IRF-Portn/1和IRF-Portn/2,其中n为设备的成员编号。
4. IRF合并:两个IRF各自已经稳定运行,通过物理连接和必要的配置,形成一个IRF。
5. IRF分裂:一个IRF形成后,由于IRF链路故障,导致IRF中两相邻成员设备物理上不连通,一个IRF变成两个IRF。
IRF工作原理
IRF的生命周期分为:物理连接、拓扑收集、角色选举、IRF的管理与维护四个阶段。
1.物理连接:略。
2.拓扑收集:
(1) 初始时刻,成员设备只记录了自身的拓扑信息;
(2) 当IRF端口状态变为up后,成员设备会将已知的拓扑信息周期性的发送出去;
(3) 成员设备收到邻居的拓扑信息后,会更新本地记录的拓扑信息。 经过一段时间的收集,所有设备上都会收集到完整的拓扑信息(称为拓扑收敛)。此时会进入角色选举阶段。
3.角色选举:
(1) 成员优先级大的优先
(2) 系统运行时间长的优先(各设备的系统运行时间信息也是通过IRF Hello报文来传递的)
(3) 桥MAC地址小的优先
4.IRF拓扑维护: 如果某成员设备A down或者IRF链路down,其邻居设备会立即将“成员设备A离开”的信息广播通知给IRF中的其它设备。获取到离开消息的成员设备会根据本地维护的IRF拓扑信息表来判断离开的是Master还是Slave,若离开的是Master,则触发新的角色选举,再更新本地的IRF拓扑;若是Slave,则直接更新本地的IRF拓扑,以保证IRF拓扑能迅速收敛。
5.多IRF冲突检测(MAD功能)(随笔中有一篇专门讲述MAD的。)
IRF链路故障会导致一个IRF变成两个新的IRF。这两个IRF拥有相同的IP地址等三层配置,会引起地址冲突,导致故障在网络中扩大。为了提高系统的可用性,当IRF分裂时我们就需要一种机制,能够检测出网络中同时存在多个IRF,并进行相应的处理尽量降低IRF分裂对业务的影响。MAD(Multi-Active Detection,多Active检测)就是这样一种检测和处理机制。它主要提供以下功能:
分裂检测:通过LACP(Link Aggregation Control Protocol,链路聚合控制协议)、BFD(Bidirectional Forwarding Detection,双向转发检测)或者免费ARP(Gratuitous Address Resolution Protocol)来检测网络中是否存在多个IRF。
冲突处理:当检测到网络中存在多个IRF时,让Master成员编号最小的IRF继续正常工作(维持Active状态),其它IRF会迁移到Recovery状态(表示IRF处于禁用状态),并关闭Recovery状态IRF中所有成员设备上除保留端口以外的其它所有物理端口(通常为业务接口),以保证该IRF不能再转发业务报文。
MAD故障恢复:IRF通过日志提示用户多Active冲突。此时设备会尝试自动修复IRF链路,如果修复失败的话,需要用户手工修复。IRF链路修复后,分裂的IRF会重新合并,Recovery状态IRF会自动恢复到Active状态,被关闭的物理端口将自动恢复转发能力。异常情况下(比如Active状态的IRF断电或者故障等),可以通过命令行启用Recovery状态的IRF,Recovery状态的IRF会恢复到Active状态,被关闭的物理端口也会恢复转发能力。