vPC故障恢复
一、vPC故障场景
vPC存在的故障点较多,使用vPC的网络需要全面考虑vPC故障后的应急恢复和备用方案。下面讨论了一些故障场景:
Member Port故障:vPC防环机制失效,流量全从Peer Link经由另一个vPC Peer转发,为了防止Peer Link过载,要求Peer Link链路必须是10Gbps。
Keepalive Link故障:不影响业务流量转发,但是需要尽快处理,防止Peer Link也down后导致脑裂。
Peer Link故障:Keepalive Link正常通信
Peer Link恢复<3s,Secondary不执行任何动作;
3s<Peer Link恢复<8s,判断为线路断开,Secondary执行动作:suspend所有Member Port和SVI,以防止脑裂。流量均从Primary走,如果Secondary下挂non-vpc接口,那么就会造成流量黑洞。
PKL先故障,PL后故障:
PKL和PL同时down:未知的流量转发行为。
Primary Switch故障:Peer Link和Keepalive Link同时down,Secondary Switch会在等待超出3个Keepalive times后接替成为Operational Primary,no shutdown所有的Member Ports和SVIs,负责流量转发(需要开启Auto-Recovery)。
二、组合故障场景的解决方案
1、Object Tracking
Object Tracking用于当Peer Link和Uplink位于同一块线卡上,如果该线卡down,那么接入交换机上来的流量将被丢弃。Peer Link down,Keepalive检查后Secondary shutdown所有Member Ports和SVIs,流量只能从Primary转发,但是Primary的Uplink故障导致流量黑洞(南北向流量瘫痪)。
Object Tracking通过定义对象,并将对象关联到监控组中,执行实时监控。
2、Auto-Recovery
1)Auto-Recovery Feature 1
当Peer Link先故障,Secondary的Member Ports和SVIs全部被suspend,流量全部走Primary。随后Keepalive Link也故障,出现这种情况下思科认为是Primary整机故障,针对这种故障场景提出了Auto-Recovery特性来快速恢复流量转发。
Auto-Recovery特性1:Secondary等待连续的3 * Keepalive time,超时后将Secondary的所有suspend的Member Ports和SVIs启用,后续流量由Secondary转发。
2)Auto-Recovery Feature 2
当数据中心供电出现故障或者Primary和Secondary被意外断电恢复后,出现一台up,一台down的情况。针对这种故障场景提出了Auto-Recovery特性来快速恢复流量转发。
Auto-Recovery特性2:vPC Peer等待240s后,如果仍收不到对方的keepalive,则强制起vPC,执行流量转发。
评论