猜想:
1.slot2電源掉電
logbuffer信息如下:
%@7764%Jul 22 03:35:55:403 2019 設備名稱 DRVPLAT/4/DrvDebug: The port Forty1/0/51 can't receive irf pkt and has been changed to inactive status, please check.
%@7765%Jul 22 03:35:55:403 2019 設備名稱 DRVMNT/3/ERRORCODE: ErrCode = 1866268676, IRF: STM Hello Check Fail.
%@7766%Jul 22 03:35:55:403 2019 設備名稱 DRVPLAT/4/DrvDebug: The port Forty1/0/52 can't receive irf pkt, please check.
%@7767%Jul 22 03:35:55:825 2019 設備名稱 DRVPLAT/4/DrvDebug: The port Forty1/0/51 has been changed to active status.
%@7768%Jul 22 03:36:02:709 2019 設備名稱 STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
%@7769%Jul 22 03:36:02:884 2019 設備名稱 STM/3/STM_LINK_STATUS_DOWN: IRF port 1 is down.
%@7770%Jul 22 03:36:02:926 2019 設備名稱 DEV/3/BOARD_REMOVED: Board was removed from slot 2, type is S5820V2-52QF.
%@7771%Jul 22 03:36:02:935 2019 設備名稱 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/49 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down.
%@7772%Jul 22 03:36:02:936 2019 設備名稱 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/50 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down.
%@7773%Jul 22 03:38:30:115 2019 設備名稱 CFGMAN/5/CFGMAN_CFGCHANGED: -EventIndex=5-CommandSource=snmp-COnfigSource=startup-COnfigDestination=running; Configuration is changed.
(0)
最佳答案
心跳超時,鏈路down或者對端設備down
(0)
當IRF正常運行時,隻有主設備上配置的MAD IP地址生效,從設備上配置的MAD IP地址不生效,BFD會話處於down狀態;(使用display bfd session命令查看BFD會話的狀態。如果Session State顯示為Up,則表示激活狀態;如果顯示為Down,則表示處於down狀態) · 當IRF分裂形成多個IRF時,不同IRF中主設備上配置的MAD IP地址均會生效,BFD會話被激活,此時會檢測到多Active衝突。
看日誌是1/0/51 和 1/0/52口同時can't receive irf pkt,所以不可能是鏈路down,很大可能就是設備掉電了
1.參考診斷日誌如何準確定位呢? 2.如果是堆疊線問題導致的堆疊分裂,mad把業務口自動shutdown,如果是bfd方式,那檢測口的狀態此時還是UP的嗎? 是不是還有一種現象,帶外管理時通時不通,因為此時管理口地址衝突
當IRF正常運行時,隻有主設備上配置的MAD IP地址生效,從設備上配置的MAD IP地址不生效,BFD會話處於down狀態;(使用display bfd session命令查看BFD會話的狀態。如果Session State顯示為Up,則表示激活狀態;如果顯示為Down,則表示處於down狀態) · 當IRF分裂形成多個IRF時,不同IRF中主設備上配置的MAD IP地址均會生效,BFD會話被激活,此時會檢測到多Active衝突。
堆疊分裂通常兩個原因:1、堆疊端口Down;2、心跳超時。這兩個原因導致的分裂現象是不同的。
如果是端口down,設備會立即感知,並馬上分裂,同時上報日誌;
如果是心跳超時,堆疊成員通過hello報文來互相檢測對方狀態,hello報文每200ms發一個,50個hello報文沒有收到後,認為對方狀態異常,進而引起堆疊分裂,刪除此設備並更新拓撲。所以心跳超時導致的分裂大概需要200ms*50=10秒。
從樓主提供的日誌信息來看, 03:35:55 堆疊端口F1/0/51、F1/0/52無法收到心跳,03:36:02,設備上報堆疊端口 IRF port 1 is down。大概7秒鍾左右。
很明顯,IRF分裂的原因就是心跳丟失導致的。IRF心跳丟失原因很多,通常是堆疊鏈路問題,比如:1、堆疊線纜或接口模塊問題;2、流量突發導致堆疊鏈路擁塞;……不過從上述日誌來看,對方設備應該沒有掉電,這個原因是可以排除的。
從當前提供的日誌來看還不足以判斷確切的原因,但問題排除的思路是明確的:鏈路或模塊是否故障,鏈路是否存在擁塞(看接口流量統計,並結合流量模型去判斷)。如果經過排查後不是這個原因,那麼需要借助更多的診斷信息來判斷是否是硬件或者IRF軟件問題了。
(0)
親~登錄後才可以操作哦!
確定你的郵箱還未認證,請認證郵箱或綁定手機後進行當前操作
舉報
×
侵犯我的權益
×
侵犯了我企業的權益
×
抄襲了我的內容
×
原文鏈接或出處
誹謗我
×
對根叔社區有害的內容
×
不規範轉載
×
舉報說明