• 全部
  • 經驗案例
  • 典型配置
  • 技術公告
  • FAQ
  • 漏洞說明
  • 全部
  • 全部
  • 大數據引擎
  • 知了引擎
產品線
搜索
取消
案例類型
發布者
是否解決
是否官方
時間
搜索引擎
匹配模式
高級搜索

7506E單引擎三個業務板卡其中兩塊板卡莫名down掉

5天前提問
  • 0關注
  • 0收藏,90瀏覽
粉絲:0人 關注:0人

問題描述:

故障現象:兩台7506E做了堆疊,穩定運行十年,無任何配置更改,物理鏈路更改等情況,突然堆疊分裂,主機三塊電口業務板卡全down,重啟後業務能恢複,但堆疊起不來。

係統日誌:

%Apr 5 18:53:58:140 2017 7506E IC/6/SYS_RESTART: -Chassis=1-Slot=0; System restarted --
H3C Comware Software.
%Jun 8 11:55:26:553 2025 7506E HA/5/HA_SLAVE_TO_MASTER: Slave board in chassis 2 slot 0 changes to master.
%Jun 8 11:55:26:808 2025 7506E BFD/5/BFD_CHANGE_FSM: Sess[172.28.100.2/172.28.100.1,129/129,Vlan999,Ctrl], Sta: DOWN->UP, Diag: 0
%Jun 8 11:55:26:810 2025 7506E MAD/1/MAD_COLLISION_DETECTED: Multi-active devices detected, please fix it.
%Jun 8 11:55:26:823 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/1 link status is DOWN.
%Jun 8 11:55:26:870 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/2/0/23 of aggregation group BAGG4 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:26:910 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/2/0/23 link status is DOWN.
%Jun 8 11:55:26:958 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 2, type is LSQ1GP24SC.
%Jun 8 11:55:26:979 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 3, type is LSQ1GV48SA.
%Jun 8 11:55:27:005 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 4, type is LSQ1GV48SC.
%Jun 8 11:55:27:039 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/3 link status is DOWN.
%Jun 8 11:55:27:040 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/3/0/3 of aggregation group BAGG51 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:27:214 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/2 link status is DOWN.
%Jun 8 11:55:27:256 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/3/0/4 of aggregation group BAGG52 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:27:298 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/4 link status is DOWN.
%Jun 8 11:55:27:427 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/13 link status is DOWN.
%Jun 8 11:55:27:472 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/14 link status is DOWN.
%Jun 8 11:55:27:744 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/3 link status is DOWN.
%Jun 8 11:55:28:158 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation51 link status is DOWN.
%Jun 8 11:55:28:355 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/4 link status is DOWN.
%Jun 8 11:55:28:887 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/5 link status is DOWN.
%Jun 8 11:55:28:951 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/6 link status is DOWN.
#Jun 8 14:20:53:787 2025 7506E IFNET/4/INTERFACE UPDOWN:
Trap 1.3.6.1.6.3.1.1.5.3<linkDown>: Interface 177209350 is Down, ifAdminStatus is 1, ifOperStatus is 2
%Jun 8 14:20:53:819 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/7 link status is DOWN.
%Jun 8 11:55:29:494 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/7 link status is DOWN.
%Jun 8 11:55:29:947 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/8 link status is DOWN.
%Jun 8 11:55:30:444 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/10 link status is DOWN.
%Jun 8 11:55:30:985 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/13 link status is DOWN.
%Jun 8 11:55:31:766 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/14 link status is DOWN.
%Jun 8 11:55:31:818 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation4 link status is DOWN.
%Jun 8 11:55:31:951 2025 7506E LAGG/5/LAGG_INACTIVE_CONFIGURATION: Member port GigabitEthernet2/4/0/31 of aggregation group BAGG50 becomes INACTIVE because the port's configuration is improper for being attached.
%Jun 8 11:55:32:075 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/31 link status is DOWN.
%Jun 8 11:55:32:362 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation50 link status is DOWN.
%Jun 8 11:55:32:362 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation52 link status is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface2 link status is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface2 is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface10 link status is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface10 is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface11 link status is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface11 is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface12 link status is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface12 is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface27 link status is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/5/L

組網及組網描述:

雙7506E堆疊,目前通過dis dev 查看板卡狀態信息正常

<7506E>dis dev verbose 

Chassis   Slot Type             State    Subslot  Soft Ver          Patch Ver

2         0    LSQ1SRP2XB       Master   0        S7500E-6710P03    None

2         1    NONE             Absent   0        NONE              None

2         2    LSQ1GP24SC       Normal   0        S7500E-6710P03    None

2         3    LSQ1GV48SA       Normal   0        S7500E-6710P03    None

2         4    LSQ1GV48SC       Normal   0        S7500E-6710P03    None

2         5    NONE             Absent   0        NONE              None

2         6    NONE             Absent   0        NONE              None

2         7    NONE             Absent   0        NONE              None

2         8    SRP2XBSLAVE      Normal   0        S7500E-6710P03    None

2         9    NONE             Absent   0        NONE              None

1 個回答
粉絲:41人 關注:0人

看下收發光正常不?看下deepseek回複

關鍵日誌分析

  1. 堆疊分裂與主備倒換

    • %HA/5/HA_SLAVE_TO_MASTER: Slave board in chassis 2 slot 0 changes to master
      從設備(Chassis 2)升級為主控,表明原主設備(Chassis 1)失效。

    • %MAD/1/MAD_COLLISION_DETECTED: Multi-active devices detected
      MAD檢測到雙主衝突,確認堆疊分裂。

  2. 主設備(Chassis 1)硬件故障

    • %DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 2/3/4
      Slot 2/3/4的三塊業務板卡同時報告故障(LSQ1GP24SC/LSQ1GV48SA等)。
      關鍵點:多槽位板卡瞬間集體故障,極可能是 主控板(Slot 0)或背板供電/通信故障 引發連鎖反應。

  3. 鏈路大規模宕機

    • 所有 GigabitEthernet2/x/x/x 端口(屬於Chassis 2)的物理鏈路DOWN,因堆疊分裂後邏輯端口失效。

    • 聚合接口(BAGG4/BAGG51等)因物理端口DOWN變為INACTIVE。

  4. BFD與MAD聯動異常

    • BFD會話在分裂後短暫恢複UP(BFD_CHANGE_FSM: DOWN->UP),但MAD仍檢測到衝突,說明堆疊邏輯已破壞。


故障根本原因

  • 主控板(Chassis 1 Slot 0)硬件老化:運行十年後,主控板電容、芯片等元件可能失效,導致突發重啟(%SYS_RESTART)並觸發堆疊分裂。

  • 背板故障:若主控板正常,但背板供電或通信模塊損壞,會導致多槽位板卡同時異常(Slot 2/3/4 FAULT)。

  • 堆疊鏈路單點故障:雖無配置變更,但堆疊線纜/光模塊老化可能導致分裂,但此情況通常不會引發多板卡故障。


解決步驟

1. 緊急恢複業務

  • 主設備(Chassis 1)下電檢修

    bash
    複製
    下載
    system-view irf member 1 priority 1 # 降低優先級防止誤切主 quit reboot slot 1 # 強製重啟Chassis 1
  • 臨時運行業務
    若重啟後堆疊仍無法恢複,暫時以 單機模式 運行Chassis 2(當前主設備),確保業務不中斷。

2. 硬件診斷

  • 檢查主控板狀態

    bash
    複製
    下載
    display device # 查看Chassis 1 Slot 0狀態 display environment # 檢查溫度/電源
    • 若狀態為FAULTAbsent更換主控板

  • 測試背板與業務板卡

    • 將Chassis 1的業務板卡(Slot 2/3/4)插入Chassis 2的空閑槽位,驗證是否正常。

    • 若仍報錯,更換故障板卡;若正常,則Chassis 1背板故障。

3. 堆疊重建

  • 重置堆疊配置(避免配置衝突):

    bash
    複製
    下載
    system-view irf domain 0 # 進入IRF域 irf auto-update enable # 啟用自動配置同步 undo irf-port 1/1 # 刪除原堆疊口 quit
  • 重新配置堆疊

    bash
    複製
    下載
    irf member 1 priority 32 # 設置Chassis 1為主 irf member 2 priority 1 # Chassis 2為備 interface range Ten-GigabitEthernet 1/0/xx to 2/0/xx # 堆疊物理端口 irf-port 1/1 port group interface Ten-GigabitEthernet1/0/xx port group interface Ten-GigabitEthernet2/0/xx
  • 激活堆疊

    bash
    複製
    下載
    irf-port-configuration active save reboot

4. 預防措施

  • 更換老化硬件:優先更換主控板、堆疊線纜及使用超10年的板卡。

  • 配置MAD多主檢測:確保使用BFD或LACP檢測,快速隔離故障。

  • 堆疊鏈路冗餘:至少配置2條堆疊鏈路,分屬不同板卡。

  • 定期維護

    • 清潔設備風扇/濾網,避免過熱。

    • 每年進行堆疊切換測試。


結論

核心故障點是Chassis 1的主控板(Slot 0)或背板硬件老化。建議立即更換主控板並重建堆疊,同時規劃硬件迭代(設備已運行10年,進入故障高發期)。若背板損壞,需整機更換。


暫無評論

編輯答案

你正在編輯答案

如果你要對問題或其他回答進行點評或詢問,請使用評論功能。

分享擴散:

提出建議

    +

親~登錄後才可以操作哦!

確定

親~檢測到您登陸的賬號未在http://hclhub.h3c.com進行注冊

注冊後可訪問此模塊

跳轉hclhub

你的郵箱還未認證,請認證郵箱或綁定手機後進行當前操作

舉報

×

侵犯我的權益 >
對根叔社區有害的內容 >
辱罵、歧視、挑釁等(不友善)

侵犯我的權益

×

泄露了我的隱私 >
侵犯了我企業的權益 >
抄襲了我的內容 >
誹謗我 >
辱罵、歧視、挑釁等(不友善)
騷擾我

泄露了我的隱私

×

您好,當您發現根叔知了上有泄漏您隱私的內容時,您可以向根叔知了進行舉報。 請您把以下內容通過郵件發送到pub.zhiliao@h3c.com 郵箱,我們會盡快處理。
  • 1. 您認為哪些內容泄露了您的隱私?(請在郵件中列出您舉報的內容、鏈接地址,並給出簡短的說明)
  • 2. 您是誰?(身份證明材料,可以是身份證或護照等證件)

侵犯了我企業的權益

×

您好,當您發現根叔知了上有關於您企業的造謠與誹謗、商業侵權等內容時,您可以向根叔知了進行舉報。 請您把以下內容通過郵件發送到 pub.zhiliao@h3c.com 郵箱,我們會在審核後盡快給您答複。
  • 1. 您舉報的內容是什麼?(請在郵件中列出您舉報的內容和鏈接地址)
  • 2. 您是誰?(身份證明材料,可以是身份證或護照等證件)
  • 3. 是哪家企業?(營業執照,單位登記證明等證件)
  • 4. 您與該企業的關係是?(您是企業法人或被授權人,需提供企業委托授權書)
我們認為知名企業應該坦然接受公眾討論,對於答案中不準確的部分,我們歡迎您以正式或非正式身份在根叔知了上進行澄清。

抄襲了我的內容

×

原文鏈接或出處

誹謗我

×

您好,當您發現根叔知了上有誹謗您的內容時,您可以向根叔知了進行舉報。 請您把以下內容通過郵件發送到pub.zhiliao@h3c.com 郵箱,我們會盡快處理。
  • 1. 您舉報的內容以及侵犯了您什麼權益?(請在郵件中列出您舉報的內容、鏈接地址,並給出簡短的說明)
  • 2. 您是誰?(身份證明材料,可以是身份證或護照等證件)
我們認為知名企業應該坦然接受公眾討論,對於答案中不準確的部分,我們歡迎您以正式或非正式身份在根叔知了上進行澄清。

對根叔社區有害的內容

×

垃圾廣告信息
色情、暴力、血腥等違反法律法規的內容
政治敏感
不規範轉載 >
辱罵、歧視、挑釁等(不友善)
騷擾我
誘導投票

不規範轉載

×

舉報說明