03-硬件資源管理配置
本章節下載: 03-硬件資源管理配置 (426.17 KB)
通過硬件資源管理功能,用戶能夠查看CPU、內存的使用情況,電源和風扇的工作狀態,配置設備運行的相關參數,實現對設備硬件資源的日常維護和管理。
設備管理的所有配置任務均為可選配置,配置時無先後順序要求,請根據實際需要選擇配置。設備管理配置任務如下:
· 監控CPU
¡ CPU顯示和維護
· 監控內存
¡ 配置內存告警門限
¡ 內存顯示和維護
· 監控資源剩餘情況
· 監控設備溫度
¡ 配置溫度告警門限
¡ 顯示設備溫度信息
· 開啟芯片複位
· 電源管理
¡ 開啟電源管理功能
¡ 配置冗餘電源
¡ 顯示電源信息
· 監控風扇
¡ 顯示風扇信息
· 定位設備
¡ 開始定位設備
¡ 停止定位設備
· 用戶資產信息管理
· 隔離網板
· 隔離業務板
· 配置關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複通知功能
· 顯示設備硬件信息
係統每隔1分鍾會對CPU的利用率進行采樣,並將采樣值和用戶配置的CPU利用率告警門限比較。
· 當采樣值大於低級別告警門限時,則CPU進入低級別告警狀態,會周期發送CPU低級別告警通知,直到CPU進入高級別告警狀態或者低級別告警狀態解除。
· 當采樣值大於高級別告警門限時,則CPU進入高級別告警狀態,會周期發送CPU高級別告警通知,直到高級別告警狀態解除。
· 當采樣值回落,小於CPU利用率恢複門限時,則認為CPU利用率已經恢複到正常範圍,並發送恢複告警通知。
CPU告警通知會同時向NETCONF、SNMP、信息中心三個方向輸出,通過配置NETCONF、SNMP、信息中心功能,CPU告警最終能以NETCONF事件、SNMP Trap或Inform消息、日誌的形式發送給用戶。NETCONF和SNMP的詳細介紹請參見“網絡管理和監控配置指導”中的“NETCONF”和“SNMP”。信息中心的詳細介紹請參見“設備管理配置指導”中的“信息中心”。
圖1-1 CPU告警示意圖
(1) 進入係統視圖。
system-view
(2) 配置CPU利用率閾值。
monitor cpu-usage threshold severe-threshold [ minor-threshold minor-threshold recovery-threshold recovery-threshold ] [ slot slot-number [ cpu cpu-number ] ]
缺省情況下,CPU利用率閾值為99%。
CPU利用率高級別告警門限如果設置過低,可能導致設備提前進入門限狀態,不再進行正常業務處理。
開啟CPU利用率曆史記錄功能後,係統會每隔一定時間對CPU的利用率進行采樣,並把采樣結果保存到曆史記錄區。這些記錄可通過display cpu-usage history命令查看,以便用戶監控設備近期的運行情況。
(1) 進入係統視圖。
system-view
(2) 配置CPU利用率曆史記錄的采樣周期。
monitor cpu-usage interval interval [ slot slot-number [ cpu cpu-number ] ]
缺省情況下,CPU使用率曆史記錄采樣周期為1分鍾。
(3) 開啟CPU利用率曆史記錄功能。
monitor cpu-usage enable [ slot slot-number [ cpu cpu-number ] ]
缺省情況下,CPU使用率曆史記錄功能處於開啟狀態。
可在任意視圖下執行以下命令:
· 顯示CPU監控功能的相關配置。
display cpu-usage configuration [ slot slot-number [ cpu cpu-number ] ]
· 顯示CPU利用率的統計信息。
display cpu-usage [ summary ] [ slot slot-number [ cpu cpu-number ] ]
· 以圖表方式顯示CPU利用率的曆史記錄。
display cpu-usage history [ job job-id ] [ slot slot-number [ cpu cpu-number ] ]
係統實時監控剩餘空閑內存大小,當條件達到一級、二級、三級告警門限或者恢複正常狀態門限時,就產生相應的告警/告警解除通知,通知關聯的業務模塊/進程采取相應的措施,以便最大限度的利用內存,又能保證設備的正常運行。
除了一級、二級、三級告警,設備還支持預警功能。預警門限用於內存使用率尚處於正常範圍內,但需要提醒用戶提前關注內存的情況。預警恢複門限用於解除預警。
預告警(early-warning)、一級(minor)、二級(severe)和三級(critical)門限,對應的剩餘空閑內存越來越少,緊急程度越來越嚴重。
設備監控的是係統內存中剩餘空閑內存的大小,使用display memory命令可以查看係統內存的使用情況。
· 當剩餘空閑內存值從大於變成小於等於預告警門限時,產生預告警。
· 當剩餘空閑內存值從大於變成小於等於一級告警門限時,產生一級告警。
· 當剩餘空閑內存值從大於變成小於等於二級告警門限時,產生二級告警。
· 當剩餘空閑內存值從大於變成小於等於三級告警門限時,產生三級告警。
· 當剩餘空閑內存值從小於等於變成大於二級告警門限時,產生三級告警解除通知。
· 當剩餘空閑內存值從小於等於變成大於一級告警門限時,產生二級告警解除通知。
· 當剩餘空閑內存值從小於等於變成大於正常內存大小時,產生一級告警解除通知。
· 當剩餘空閑內存值從小於等於變成大於預告警內存大小時,產生預告警解除通知。
同一級別的告警/告警解除通知是交替進行的:當剩餘空閑內存值小於等於某級告警門限,設備產生相應級別的告警,後續隻有該告警解除了,剩餘空閑內存值再次小於等於某級告警門限時,才會再次生成該級別的告警。
當剩餘空閑內存大小如圖1-2中曲線所示時,會生成如圖1-2所示的告警和解除告警通知。
當設備出現內存告警時,可刪除暫時不用的配置或關閉部分功能來釋放內存。但因為內存不足,部分配置可能刪除失敗。
(1) 進入係統視圖。
system-view
(2) 配置內存利用率閾值。
memory-threshold [ slot slot-number [ cpu cpu-number ] ] usage memory-threshold
缺省情況下,內存利用率閾值為100%。
(3) 配置空閑內存告警的門限值。
memory-threshold [ slot slot-number [ cpu cpu-number ] ] [ ratio ] minor minor-value severe severe-value critical critical-value normal normal-value
缺省情況下,一級告警門限為256MB,二級告警門限為192MB,三級告警門限為128MB,係統恢複到正常的內存門限為320MB,預告警門限為384MB,預告警解除門限為448MB。
可在任意視圖下執行以下命令:
· 顯示設備的內存使用狀態。
display memory [ summary ] [ slot slot-number [ cpu cpu-number ] ]
· 顯示內存告警門限相關信息。
display memory-threshold [ slot slot-number [ cpu cpu-number ] ]
用戶可以配置MDB資源運行的分配模式,從而更改MAC地址表、ARP表和路由表的規格大小。
配置成功後需要重啟設備才能生效。
(1) 進入係統視圖。
system-view
(2) 配置MDB資源運行的分配模式。
hardware-resource mdb { normal | routing }
缺省情況下,MDB資源運行的分配模式為路由模式。
可在任意視圖下執行以下命令,顯示MDB資源運行功能的相關信息。
display hardware-resource [ mdb ]
配置本功能後,設備會監測ARP表項等資源的剩餘情況,周期采樣監測對象的值,並和配置的告警門限進行比較:
· 如果剩餘的資源小於或等於低級別告警門限且大於高級別告警門限,則資源進入低級別告警狀態,並生成低級別告警通知;
· 如果剩餘的資源小於或等於高級別告警門限,則資源進入高級別告警狀態,並生成高級別告警通知;
· 如果剩餘的資源大於低級別告警門限,則資源進入恢複告警狀態,並生成恢複通知。
當資源一直處於低級別告警狀態時:
· 開啟周期發送低級別資源告警通知功能後,第一次達到低級別告警狀態時,會生成低級別告警通知,後續還會周期生成低級別告警通知。當剩餘資源達到更高級別告警門限時,將會生成更高級別的告警通知,暫時抑製低級別的告警通知。直到高級別的告警狀態解除,再周期輸出低級別的告警通知。
· 關閉周期發送低級別資源告警通知功能後,隻有第一次達到低級別告警狀態時,才生成低級別告警通知,不會連續生成低級別告警通知。
當資源一直處於高級別告警狀態時,設備會周期生成高級別告警通知。
資源告警通知可向NETCONF、SNMP、信息中心三個方向輸出,通過配置NETCONF、SNMP、信息中心功能,資源告警最終能以NETCONF事件、SNMP Trap或Inform消息、日誌的形式發送給用戶。NETCONF和SNMP的詳細介紹請參見“網絡管理和監控配置指導”中的“NETCONF”和“SNMP”。信息中心的詳細介紹請參見“設備管理配置指導”中的“信息中心”。
圖1-3 資源監控示意圖
(1) 進入係統視圖。
system-view
(2) 配置生成資源告警通知的門限。
resource-monitor resource resource-name slot slot-number cpu cpu-number { by-absolute | by-percent } minor-threshold minor-threshold severe-threshold severe-threshold
不同類型資源的缺省情況不同,請使用display resource-monitor命令查看。
(3) 配置資源告警通知的輸出方向。
resource-monitor output { netconf-event | snmp-notification | syslog } *
缺省情況下,資源告警通知會同時向NETCONF、SNMP、信息中心三個方向輸出。
(4) 開啟周期發送低級別資源告警通知功能。
resource-monitor minor resend enable
缺省情況下,周期發送低級別資源告警通知功能處於開啟狀態。
可在任意視圖下執行以下命令,顯示資源監控功能的相關信息。
display resource-monitor [ resource resource-name ] [ slot slot-number [ cpu cpu-number ] ]
通過以下配置任務,用戶可以根據實際應用的需要配置不同的溫度告警門限,來監控設備上不同位置溫度傳感器的溫度。
設備可配置的溫度告警門限包括:低溫告警門限、一般級(Warning)高溫告警門限、嚴重級(Alarm)高溫告警門限。
如果溫度低於低溫告警門限、高於一般級或嚴重級高溫門限,係統均會生成相應的日誌信息和告警信息提示用戶,並通過設備麵板上的指示燈來告警,以便用戶及時進行處理。
(1) 進入係統視圖。
system-view
(2) 配置設備的溫度告警門限。
temperature-limit slot slot-number hotspot sensor-number lowlimit warninglimit [ alarmlimit ]
不同溫度傳感器的溫度門限可能不同,請先使用undo temperature-limit命令恢複缺省情況後,再通過display environment命令查看設備的缺省溫度告警門限。
高溫告警門限必須大於低溫告警門限;Alarm高溫告警門限必須大於Warning高溫告警門限。
可在任意視圖下執行以下命令,顯示設備的溫度信息。
display environment [ slot slot-number ]
當設備檢測到器件、單板和轉發層麵的硬件故障時,會自動采取用戶配置的處理措施,以便降低故障對設備的影響。
用戶可配置的處理措施有:
· off:檢測到故障時,設備不進行任何操作。
· isolate:檢測到故障時,設備會自動關閉端口、隔離單板、禁止單板加載或給單板下電,從而盡量減小故障的影響。
· reset:檢測到故障時,設備會自動重啟器件/單板以嚐試修複故障。
· warning:檢測到故障時,設備發送Trap信息,不會修複故障。
(1) 進入係統視圖。
system-view
(2) 配置當係統檢測到硬件故障時自動采取的修複操作。
hardware-failure-detection { board | chip | forwarding } { off | isolate | reset | warning }
缺省情況下,係統檢測到硬件故障時自動采取的操作為warning。
開啟針對聚合組的硬件故障保護功能後:
· 如果某聚合組成員端口不是聚合組中最後一個UP狀態的端口,則該端口也會被自動關閉;
· 如果某聚合組成員端口是聚合組中最後一個UP狀態的端口,則該端口不會被關閉。
(1) 進入係統視圖。
system-view
(2) 配置當係統檢測到轉發層麵的故障時自動采取的修複操作為isolate。
hardware-failure-detection forwarding isolate
缺省情況下,係統檢測到轉發層麵的故障時自動采取的操作為warning。
(3) 開啟針對聚合組的硬件故障保護功能。
hardware-failure-protection aggregation
缺省情況下,係統沒有開啟針對聚合組的硬件故障保護。
通過配置芯片複位功能,可指定芯片發生故障時係統的處理方式。
(1) 進入係統視圖。
system-view
(2) 開啟芯片複位功能。
monitor chipblock reset [ logging ]
缺省情況下,芯片複位功能處於開啟狀態。
某些電源模塊發生過載、過流、過壓、過溫、短路等故障時,會進行自我硬件保護,比如:當電源由於輸出過壓而告警時,電源可能進入鎖死狀態、停止對整個機框進行供電,以便保護電源和設備不被損壞。這樣雖然保護了電源和設備的安全使用,但會對設備的正常使用造成一定的影響,嚴重時將導致業務全部中斷。為了盡可能減小這種影響,用戶可使用電源管理功能,來盡可能的避免電源模塊過載現象的發生。
電源管理功能的原理是,係統實時監控電源的可用功率和係統負載,在電源將要過載、進行自身硬件保護之前,采取保護措施(比如給用戶發送提示信息、啟用冗餘電源以及抑製接口板供電)。
電源管理配置任務如下:
(1) 開啟電源管理功能
(2) (可選)配置冗餘電源
通過配置冗餘電源,可以給設備預留功率。
(1) 進入係統視圖。
system-view
(2) 開啟電源管理功能。
power-supply policy enable
缺省情況下,電源管理功能處於開啟狀態。
冗餘電源技術通過部署多餘的電源模塊,來避免電源過載。比如,設備至少需要N個電源才能運行,我們通常會給設備配備M(M大於N)個電源,多餘的(M-N)個電源可配置為冗餘電源。正常情況下,這M個電源負載均衡,共同為設備輸出功率。當其中某個電源故障時,其餘電源能立即接管其工作,從而避免發生電源過載。
配置冗餘電源後,如果有接口板插入,係統會先比較待上電接口板的最大功耗和係統的剩餘功率:
· 當最大功耗小於等於剩餘功率時,直接給接口板供電。
· 當最大功耗大於剩餘功率時,不會給接口板供電,接口板不能啟動。此時,可增加電源模塊,或者減少冗餘電源的數量。
隻有在開啟電源管理功能後,本特性才會生效。
(1) 進入係統視圖。
system-view
(2) 配置冗餘電源模塊數。
power-supply policy redundant module-count
缺省情況下,冗餘電源模塊數量的值為0。
配置電源模塊的監控模式為enhanced時,將會占用一定係統的資源。
(1) 進入係統視圖。
system-view
(2) 配置電源模塊的監控模式。
power-exception-monitor { normal | enhanced }
缺省情況下,電源模塊的監控模式為normal模式。
可在任意視圖下執行以下命令,顯示設備的電源狀態。
display power [ power-id | verbose ]
可在任意視圖下執行以下命令,顯示電源管理功能的相關信息。
display power-supply [ verbose ]
可在任意視圖下執行以下命令,顯示指定電源的電子標簽信息。
display device manuinfo power power-id
可在任意視圖下執行以下命令,顯示指定電源監控模塊的電子標簽信息。
display device manuinfo power-monitor pm-id
可在任意視圖下執行以下命令:
· 顯示風扇的工作狀態。
display fan [ fan-id ] [ verbose ]
· 顯示指定風扇的電子標簽信息。
display device manuinfo fan fan-id
某些協議模塊(比如STP、DLDP等)在特定情況下會自動關閉某個端口。此時,可以配置一個端口狀態檢測定時器。當定時器超時,如果該端口仍處於關閉狀態,則協議模塊會自動取消關閉動作,使端口恢複到真實的物理狀態。
(1) 進入係統視圖。
system-view
(2) 配置端口狀態檢測定時器的時長。
shutdown-interval time
缺省情況下,端口狀態檢測定時器時長為30秒。
可以通過顯示可插拔接口模塊的主要特征參數或者電子標簽信息來識別可插拔接口模塊。
· 可插拔接口模塊的主要特征參數包括:模塊型號、連接器類型、發送激光的中心波長、信號的有效傳輸距離、模塊生產廠商名稱等信息。
· 電子標簽信息也可以稱為永久配置數據或檔案信息,在光模塊或者設備的調試、測試過程中被寫入到光模塊或者設備的存儲器件中,包括光模塊或者設備的名稱、生產序列號、MAC地址、製造商等信息。
另外,當設備上插入的光模塊的生產廠商不是H3C時,設備會打印Log信息提醒用戶,要求用戶更換成H3C的光模塊,以便管理和維護光模塊。關於Log輸出規則的配置請參見“設備管理配置指導”中的“信息中心”。
請在任意視圖下執行以下命令。
· 顯示可插拔接口模塊的主要特征參數。
display transceiver interface [ interface-type interface-number ]
· 顯示可插拔接口模塊的電子標簽信息。
display transceiver manuinfo interface [ interface-type interface-number ]
係統提供故障告警信息描述了可插拔接口模塊的故障來源,以便用戶診斷和解決故障。係統還提供了數字診斷功能,其原理是對影響光模塊工作的關鍵參數進行監控(這些關鍵參數包括:溫度、電壓、激光偏置電流、發送光功率和接收光功率等),當這些參數的值異常時,用戶可以采取相應的措施,預防故障發生。
請在任意視圖下執行以下命令。
· 顯示可插拔接口模塊的當前故障告警信息。
display transceiver alarm interface [ interface-type interface-number ]
· 顯示可插拔光模塊的數字診斷參數的當前測量值。
display transceiver diagnosis interface [ interface-type interface-number ]
· 顯示可插拔光模塊的主要光學參數。
display transceiver optics interface [ interface-type interface-number ]
ITU(International Telecommunication Union,國際電信聯盟)按照頻率和波長對光信號進行了劃分,並用編號來標識這些光信號。為光模塊配置ITU通道編號後,該光模塊就會發送對應波長和頻率的光信號。當設備用於密集波分複用場合時,需要為光模塊設置ITU通道編號。
僅SFP-XG-LH80-Tunable光模塊支持本特性。
設備會將ITU通道編號配置保存在光模塊內部的寄存器中,不會保存到配置文件中。
(1) 進入係統視圖。
system-view
(2) 進入以太網接口視圖。
interface interface-type interface-number
(3) 配置光模塊的ITU通道編號。
itu-channel channel-number
缺省情況下,光模塊的ITU通道編號為1。
可在任意視圖下執行以下命令,顯示光模塊的ITU通道信息。
display transceiver itu-channel interface [ interface-type interface-number [ supported-channel ] ]
本功能主要用於調測光模塊的功能是否正常,正常情況下,不建議配置。
關閉光通道將導致光模塊不能傳輸信號。
本配置會保存在光模塊內部的寄存器中,不會保存到配置文件中。
(1) 進入係統視圖。
system-view
(2) 進入400G以太網接口及其拆分接口視圖。
interface interface-type interface-number
(3) 開啟光模塊的光通道。
transceiver lane channel-number enable
缺省情況下,光模塊的光通道處於開啟狀態。
通常情況下,光模塊處於高功耗工作模式。當光模塊長時間不需要工作時,可將光模塊切換到低功耗工作模式,節省能耗。低功耗模式下,光模塊不能傳輸信號,如果有流量傳輸需求,需要手工將光模塊調整到高功耗工作模式。
本配置會保存在光模塊內部的寄存器中,不會保存到配置文件中。
(1) 進入係統視圖。
system-view
(2) 進入400G以太網接口及其拆分接口視圖。
interface interface-type interface-number
(3) 配置400G光模塊的功耗模式。
transceiver power-mode { high | low }
本命令的缺省情況與光模塊的型號有關,請以實際情況為準。
本功能用於調測和優化400G光模塊的高速信號,以便光鏈路達到最優工作狀態。通常情況下,使用缺省配置即可置。如果確實需要調整,請在專業人士指導下進行,以免光模塊工作異常。
當接口在傳輸業務流量時,建議不要執行本命令。因為執行本命令,設備會自動關閉、開啟光模塊一次,影響流量的傳輸。
本配置會保存在光模塊內部的寄存器中,不會保存到配置文件中。
(1) 進入係統視圖。
system-view
(2) 進入400G以太網接口及其拆分接口視圖。
interface interface-type interface-number
(3) 設置光模塊光模塊接收通道的平衡因子和功率幅值。
transceiver lane [ lane-number ] equalization { precursor precursor-value | postcursor postcursor-value | amplitude amplitude-value }
本命令的缺省情況與光模塊的型號有關,請以實際情況為準。
可在任意視圖下執行以下命令:
· 顯示可插拔400G光模塊的當前運行參數。
display transceiver active-control interface [ interface-type interface-number ]
· 顯示可插拔400G光模塊支持的能力。
display transceiver advertising interface [ interface-type interface-number ]
· 顯示可插拔400G光模塊支持的應用及相關信息。
display transceiver application interface [ interface-type interface-number ]
· 顯示可插拔400G光模塊的狀態信息。
display transceiver status interface [ interface-type interface-number ]
當光模塊工作異常時,可以通過軟件複位光模塊來嚐試修複光模塊。正常情況下,不建議配置。
使用本功能會重啟光模塊,請謹慎使用。
在用戶視圖下,使用以下命令可軟件複位400G光模塊。
reset transceiver interface [ interface-type interface-number]
配置locator blink blink-time命令後,指定設備上用於定位的LED燈會以間隔快閃的方式閃爍,並持續指定的時間。用戶可根據LED燈的指示來定位設備所在的位置。
blink-time時間到或者執行locator blink stop命令,則定位閃爍的LED燈會恢複正常點亮狀態。
請在用戶視圖下執行本命令,定位設備的位置。
locator blink blink-time
請在用戶視圖下執行本命令,停止定位。
本功能常用於以主備方式提供網絡可靠性的雙機環境中(例如VRRP)。開啟本功能後,當主設備的主控板與業務板連接超時或網板不在位時,係統將立即關閉主設備上的所有業務口,使業務快速切換到備用設備上。
(1) 進入係統視圖。
system-view
(2) 全局開啟Port Down功能。
monitor { handshake-timeout | fab-absent } disable-port
缺省情況下,該功能處於開啟狀態。
單板上下電管理功能處於開啟狀態時,係統會對單板的上下電進行管理。例如:
· 通過檢測係統總功率的大小,單板功率的分配情況等,判斷是否上電單板。
· 通過檢測單板的溫度情況,風扇情況等,判斷是否下電單板。
關閉單板上下電管理功能後,係統將不再對單板的上下電進行管理,默認使所有單板上電,同時無法控製單板下電。
關閉單板上下電管理功能將會帶來不可預知的風險,請謹慎執行。
(1) 進入係統視圖。
system-view
(2) 開啟單板上下電管理功能。
power-monitor enable
缺省情況下,該功能處於開啟狀態。
為了便於管理設備資產,用戶可以通過命令行設置設備機箱、單板、風扇框及電源模塊的用戶資產信息。
(1) 進入係統視圖。
system-view
(2) 設置用戶資產信息。
set asset-info { chassis | fan fan-id | power power-id | slot slot-number } { csn csn-number | custom name value | department department | description description | location location | service-date date | state state }
可在任意視圖下執行以下命令,顯示設備的用戶資產信息。
display asset-info { chassis | fan fan-id | power power-id | slot slot-number } [ csn | custom| department | description | location | service-date | state ]
可在任意視圖下執行以下命令,清除設備的用戶資產信息。
reset asset-info { chassis | fan fan-id | power power-id | slot slot-number } [ csn | custom | department | description | location | service-date | state ]
本功能主要用於定位網板是否能夠正常轉發,以及更換網板前,為避免報文丟失,可配置本功能。網板隔離後仍能與主控板正常通信,控製平麵上協議報文的解析與協議的計算等功能均不受影響,從而保證取消隔離後可以快速恢複網板的轉發能力。
網板隔離期間不要重啟設備。
網板隔離後,請使用undo switch-fabric isolate命令對該網板取消隔離,網板才能恢複正常轉發功能。
(1) 進入係統視圖。
system-view
(2) 將網板從轉發平麵隔離出去,所有數據流量都不經過指定網板。
switch-fabric isolate slot slot-number [ channel channel-number ]
缺省情況下,網板處於轉發平麵,數據流量會經過網板進行轉發。
· 每塊網板都有一定的轉發帶寬,隔離一塊網板後會減少相應的轉發帶寬,使設備整體轉發帶寬降低。請根據需要配置。
· 當設備上僅存在一塊網板時,請不要隔離該網板。
正常情況下,網板拔出前,會觸發一次中斷信號。係統收到中斷信號後會將網板的業務遷移到其他網板上,以便網板拔出的時候,不影響當前業務。當硬件故障或者受到信號幹擾等異常情況下,網板可能頻繁觸發中斷信號,導致設備需要不停處理該中斷信號,甚至異常。為規避這種情況,可以使用本功能強製設備不處理網板中斷信號,將影響減到最低。
(1) 進入係統視圖。
system-view
(2) 抑製上報網板中斷信號。
switch-fabric removal-signal-suppression
缺省情況下,不抑製上報網板中斷信號。
配置本功能後,網板拔出時可能會有流量丟包,導致業務中斷,請謹慎使用。
當業務板出現故障,需要定位原因,為降低故障影響範圍,可先通過本功能隔離故障業務板。處於隔離狀態的業務板無法轉發數據,但用戶仍可查看業務板的狀態信息。
配置本功能後,可通過display device命令查看業務板運行狀態,Offline表示單板已處於隔離狀態。重啟被隔離的業務板即可取消隔離。
(1) 進入係統視圖。
system-view
(2) 隔離業務板。
switch-linecard isolate slot slot-number
設備在運行過程中,會對轉發芯片中的硬件表項和軟件表項進行一致性檢查。設備按周期收集軟硬件表項一致性檢查錯誤發生的次數。使能軟硬件表項一致性檢查錯誤通知功能後,如果設備在日誌采樣周期內發生軟硬件表項一致性檢查錯誤的次數達到配置的錯誤次數閾值,則發送日誌提醒用戶。
(1) 進入係統視圖。
system-view
(2) 配置軟硬件表項一致性檢查錯誤次數的采樣周期。
parity-error consistency-check period value
缺省情況下,配置軟硬件表項一致性檢查錯誤次數的采樣周期為3600秒。
(3) 配置軟硬件表項一致性檢查的錯誤次數閾值。
parity-error consistency-check threshold value
缺省情況下,軟硬件表項一致性檢查的錯誤次數閾值為10次。
(4) 開啟軟硬件表項一致性檢查日誌信息功能。
parity-error consistency-check log enable
缺省情況下,軟硬件表項一致性檢查日誌信息功能處於關閉狀態。
設備在運行過程中,會自動對轉發芯片中硬件表項進行奇偶校驗和ECC校驗,並記錄錯誤次數。設備按周期收集硬件表項奇偶校驗和ECC校驗錯誤的次數。使能硬件表項奇偶校驗和ECC校驗錯誤通知功後,如果設備在日誌采樣周期內發生硬件表項奇偶校驗和ECC校驗錯誤的次數達到配置的錯誤次數閾值,則發送日誌提醒用戶。
(1) 進入係統視圖。
system-view
(2) 配置硬件表項奇偶校驗和ECC校驗錯誤次數的采樣周期。
parity-error monitor period value
缺省情況下,硬件表項奇偶校驗和ECC校驗錯誤次數的采樣周期為60秒。
(3) 配置硬件表項奇偶校驗和ECC校驗的錯誤次數閾值。
parity-error monitor threshold value
缺省情況下,硬件表項奇偶校驗和ECC校驗的錯誤次數閾值為5000次。
(4) 開啟硬件表項奇偶校驗和ECC校驗日誌信息功能。
parity-error monitor log enable
缺省情況下,硬件表項奇偶校驗和ECC校驗日誌信息功能處於關閉狀態。
設備在運行過程中,會對轉發芯片中的硬件表項進行奇偶校驗和ECC校驗。在硬件表項奇偶校驗和ECC校驗發現錯誤時,會嚐試恢複這些錯誤。使用關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複通知功能,當一些關鍵硬件表項的校驗錯誤不可恢複時,可以讓設備按周期收集關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複的次數。如果設備在日誌采樣周期內發生關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複的次數達到配置的錯誤不可恢複次數閾值,則發送日誌提醒用戶。
如果設備轉發芯片上關鍵硬件表項發生奇偶校驗和ECC校驗錯誤,且不可恢複時,可能會影響業務正常進行,則可以通過開啟生成關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複日誌信息後設備自動重啟功能,使設備通過重啟來恢複關鍵硬件表項。
(1) 進入係統視圖。
system-view
(2) 配置關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複次數的采樣周期。
parity-error unrecoverable period value
缺省情況下,關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複次數的采樣周期為60秒。
(3) 配置關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複的次數閾值。
parity-error unrecoverable threshold value
缺省情況下,關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複的次數閾值為1。
(4) 開啟關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複日誌信息功能。
parity-error unrecoverable log enable
缺省情況下,關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複日誌信息功能處於開啟狀態。
(5) (可選)開啟生成關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複日誌信息後設備自動重啟功能。
parity-error unrecoverable reboot
缺省情況下,生成關鍵硬件表項奇偶校驗和ECC校驗錯誤不可恢複日誌信息後設備不自動重啟。
可在任意視圖下執行以下命令,顯示設備的硬件信息。
display device [ flash | usb ] [ slot slot-number [ subslot subslot-number ] | verbose ]
可在任意視圖下執行以下命令,顯示設備的電子標簽信息。
display device manuinfo [ slot slot-number [ subslot subslot-number ] ]
可在任意視圖下執行以下命令,顯示指定機框背板的電子標簽信息。
display device manuinfo chassis-only
可在任意視圖下執行以下命令,顯示設備硬件的告警信息。
display alarm [ slot slot-number ]
在日常維護或係統出現故障時,為了便於問題定位,用戶需要查看各個模塊的診斷信息。因為各個功能模塊都有其對應的運行信息,所以一般情況下,用戶需要逐條運行相應的display命令。為便於一次性收集更多信息,用戶可以在任意視圖下執行display diagnostic-information命令,收集多個模塊的診斷信息。
執行本功能收集診斷信息時,請不要配置設備,以免影響收集結果。
可在任意視圖下執行以下命令,收集係統當前各個功能模塊運行的統計信息。
display diagnostic-information [ hardware | infrastructure | l2 | l3 | service ] [ key-info ] [ filename ]
不同款型規格的資料略有差異, 詳細信息請向具體銷售和400谘詢。H3C保留在沒有任何通知或提示的情況下對資料內容進行修改的權利!