24-KPI數據采集配置
本章節下載: 24-KPI數據采集配置 (360.09 KB)
設備的KPI(Key Performance Indicator,關鍵性能指標)用來表示某一時刻設備運行狀態的一係列性能值。設備運行過程中自動采集KPI數據並將KPI數據存儲在Flash介質中。
KPI數據采集功能可以周期性采集各種類型的設備性能指標,實時記錄大量性能指標數據,用戶可根據采集到的KPI信息了解設備運行狀態、業務故障時間點、業務故障類型和疑似故障原因,通過這些信息快速定位故障。
KPI數據采集功能收集到的數據量巨大,且采集的數據種類豐富,例如,采集到設備上某單板的CPU利用率為50%,該數據屬於描述設備容量類的性能參數,同時,該參數還屬於設備資源管理的業務模塊,歸屬於某塊單板,其具體指標為50%,為了方便描述所有類型的數據,對數據進行分類和檢索,KPI采集到的數據以結構化信息來呈現,並且從以下四個維度來定義數據信息:
· 指標(Indicator):KPI數據采集功能采集的性能參數和狀態,例如CPU利用率、內存利用率、FIB轉發表項利用率、ARP表項資源利用率、各類板卡故障、電源故障、單板溫度異常數據等等。
· 對象(Object):指標所屬的設備、單板或子卡等物理實體,為了表示這些物理實體,定義了一類數據來標識對象。隨著KPI采集功能可以采集到的指標越來越多,對象的種類也會越來越豐富,根據對象的類型不同,取值也各不相同,目前支持以下取值類型:
¡ device:標識設備。該對象的指標用來表示設備整體的情況。
¡ chassis.x/slot.y:標識單板。該對象的指標用於標識某個單板性能和狀態,取值為chassis.x/slot.y,其中x取值為0,y表示單板所在的槽位號。(獨立運行模式)其中x表示設備在IRF中的成員編號,y表示單板的槽位號。(IRF模式)
¡ chassis.x/slot.y/subslot.z:標識子卡,該對象的指標用於標識該子卡的性能和狀態,取值為chassis.x/slot.y/subslot.z,其中x取值為0,y表示單板所在的槽位號,z表示子卡編號。(獨立運行模式)其中x表示設備在IRF中的成員編號,y表示單板的槽位號,z表示子卡編號。(IRF模式)
¡ interface-typeinterface-number:標識接口,該對象的指標用於標識某個物理接口的運行狀態指標,對象取值為接口類型和接口編號。
· 業務模塊(Module):指標所屬的業務功能模塊,例如CPU利用率和內存利用率屬於設備資源模塊(模塊名稱為DEV-RES),FIB轉發表項利用率和ARP表項資源利用率屬於轉發資源模塊(模塊名稱為FWD-RES)。
· KPI類(Class):某一類指標的集合。一些KPI數據指標可以用來衡量設備某方麵的運行狀態,可以將這些指標劃分為一個KPI類,係統中預定義了一些KPI類,例如網絡性能類(Net-performace),端口狀態類(Port-state)。
KPI數據采集的工作機製如圖1-1所示:
圖1-1 KPI數據采集的工作機製示意圖
(2) 數據采集:設備開啟對指定業務模塊的KPI數據采集功能後,KPI進程按一定時間周期采集該業務模塊的數據指標。KPI進程將采集到的數據指標臨時保存在設備內存中。缺省情況下,KPI數據指標采集周期為300秒,可以自定義修改指標的采集周期。
(3) 數據存儲:KPI進程每隔一定周期將采集到的數據指標存儲到Flash存儲介質上。當存儲介質的剩餘空間不足或者現有存儲介質上KPI采集數據文件總大小超出一定閾值時,KPI進程將主動老化早期的KPI數據,刪除最早的KPI數據。
表1-1 KPI數據采集功能支持的數據信息
KPI類 |
業務模塊 (Module) |
對象 (Object) |
指標名稱 |
指標說明 |
|
Device-state (設備狀態類) |
DEV |
單板 |
Device_restarts |
設備反複重啟次數 |
|
IRF |
設備 |
IRF_splits |
框式堆疊的分裂次數 |
|
|
IRF |
設備 |
IRF_dual-active_count |
框式堆疊出現雙主次數 |
|
|
DEV |
單板 |
LPU_failures |
接口板故障次數 |
|
|
DEV |
單板 |
MPU_state |
主控板狀態,取值為: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
單板 |
MPU_failures |
主控板故障次數 |
|
|
DEV |
單板 |
SFU_state |
交換網板狀態,取值為: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
單板 |
SFU_failures |
交換網板故障次數 |
|
|
DEV |
子卡 |
Subslot_failure |
子卡故障次數 |
|
|
FWD |
設備 |
Inc_H_S_entries |
軟硬件表項不一致數量(Inconsistent hardware and software entries) |
|
|
FAN |
設備 |
Fan_state |
風扇狀態,取值為: · 0:正常 · 1:故障 |
|
|
POWER |
設備 |
Power_state |
電源狀態,取值為: · 0:正常 · 1:故障 |
|
|
POE |
設備 |
PoE_state |
PoE供電狀態,取值為: · 0:正常 · 1:故障 |
|
|
TEMP |
設備 |
Card_temperature |
單板溫度,取值為: · 0:正常 · 1:故障 |
|
|
FS |
設備 |
File_exceptions |
文件係統異常,保存失敗次數 |
|
|
DEV |
設備 |
Process_abnormal_reboot |
進程異常重啟次數 |
|
|
DEV |
設備 |
Process_normal_reboot |
進程正常重啟次數 |
|
|
Device-resource (設備容量類) |
FWD-RES |
單板 |
ARP_entry_usage |
ARP表項利用率(used/total) |
|
FWD-RES |
單板 |
ARP_threshold_ratio |
ARP表項使用的數量和ARP表項使用閾值的比值(used/threshold) |
|
|
FWD-RES |
單板 |
MAC entry usage |
MAC表項利用率(used/total) |
|
|
FWD-RES |
單板 |
MAC_threshold_ratio |
MAC表項使用的數量和MAC表項使用閾值的比值(used/threshold) |
|
|
FWD-RES |
單板 |
FIB_entry_usage |
FIB轉發表項利用率(used/total) |
|
|
FWD-RES |
單板 |
FIB_threshold_ratio |
FIB轉發表項使用的數量和FIB轉發表項使用閾值的比值(used/threshold) |
|
|
FWD-RES |
單板 |
ND entry usage |
ND轉發表項利用率(used/total) |
|
|
FWD-RES |
單板 |
ND_threshold_ratio |
ND轉發表項使用的數量和ND轉發表項使用閾值的比值(used/threshold) |
|
|
FWD-RES |
單板 |
IPv4L2multicast_usage |
IPv4二層組播表項利用率(used/total) |
|
|
FWD-RES |
單板 |
IPv4L2multicast_ratio |
IPv4二層組播表項使用程度,已使用的表項和閾值比值(used/threshold) |
|
|
FWD-RES |
單板 |
IPv6L2multicast_usage |
IPv6二層組播表項利用率(used/total) |
|
|
FWD-RES |
單板 |
IPv6L2multicast_ratio |
IPv6二層組播表項使用程度,已使用的表項和閾值比值(used/threshold) |
|
|
FWD-RES |
單板 |
IPv4L3multicast_usage |
IPv4三層組播表項利用率(used/total) |
|
|
FWD-RES |
單板 |
IPv4L3multicast_ratio |
IPv4三層組播表項資源使用程度,已使用的表項和閾值比值(used/threshold) |
|
|
FWD-RES |
單板 |
IPv6L3multicast_usage |
IPv6三層組播表項利用率(used/total) |
|
|
FWD-RES |
單板 |
IPv6L3multicast_ratio |
IPv6三層組播表項使用程度,已使用的表項和閾值比值(used/threshold) |
|
|
ACL-RES |
單板 |
ACL_usage |
ACL資源利用率(used/total) |
|
|
ACL-RES |
單板 |
ACL_threshold_ratio |
ACL資源使用程度(used/threshold),已使用的表項和閾值比值 |
|
|
STOR-RES |
單板 |
Storage_usage |
存儲空間利用率(used/total) |
|
|
STOR-RES |
單板 |
Storage_threshold_ratio |
存儲空間使用程度(used/threshold),已使用的資源和閾值比值 |
|
|
DEV-RES |
單板 |
CPU_usage |
CPU利用率(used/total) |
|
|
DEV-RES |
單板 |
CPU_threshold_ratio |
CPU使用程度(used/threshold),已使用的資源和閾值比值 |
|
|
DEV-RES |
單板 |
Memory_usage |
內存利用率(used/total) |
|
|
DEV-RES |
單板 |
Memory_threshold_ratio |
內存使用程度(used/threshold),已使用的資源和閾值比值 |
|
|
Net-performance (網絡性能類) |
LOOP-DCT |
設備 |
L2 loop_state |
二層環路狀態,取值為: · 0:正常 · 1:故障 |
|
IF-CI |
接口 |
Port_congestion |
端口擁塞導致的丟包數 |
|
|
IF-ERROR |
接口 |
Port_error |
端口錯包導致的丟包數 |
|
|
CPCAR |
設備 |
CPCAR_loss |
控製平麵配置流量監管進行限速導致的丟包數量 |
|
|
STP-SWT |
設備 |
STP_switchovers |
STP切換次數 |
|
|
LACP-SWT |
設備 |
LACP_switchovers |
鏈路聚合切換次數 |
|
|
IRF-SWT |
設備 |
IRF_switchovers |
堆疊切換次數 |
|
|
M-LAG-SWT |
設備 |
M-LAG_switchovers |
M-LAG切換次數 |
|
|
RRPP-SWT |
設備 |
RRPP_switchovers |
RRPP切換次數 |
|
|
VRRP-SWT |
設備 |
VRRP_switchovers |
VRRP切換次數 |
|
|
IF-USAGE |
設備 |
Port_BW_usage |
所有端口的帶寬利用率 |
|
|
Port-state (端口狀態類) |
PORT-ST |
設備 |
Down_ports |
處於down狀態的物理接口數量 |
|
PORT-ST |
設備 |
Port_flappings |
端口震蕩次數 |
|
|
Net-connection (網絡鏈接類) |
RPNCS |
設備 |
ISIS_peer_status |
ISIS協議鄰居連接狀態,取值為 · 0:正常 · 1:故障 |
|
RPNCS |
設備 |
OSPF_peer_status |
OSPF協議鄰居連接狀態,取值為 · 0:正常 · 1:故障 |
|
|
RPNCS |
設備 |
OSPv3_peer_status |
OSPFv3協議鄰居連接狀態,取值為 · 0:正常 · 1:故障 |
|
|
RPNCS |
設備 |
BGP_peer_status |
BGP協議鄰居連接狀態,取值為 · 0:正常 · 1:故障 |
|
|
MCRCS |
設備 |
Multicast_connection_status |
組播路由連接狀態,取值為 · 0:正常 · 1:故障 |
|
|
DHCPCS |
設備 |
DHCPv4_server_state |
DHCPv4 sever狀態,取值為 · 0:正常 · 1:故障 |
|
|
DHCPCS |
設備 |
DHCPv6_server_state |
DHCPv6 sever狀態,取值為 · 0:正常 · 1:故障 |
|
|
DHCPCS |
設備 |
DHCPv4_server_switching |
DHCPv4 sever切換次數 |
|
|
DHCPCS |
設備 |
DHCPv6_server switching |
DHCPv6 sever切換次數 |
|
|
DHCPCS |
設備 |
DHCPv4_entry failures |
DHCPv4表項建立失敗的次數 |
|
|
DHCPCS |
設備 |
DHCPv6_entry failures |
DHCPv6表項建立失敗的次數 |
|
|
Net-security (網絡安全類) |
AAA |
設備 |
1X_AuthN_status |
1x認證狀態,取值為 · 0:表示認證正常 · 1:表示認證異常,可能存在802.1X認證攻擊 |
|
AAA |
設備 |
1X_Usr&Pwd_status |
1x用戶名密碼狀態,取值為 · 0:表示用戶名密碼正確 · 1:表示用戶名密碼錯誤 |
|
|
AAA |
設備 |
MAC_AuthN_status |
MAC地址認證狀態,取值為 · 0:表示認證正常 · 1:表示認證異常,可能存在攻擊 |
|
|
AAA |
設備 |
MAC_Usr&Pwd_status |
MAC地址認證用戶名密碼狀態,取值為 · 0:表示用戶名密碼正確 · 1:表示用戶名密碼錯誤 |
|
|
AAA |
設備 |
Portsec_AuthN_status |
端口安全認證狀態,取值為 · 0:表示認證正常 · 1:表示認證異常,可能存在攻擊 |
|
|
AAA |
設備 |
Portsec_Usr&Pwd_status |
端口安全用戶名密碼狀態,取值為 · 0:表示用戶名密碼正確 · 1:表示用戶名密碼錯誤 |
|
|
AAA |
設備 |
StaticUser_AuthN_status |
靜態用戶認證狀態,取值為 · 0:表示認證正常 · 1:表示認證異常,可能存在攻擊 |
|
|
AAA |
設備 |
StaticUser_Usr&Pwd_status |
靜態用戶名密碼狀態,取值為 · 0:表示用戶名密碼正確 · 1:表示用戶名密碼錯誤 |
|
|
ATTACK |
設備 |
All-type_attacks |
所有類型的攻擊次數 |
|
|
TCP |
設備 |
TCP_attacks |
TCP攻擊次數 |
|
|
ARP-ATK |
設備 |
ARP_attacks |
ARP攻擊次數 |
|
|
ND-ATK |
設備 |
ND_attacks |
ND攻擊次數 |
|
|
AAA |
設備 |
Illegal_user_detections |
非法用戶檢測次數 |
|
缺省情況下,設備上所有支持KPI采集功能的業務模塊都開啟了KPI數據采集功能。
由於KPI數據采集的指標類型多、數據量會逐漸增加,為防止持續的采集過程對正常的業務造成影響,當設備內存或CPU利用率達到告警閾值時,KPI數據采集功能會處於抑製狀態,此時KPI進程將暫停采集數據,建議關閉一些非CPU、非內存利用率相關指標的采集功能,僅保留DEV-RES的KPI采集功能。關於設備內存或CPU利用率的告警閾值的詳細信息,請參見“基礎配置指導”中的“設備管理”。
KPI數據采集功能的配置任務如下:
· (可選)配置KPI數據的存儲功能
· (可選)配置KPI數據的老化功能
· (可選)將備用主控板裏的KPI采集的指標數據複製到主用主控板
· (可選)關閉指定業務模塊的KPI數據采集功能
· (可選)配置指定模塊的KPI數據采集周期
內存中KPI采集的數據文件每隔一定時間周期保存到存儲介質。通過本功能可以修改KPI數據文件存儲的目錄和保存到存儲介質的周期。
表1-2 在係統視圖下配置KPI數據的存儲功能
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
配置將內存中KPI采集的數據文件保存到存儲介質的周期 |
kpi file save-interval interval |
缺省情況下,內存中KPI采集的數據文件每隔1440分鍾將保存到存儲介質 |
配置存儲KPI數據文件的目錄 |
kpi file directory dir-name |
缺省情況下,存儲KPI數據文件的目錄是flash:/kpi |
當存儲介質的剩餘空間不足或者現有存儲介質上KPI采集數據文件總大小過大時,KPI進程將主動老化早期的KPI數據。通過本功能可以修改觸發KPI數據文件老化操作的剩餘存儲介質容量的閾值以及觸發KPI數據文件老化操作的KPI數據文件閾值。
表1-3 在係統視圖下配置KPI數據的老化功能
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
配置觸發KPI數據文件老化操作的剩餘存儲介質容量的閾值 |
kpi file aging threshold remain-disk-size size |
缺省情況下,存儲介質的剩餘容量的閾值為128Mbyte |
配置觸發KPI數據文件老化操作的KPI數據文件閾值 |
kpi file aging threshold total-file-size size |
缺省情況下,KPI數據文件閾值與設備為128Mbyte |
設備發生主備倒換後,當前運行的主控板上無法獲取倒換前的主控板上KPI采集的數據,必須使用本功能把原故障的主用主控板上的KPI數據複製到當前的主用主控板上。
如果主備倒換前管理員執行了kpi file directory命令,修改了存儲KPI數據文件的目錄,原主控板上將存在新舊兩個KPI數據文件的目錄。發生主備倒換後,配置本功能係統將會把原主控板裏的最新的KPI采集的指標數據複製到主用主控板的同名目錄中,原主控板中舊存儲目錄下KPI數據文件將無法複製到新的主用主控板中。
表1-4 在係統視圖下將備用主控板裏的KPI采集的指標數據複製到主用主控板
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
將備用主控板裏的KPI采集的指標數據複製到主用主控板 |
kpi copy-file to active-mpu |
- |
KPI數據采集的指標類型多、數據量大,為防止對業務造成影響,當設備內存或CPU利用率較高時,可以配置本功能停止對某些業務模塊指標的信息采集。
表1-5 在Probe視圖下關閉指定業務模塊的KPI數據采集功能
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
進入Probe視圖 |
probe |
- |
關閉指定業務模塊的KPI數據采集功能 |
undo kpi system internal collect module [ module-name ] enable |
缺省情況下,設備上所有支持KPI采集功能的業務模塊都開啟了KPI數據采集功能 |
配置可以修改指定業務模塊的KPI數據采集周期。
表1-6 在Probe視圖下配置指定模塊的KPI數據采集周期
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
進入Probe視圖 |
probe |
- |
關閉指定業務模塊的KPI數據采集功能 |
kpi system internal module module-name collect-interval collect-interval |
缺省情況下,KPI數據采集功能的采集周期為300秒 |
在完成上述配置後,在任意視圖下執行display命令可以顯示KPI采集數據的情況,通過查看顯示信息驗證配置的效果。
表1-7 KPI數據采集顯示和維護
操作 |
命令 |
顯示遠程設備KPI采集的特定模塊和對象的指標數據 |
display external-kpi data [ device-ip ip-address [ module module-name [ object object-name ] ] ] |
顯示KPI采集的業務模塊的信息 |
display kpi module-info [ module-name ] [ verbose ] |
顯示指定時間內KPI采集的特定模塊和對象的指標數據 |
display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ] |
智能監控和預測(EAI,Embedded Artificial Intelligence)是一種基於智能算法的設備KPI指標監控和預測技術。它能夠根據KPI數據采集功能采集到的曆史指標值對指標進行實時監控和智能預測,幫助網絡管理員分析設備上關鍵指標的變化趨勢,提前預防可能出現的故障。
設備根據KPI采集到的曆史指標值,動態地為表2-1中的指標生成合理的告警門限和告警恢複門限。
· 當KPI數據采集功能采集到的指標值超出上述指標的告警門限範圍時,設備將超限情況記錄日誌並將告警通過SNMP上報網管;
· 當KPI數據采集功能采集到的指標值從超出告警門限恢複到告警恢複門限範圍內時,設備將恢複情況記錄日誌並將告警通過SNMP上報網管。
開啟本功能後,根據KPI采集的曆史指標數據信息,設備動態計算並預測該指標30天後的數值。
· 當智能預測的指標值超出指標的告警門限範圍時,設備將超限情況記錄日誌並將告警通過SNMP上報網管;
· 當智能預測的指標數據值從超出告警門限範圍恢複到告警恢複門限範圍內時,設備將恢複情況記錄日誌並將告警通過SNMP上報網管。
KPI類 |
業務模塊 |
對象 |
指標名稱 |
指標說明 |
Device-resource (設備容量類) |
FWD-RES |
單板 |
ARP_entry_usage |
ARP表項利用率(used/total) |
FWD-RES |
單板 |
MAC_entry_usage |
MAC表項利用率(used/total) |
|
FWD-RES |
單板 |
FIB_entry_usage |
FIB轉發表項利用率(used/total) |
|
FWD-RES |
單板 |
ND_entry_usage |
ND轉發表項利用率(used/total) |
|
FWD-RES |
單板 |
IPv4L2multicast_usage |
IPv4二層組播表項利用率(used/total) |
|
FWD-RES |
單板 |
IPv6L2multicast_usage |
IPv6二層組播表項利用率(used/total) |
|
FWD-RES |
單板 |
IPv4L3multicast_usage |
IPv4三層組播表項利用率(used/total) |
|
FWD-RES |
單板 |
IPv6L3multicast_usage |
IPv6三層組播表項利用率(used/total) |
|
ACL-RES |
單板 |
ACL_usage |
ACL資源利用率(used/total) |
|
STOR-RES |
單板 |
Storage_usage |
存儲空間利用率(used/total) |
|
DEV-RES |
單板 |
CPU_usage |
CPU利用率(used/total) |
|
DEV-RES |
單板 |
Memory_usage |
內存利用率(used/total) |
請確保表2-1中相關的業務模塊的KPI數據采集功能處於開啟狀態。
智能監控和預測的配置任務如下:
· 開啟智能監控功能
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
進入智能監控和預測視圖 |
eai artificial intelligence |
- |
開啟智能監控功能 |
eai monitoring enable |
缺省情況下,智能監控功能處於關閉狀態 |
表2-3 智能監控和預測視圖下開啟智能預測功能
操作 |
命令 |
說明 |
進入係統視圖 |
system-view |
- |
進入智能監控和預測視圖 |
eai artificial intelligence |
- |
開啟智能預測功能 |
eai prediction enable |
缺省情況下,智能預測功能處於關閉狀態 |
在完成上述配置後,在任意視圖下執行display命令可以顯示配置後智能監控和預測的情況,通過查看顯示信息驗證配置的效果。
表2-4 智能監控和預測顯示和維護
操作 |
命令 |
顯示智能監控的指標數據 |
display eai monitoring |
顯示智能預測數據和KPI采集的曆史數據 |
display eai prediction |
不同款型規格的資料略有差異, 詳細信息請向具體銷售和400谘詢。H3C保留在沒有任何通知或提示的情況下對資料內容進行修改的權利!