• 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

12-網絡管理和監控配置指導

目錄

24-KPI數據采集配置

本章節下載 24-KPI數據采集配置  (360.09 KB)

24-KPI數據采集配置


1 KPI數據采集

1.1  KPI數據采集簡介

設備的KPI(Key Performance Indicator,關鍵性能指標)用來表示某一時刻設備運行狀態的一係列性能值。設備運行過程中自動采集KPI數據並將KPI數據存儲在Flash介質中。

KPI數據采集功能可以周期性采集各種類型的設備性能指標,實時記錄大量性能指標數據,用戶可根據采集到的KPI信息了解設備運行狀態、業務故障時間點、業務故障類型和疑似故障原因,通過這些信息快速定位故障。

1.1.1  KPI數據采集的基本概念

KPI數據采集功能收集到的數據量巨大,且采集的數據種類豐富,例如,采集到設備上某單板的CPU利用率為50%,該數據屬於描述設備容量類的性能參數,同時,該參數還屬於設備資源管理的業務模塊,歸屬於某塊單板,其具體指標為50%,為了方便描述所有類型的數據,對數據進行分類和檢索,KPI采集到的數據以結構化信息來呈現,並且從以下四個維度來定義數據信息:

·     指標(Indicator):KPI數據采集功能采集的性能參數和狀態,例如CPU利用率、內存利用率、FIB轉發表項利用率、ARP表項資源利用率、各類板卡故障、電源故障、單板溫度異常數據等等。

·     對象(Object):指標所屬的設備、單板或子卡等物理實體,為了表示這些物理實體,定義了一類數據來標識對象。隨著KPI采集功能可以采集到的指標越來越多,對象的種類也會越來越豐富,根據對象的類型不同,取值也各不相同,目前支持以下取值類型:

¡     device:標識設備。該對象的指標用來表示設備整體的情況。

¡     chassis.x/slot.y:標識單板。該對象的指標用於標識某個單板性能和狀態,取值為chassis.x/slot.y,其中x取值為0,y表示單板所在的槽位號。(獨立運行模式)其中x表示設備在IRF中的成員編號,y表示單板的槽位號。(IRF模式)

¡     chassis.x/slot.y/subslot.z:標識子卡,該對象的指標用於標識該子卡的性能和狀態,取值為chassis.x/slot.y/subslot.z,其中x取值為0,y表示單板所在的槽位號,z表示子卡編號。(獨立運行模式)其中x表示設備在IRF中的成員編號,y表示單板的槽位號,z表示子卡編號。(IRF模式)

¡     interface-typeinterface-number:標識接口,該對象的指標用於標識某個物理接口的運行狀態指標,對象取值為接口類型和接口編號。

·     業務模塊(Module):指標所屬的業務功能模塊,例如CPU利用率和內存利用率屬於設備資源模塊(模塊名稱為DEV-RES),FIB轉發表項利用率和ARP表項資源利用率屬於轉發資源模塊(模塊名稱為FWD-RES)。

·     KPI類(Class):某一類指標的集合。一些KPI數據指標可以用來衡量設備某方麵的運行狀態,可以將這些指標劃分為一個KPI類,係統中預定義了一些KPI類,例如網絡性能類(Net-performace),端口狀態類(Port-state)。

1.1.2  KPI數據采集的工作機製

KPI數據采集的工作機製如圖1-1所示:

圖1-1 KPI數據采集的工作機製示意圖

 

(2)     數據采集:設備開啟對指定業務模塊的KPI數據采集功能後,KPI進程按一定時間周期采集該業務模塊的數據指標。KPI進程將采集到的數據指標臨時保存在設備內存中。缺省情況下,KPI數據指標采集周期為300秒,可以自定義修改指標的采集周期。

(3)     數據存儲:KPI進程每隔一定周期將采集到的數據指標存儲到Flash存儲介質上。當存儲介質的剩餘空間不足或者現有存儲介質上KPI采集數據文件總大小超出一定閾值時,KPI進程將主動老化早期的KPI數據,刪除最早的KPI數據。

1.1.3  KPI數據采集功能支持的數據信息

表1-1 KPI數據采集功能支持的數據信息

KPI類

業務模塊

(Module)

對象

(Object)

指標名稱

指標說明

 

Device-state

(設備狀態類)

DEV

單板

Device_restarts

設備反複重啟次數

IRF

設備

IRF_splits

框式堆疊的分裂次數

 

IRF

設備

IRF_dual-active_count

框式堆疊出現雙主次數

 

DEV

單板

LPU_failures

接口板故障次數

 

DEV

單板

MPU_state

主控板狀態,取值為:

·     0:不在位

·     1:正常

·     2:故障

 

DEV

單板

MPU_failures

主控板故障次數

 

DEV

單板

SFU_state

交換網板狀態,取值為:

·     0:不在位

·     1:正常

·     2:故障

 

DEV

單板

SFU_failures

交換網板故障次數

 

DEV

子卡

Subslot_failure

子卡故障次數

 

FWD

設備

Inc_H_S_entries

軟硬件表項不一致數量(Inconsistent hardware and software entries)

 

FAN

設備

Fan_state

風扇狀態,取值為:

·     0:正常

·     1:故障

 

POWER

設備

Power_state

電源狀態,取值為:

·     0:正常

·     1:故障

 

POE

設備

PoE_state

PoE供電狀態,取值為:

·     0:正常

·     1:故障

 

TEMP

設備

Card_temperature

單板溫度,取值為:

·     0:正常

·     1:故障

 

FS

設備

File_exceptions

文件係統異常,保存失敗次數

 

DEV

設備

Process_abnormal_reboot

進程異常重啟次數

 

DEV

設備

Process_normal_reboot

進程正常重啟次數

 

Device-resource

(設備容量類)

FWD-RES

單板

ARP_entry_usage

ARP表項利用率(used/total)

 

FWD-RES

單板

ARP_threshold_ratio

ARP表項使用的數量和ARP表項使用閾值的比值(used/threshold)

 

FWD-RES

單板

MAC entry usage

MAC表項利用率(used/total)

 

FWD-RES

單板

MAC_threshold_ratio

MAC表項使用的數量和MAC表項使用閾值的比值(used/threshold)

 

FWD-RES

單板

FIB_entry_usage

FIB轉發表項利用率(used/total)

 

FWD-RES

單板

FIB_threshold_ratio

FIB轉發表項使用的數量和FIB轉發表項使用閾值的比值(used/threshold)

 

FWD-RES

單板

ND entry usage

ND轉發表項利用率(used/total)

 

FWD-RES

單板

ND_threshold_ratio

ND轉發表項使用的數量和ND轉發表項使用閾值的比值(used/threshold)

 

FWD-RES

單板

IPv4L2multicast_usage

IPv4二層組播表項利用率(used/total)

 

FWD-RES

單板

IPv4L2multicast_ratio

IPv4二層組播表項使用程度,已使用的表項和閾值比值(used/threshold)

 

FWD-RES

單板

IPv6L2multicast_usage

IPv6二層組播表項利用率(used/total)

 

FWD-RES

單板

IPv6L2multicast_ratio

IPv6二層組播表項使用程度,已使用的表項和閾值比值(used/threshold)

 

FWD-RES

單板

IPv4L3multicast_usage

IPv4三層組播表項利用率(used/total)

 

FWD-RES

單板

IPv4L3multicast_ratio

IPv4三層組播表項資源使用程度,已使用的表項和閾值比值(used/threshold)

 

FWD-RES

單板

IPv6L3multicast_usage

IPv6三層組播表項利用率(used/total)

 

FWD-RES

單板

IPv6L3multicast_ratio

IPv6三層組播表項使用程度,已使用的表項和閾值比值(used/threshold)

 

ACL-RES

單板

ACL_usage

ACL資源利用率(used/total)

 

ACL-RES

單板

ACL_threshold_ratio

ACL資源使用程度(used/threshold),已使用的表項和閾值比值

 

STOR-RES

單板

Storage_usage

存儲空間利用率(used/total)

 

STOR-RES

單板

Storage_threshold_ratio

存儲空間使用程度(used/threshold),已使用的資源和閾值比值

 

DEV-RES

單板

CPU_usage

CPU利用率(used/total)

 

DEV-RES

單板

CPU_threshold_ratio

CPU使用程度(used/threshold),已使用的資源和閾值比值

 

DEV-RES

單板

Memory_usage

內存利用率(used/total)

 

DEV-RES

單板

Memory_threshold_ratio

內存使用程度(used/threshold),已使用的資源和閾值比值

 

Net-performance

(網絡性能類)

LOOP-DCT

設備

L2 loop_state

二層環路狀態,取值為:

·     0:正常

·     1:故障

 

IF-CI

接口

Port_congestion

端口擁塞導致的丟包數

 

IF-ERROR

接口

Port_error

端口錯包導致的丟包數

 

CPCAR

設備

CPCAR_loss

控製平麵配置流量監管進行限速導致的丟包數量

 

STP-SWT

設備

STP_switchovers

STP切換次數

 

LACP-SWT

設備

LACP_switchovers

鏈路聚合切換次數

 

IRF-SWT

設備

IRF_switchovers

堆疊切換次數

 

M-LAG-SWT

設備

M-LAG_switchovers

M-LAG切換次數

 

RRPP-SWT

設備

RRPP_switchovers

RRPP切換次數

 

VRRP-SWT

設備

VRRP_switchovers

VRRP切換次數

 

IF-USAGE

設備

Port_BW_usage

所有端口的帶寬利用率

 

Port-state

(端口狀態類)

PORT-ST

設備

Down_ports

處於down狀態的物理接口數量

 

PORT-ST

設備

Port_flappings

端口震蕩次數

 

Net-connection

(網絡鏈接類)

RPNCS

設備

ISIS_peer_status

ISIS協議鄰居連接狀態,取值為

·     0:正常

·     1:故障

 

RPNCS

設備

OSPF_peer_status

OSPF協議鄰居連接狀態,取值為

·     0:正常

·     1:故障

 

RPNCS

設備

OSPv3_peer_status

OSPFv3協議鄰居連接狀態,取值為

·     0:正常

·     1:故障

 

RPNCS

設備

BGP_peer_status

BGP協議鄰居連接狀態,取值為

·     0:正常

·     1:故障

 

MCRCS

設備

Multicast_connection_status

組播路由連接狀態,取值為

·     0:正常

·     1:故障

 

DHCPCS

設備

DHCPv4_server_state

DHCPv4 sever狀態,取值為

·     0:正常

·     1:故障

 

DHCPCS

設備

DHCPv6_server_state

DHCPv6 sever狀態,取值為

·     0:正常

·     1:故障

 

DHCPCS

設備

DHCPv4_server_switching

DHCPv4 sever切換次數

 

DHCPCS

設備

DHCPv6_server switching

DHCPv6 sever切換次數

 

DHCPCS

設備

DHCPv4_entry failures

DHCPv4表項建立失敗的次數

 

DHCPCS

設備

DHCPv6_entry failures

DHCPv6表項建立失敗的次數

 

Net-security

(網絡安全類)

AAA

設備

1X_AuthN_status

1x認證狀態,取值為

·     0:表示認證正常

·     1:表示認證異常,可能存在802.1X認證攻擊

 

AAA

設備

1X_Usr&Pwd_status

1x用戶名密碼狀態,取值為

·     0:表示用戶名密碼正確

·     1:表示用戶名密碼錯誤

 

AAA

設備

MAC_AuthN_status

MAC地址認證狀態,取值為

·     0:表示認證正常

·     1:表示認證異常,可能存在攻擊

 

AAA

設備

MAC_Usr&Pwd_status

MAC地址認證用戶名密碼狀態,取值為

·     0:表示用戶名密碼正確

·     1:表示用戶名密碼錯誤

 

AAA

設備

Portsec_AuthN_status

端口安全認證狀態,取值為

·     0:表示認證正常

·     1:表示認證異常,可能存在攻擊

 

AAA

設備

Portsec_Usr&Pwd_status

端口安全用戶名密碼狀態,取值為

·     0:表示用戶名密碼正確

·     1:表示用戶名密碼錯誤

 

AAA

設備

StaticUser_AuthN_status

靜態用戶認證狀態,取值為

·     0:表示認證正常

·     1:表示認證異常,可能存在攻擊

 

AAA

設備

StaticUser_Usr&Pwd_status

靜態用戶名密碼狀態,取值為

·     0:表示用戶名密碼正確

·     1:表示用戶名密碼錯誤

 

ATTACK

設備

All-type_attacks

所有類型的攻擊次數

 

TCP

設備

TCP_attacks

TCP攻擊次數

 

ARP-ATK

設備

ARP_attacks

ARP攻擊次數

 

ND-ATK

設備

ND_attacks

ND攻擊次數

 

AAA

設備

Illegal_user_detections

非法用戶檢測次數

 

 

1.2  配置限製和指導

缺省情況下,設備上所有支持KPI采集功能的業務模塊都開啟了KPI數據采集功能。

由於KPI數據采集的指標類型多、數據量會逐漸增加,為防止持續的采集過程對正常的業務造成影響,當設備內存或CPU利用率達到告警閾值時,KPI數據采集功能會處於抑製狀態,此時KPI進程將暫停采集數據,建議關閉一些非CPU、非內存利用率相關指標的采集功能,僅保留DEV-RES的KPI采集功能。關於設備內存或CPU利用率的告警閾值的詳細信息,請參見“基礎配置指導”中的“設備管理”。

1.3  配置任務簡介

KPI數據采集功能的配置任務如下:

·     (可選)配置KPI數據的存儲功能

·     (可選)配置KPI數據的老化功能

·     (可選)將備用主控板裏的KPI采集的指標數據複製到主用主控板

·     (可選)關閉指定業務模塊的KPI數據采集功能

·     (可選)配置指定模塊的KPI數據采集周期

1.3.1  配置KPI數據的存儲功能

內存中KPI采集的數據文件每隔一定時間周期保存到存儲介質。通過本功能可以修改KPI數據文件存儲的目錄和保存到存儲介質的周期。

1. 在係統視圖下配置KPI數據的存儲功能

表1-2 在係統視圖下配置KPI數據的存儲功能

操作

命令

說明

進入係統視圖

system-view

-

配置將內存中KPI采集的數據文件保存到存儲介質的周期

kpi file save-interval interval

缺省情況下,內存中KPI采集的數據文件每隔1440分鍾將保存到存儲介質

配置存儲KPI數據文件的目錄

kpi file directory dir-name

缺省情況下,存儲KPI數據文件的目錄是flash:/kpi

 

1.3.2  配置KPI數據的老化功能

當存儲介質的剩餘空間不足或者現有存儲介質上KPI采集數據文件總大小過大時,KPI進程將主動老化早期的KPI數據。通過本功能可以修改觸發KPI數據文件老化操作的剩餘存儲介質容量的閾值以及觸發KPI數據文件老化操作的KPI數據文件閾值。

1. 在係統視圖下配置KPI數據的老化功能

表1-3 在係統視圖下配置KPI數據的老化功能

操作

命令

說明

進入係統視圖

system-view

-

配置觸發KPI數據文件老化操作的剩餘存儲介質容量的閾值

kpi file aging threshold remain-disk-size size

缺省情況下,存儲介質的剩餘容量的閾值為128Mbyte

配置觸發KPI數據文件老化操作的KPI數據文件閾值

kpi file aging threshold total-file-size size

缺省情況下,KPI數據文件閾值與設備為128Mbyte

 

1.3.3  將備用主控板裏的KPI采集的指標數據複製到主用主控板

設備發生主備倒換後,當前運行的主控板上無法獲取倒換前的主控板上KPI采集的數據,必須使用本功能把原故障的主用主控板上的KPI數據複製到當前的主用主控板上。

提示

如果主備倒換前管理員執行了kpi file directory命令,修改了存儲KPI數據文件的目錄,原主控板上將存在新舊兩個KPI數據文件的目錄。發生主備倒換後,配置本功能係統將會把原主控板裏的最新的KPI采集的指標數據複製到主用主控板的同名目錄中,原主控板中舊存儲目錄下KPI數據文件將無法複製到新的主用主控板中。

 

1. 在係統視圖下將備用主控板裏的KPI采集的指標數據複製到主用主控板

表1-4 在係統視圖下將備用主控板裏的KPI采集的指標數據複製到主用主控板

操作

命令

說明

進入係統視圖

system-view

-

將備用主控板裏的KPI采集的指標數據複製到主用主控板

kpi copy-file to active-mpu

-

 

1.3.4  關閉指定業務模塊的KPI數據采集功能

KPI數據采集的指標類型多、數據量大,為防止對業務造成影響,當設備內存或CPU利用率較高時,可以配置本功能停止對某些業務模塊指標的信息采集。

1. 在Probe視圖下關閉指定業務模塊的KPI數據采集功能

表1-5 在Probe視圖下關閉指定業務模塊的KPI數據采集功能

操作

命令

說明

進入係統視圖

system-view

-

進入Probe視圖

probe

-

關閉指定業務模塊的KPI數據采集功能

undo kpi system internal collect module [ module-name ] enable

缺省情況下,設備上所有支持KPI采集功能的業務模塊都開啟了KPI數據采集功能

 

1.3.5  配置指定模塊的KPI數據采集周期

配置可以修改指定業務模塊的KPI數據采集周期。

1. 在Probe視圖下配置指定模塊的KPI數據采集周期

表1-6 在Probe視圖下配置指定模塊的KPI數據采集周期

操作

命令

說明

進入係統視圖

system-view

-

進入Probe視圖

probe

-

關閉指定業務模塊的KPI數據采集功能

kpi system internal module module-name collect-interval collect-interval

缺省情況下,KPI數據采集功能的采集周期為300秒

 

1.3.6  KPI數據采集顯示和維護

在完成上述配置後,在任意視圖下執行display命令可以顯示KPI采集數據的情況,通過查看顯示信息驗證配置的效果。

表1-7 KPI數據采集顯示和維護

操作

命令

顯示遠程設備KPI采集的特定模塊和對象的指標數據

display external-kpi data [ device-ip ip-address [ module module-name [ object object-name ] ] ]

顯示KPI采集的業務模塊的信息

display kpi module-info [ module-name ] [ verbose ]

顯示指定時間內KPI采集的特定模塊和對象的指標數據

display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ]

 

 

 


2 智能監控和預測

2.1  智能監控和預測簡介

智能監控和預測(EAI,Embedded Artificial Intelligence)是一種基於智能算法的設備KPI指標監控和預測技術。它能夠根據KPI數據采集功能采集到的曆史指標值對指標進行實時監控和智能預測,幫助網絡管理員分析設備上關鍵指標的變化趨勢,提前預防可能出現的故障。

2.1.1  智能監控功能

設備根據KPI采集到的曆史指標值,動態地為表2-1中的指標生成合理的告警門限和告警恢複門限。

·     當KPI數據采集功能采集到的指標值超出上述指標的告警門限範圍時,設備將超限情況記錄日誌並將告警通過SNMP上報網管;

·     當KPI數據采集功能采集到的指標值從超出告警門限恢複到告警恢複門限範圍內時,設備將恢複情況記錄日誌並將告警通過SNMP上報網管。

2.1.2  智能預測功能

開啟本功能後,根據KPI采集的曆史指標數據信息,設備動態計算並預測該指標30天後的數值。

·     當智能預測的指標值超出指標的告警門限範圍時,設備將超限情況記錄日誌並將告警通過SNMP上報網管;

·     當智能預測的指標數據值從超出告警門限範圍恢複到告警恢複門限範圍內時,設備將恢複情況記錄日誌並將告警通過SNMP上報網管。

2.1.3  支持智能監控和預測的KPI指標

表2-1 支持智能監控和預測功能的指標

KPI類

業務模塊

對象

指標名稱

指標說明

Device-resource

(設備容量類)

FWD-RES

單板

ARP_entry_usage

ARP表項利用率(used/total)

FWD-RES

單板

MAC_entry_usage

MAC表項利用率(used/total)

FWD-RES

單板

FIB_entry_usage

FIB轉發表項利用率(used/total)

FWD-RES

單板

ND_entry_usage

ND轉發表項利用率(used/total)

FWD-RES

單板

IPv4L2multicast_usage

IPv4二層組播表項利用率(used/total)

FWD-RES

單板

IPv6L2multicast_usage

IPv6二層組播表項利用率(used/total)

FWD-RES

單板

IPv4L3multicast_usage

IPv4三層組播表項利用率(used/total)

FWD-RES

單板

IPv6L3multicast_usage

IPv6三層組播表項利用率(used/total)

ACL-RES

單板

ACL_usage

ACL資源利用率(used/total)

STOR-RES

單板

Storage_usage

存儲空間利用率(used/total)

DEV-RES

單板

CPU_usage

CPU利用率(used/total)

DEV-RES

單板

Memory_usage

內存利用率(used/total)

 

2.2  智能監控和預測配置準備

請確保表2-1中相關的業務模塊的KPI數據采集功能處於開啟狀態。

2.3  配置任務簡介

智能監控和預測的配置任務如下:

·     開啟智能監控功能

·     智能監控和預測視圖下開啟智能監控功能

操作

命令

說明

進入係統視圖

system-view

-

進入智能監控和預測視圖

eai artificial intelligence

-

開啟智能監控功能

eai monitoring enable

缺省情況下,智能監控功能處於關閉狀態

 

·     開啟智能預測功能

2.3.1  開啟智能監控功能

1. 智能監控和預測視圖下開啟智能監控功能

表2-2 智能監控和預測視圖下開啟智能監控功能

操作

命令

說明

進入係統視圖

system-view

-

進入智能監控和預測視圖

eai artificial intelligence

-

開啟智能監控功能

eai monitoring enable

缺省情況下,智能監控功能處於關閉狀態

 

2.3.2  開啟智能預測功能

1. 智能監控和預測視圖下開啟智能預測功能

表2-3 智能監控和預測視圖下開啟智能預測功能

操作

命令

說明

進入係統視圖

system-view

-

進入智能監控和預測視圖

eai artificial intelligence

-

開啟智能預測功能

eai prediction enable

缺省情況下,智能預測功能處於關閉狀態

 

2.3.3  智能監控和預測顯示和維護

在完成上述配置後,在任意視圖下執行display命令可以顯示配置後智能監控和預測的情況,通過查看顯示信息驗證配置的效果。

表2-4 智能監控和預測顯示和維護

操作

命令

顯示智能監控的指標數據

display eai monitoring

顯示智能預測數據和KPI采集的曆史數據

display eai prediction

 

不同款型規格的資料略有差異, 詳細信息請向具體銷售和400谘詢。H3C保留在沒有任何通知或提示的情況下對資料內容進行修改的權利!

BOB登陆
官網
聯係我們