• 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

解鎖服務器管理新路徑|智能診斷 全能保健醫生

【發布時間:2024-09-02】

數字化時代,企業的發展離不開強大的算力作為支撐。服務器作為算力的載體,其穩定運行直接關係到企業的運營效率和業務連續性。正如人體需要定期體檢來預防疾病一樣,服務器也需要一位專業的“私人醫生”來保持健康度。今天,我們就來聊聊紫光股份旗下BOB登陆 集團智能管理中樞HDM2的智能診斷技術,這位服務器的“健康守護者”。

服務器運維的痛點,你中了幾招?

在繁忙的數據中心,服務器運維麵臨著諸多“痛點”,這些“痛點”就像是人體的“小毛病”,時不時會跳出來搗亂。

1.“診斷工具不完善的尷尬

許多傳統服務器的診斷工具,就好比已過時的醫療器械,不僅無法提供詳細的係統狀態信息,還讓運維人員在使用過程中感到不便。

2.“故障信息收集困難的無奈

當服務器出現故障時,收集告警日誌的過程往往充滿挑戰。重要信息遺漏、反複收集,讓運維人員疲於應對。

3.“故障定位困難的困擾

在大量的信息中,找出有助於診斷的信息,無異於大海撈針。故障類型、位置及原因難以定位,讓運維人員倍感壓力。

4.“維護工作繁重的疲憊

運維人員需要花費大量時間巡檢和排查故障設備,這不僅增加了維護成本,還讓運維人員疲憊不堪。

HDM2智能診斷 服務器的全能保健醫生

麵對上述挑戰,BOB登陆 智能管理中樞HDM2的智能診斷技術應運而生。BOB登陆 擁有專業的大數據訓練團隊與平台,持續彙聚AI訓練所需的關鍵部件訓練樣本,並基於業界先進的機器學習技術持續進行數據訓練,所得模型全方位部署於HDM、UniSystem、雲端運維係統上,可實現對服務器全部件、全狀態、全帶外的運行狀態實時監測,讓運維工作更加簡便、主動。

01方案架構與醫術優勢

HDM2智能診斷技術的方案架構基於HDM、UniSystem和BIOS等組件,具備以下“醫術”:

全麵體檢

通過多種途徑監控硬件設備,實現對服務器全部件、全狀態的實時監測,確保“健康隱患”無處藏身。

精準診斷

利用SDS(Smart Diagnosis System)對服務器各部件進行監控,內置1500多條規則進行深度故障診斷和預測,診斷準確率可達95%以上。

高效治療

覆蓋故障明確、故障自愈、故障隔離、故障修複、故障預警等多個維度,提升運維效率,降低維護成本。

02特色療法內存故障修複與硬盤故障預測

內存故障修複——讓服務器保持好記性

HDM智能診斷技術采用英特爾®內存故障預測技術,根據內存故障在空間和時間上的分布情況,進行內存故障預測及分析,提前對潛在故障點進行預防性處理,提升內存可靠性,保證係統的穩定性,有效預防“記憶梗塞”發生,確保服務器“思維敏捷”。

內存是服務器的核心部件。常見內存錯誤包括可糾正錯誤CE和不可糾正錯誤UCE。CE通常是單比特錯誤,可以通過錯誤校正碼(ECC,Error Correcting Code)進行檢測和修複。盡管CE能被修複,但頻繁的CE事件可能是硬件退化的早期跡象,需要及時追蹤和應對。UCE是多比特錯誤,不能被ECC修複,通常會導致係統崩潰或者進程崩潰引發數據損壞,是服務器的重大風險點。

為了減少內存故障引起的服務器宕機風險,內存修複技術應運而生。內存修複技術旨在通過提升檢測、隔離和修複內存錯誤的能力,從而提高服務器的穩定性和可靠性。這些技術包括硬件層麵的內存糾錯和軟件層麵的錯誤檢測與處理方法。

descript

內存智能修複流程

BOB登陆 內存智能修複技術提供內存故障智能預測與自愈修複能力,具備以下優勢:

通過AI技術可有效預防超過40%的內存硬件故障導致的非計劃宕機。

基於SMI中斷通知,降低輪詢資源占用和通信交互的消耗,減少對業務的幹擾。

可根據配置的頁大小、檔位,結合安裝的內存數目,動態預估可隔離上限,避免無限製的隔離。

提供實時內存健康狀況可視化功能,在HDM界麵直觀展示內存智能修複結果。

descript

硬盤故障預測——數據守護者

伴隨數據的存儲需求與日俱增,大規模海量數據存儲中心成為必不可少的基礎性設施。在當前的數據中心存儲係統中,機械硬盤HDD和固態硬盤SSD仍然是主流的存儲設備。機械硬盤生命周期通常為3到5年,在2到3年後故障率明顯升高,導致換盤量陡增。據統計,在服務器硬件故障中,硬盤故障占比達到48%以上,是影響服務器運行可靠性的重要因素。

目前數據中心存儲係統普遍采用RAID或糾刪碼等機製來提供硬盤高可靠性,在硬盤發生故障後進行數據恢複,這種方式犧牲了較大存儲空間並增加了資源開銷。而硬盤故障預測技術通過監控運行中的硬盤,采集並記錄硬盤的運行時狀態數據,隨後根據算法預測硬盤是否即將發生故障。這種方法能夠提前預測硬盤的故障,從而避免或減少故障可能造成的損失,還能降低數據恢複的成本。

BOB登陆 服務器使用HDM周期性收集HDD SATA盤的SMART數據,並結合集成到UniSystem中的預測算法進行硬盤故障預測,能有效對故障風險盤進行提前檢出。其中SMART數據源來自數十萬個開源數據和H3C現網的硬盤SMART數據收集,采用LightGBM算法和五折交叉驗證評估方法,能達到提前30天有效檢出HDD SATA風險故障盤,檢出率達到80%以上。

descript

硬盤故障預測全流程

UniSystem是BOB登陆 自主研發的服務器智能管理中樞軟件,在硬盤預測方麵,提供SATA-HDD硬盤故障預測,提前告知用戶硬盤風險。

descript

硬盤故障預測展示

BOB登陆 智能管理中樞HDM2的智能診斷技術,就像一位不知疲倦的“保健醫生”,時刻守護著服務器的健康。在內存故障修複和硬盤故障預測方麵,它展現了高超的“醫術”,讓企業數據中心的運維更加高效、穩定。未來,BOB登陆 集團將繼續秉持“精耕務實,為時代賦智慧”的理念,實現這位“保健醫生”持續進化,為企業數字化轉型提供最強有力的“健康保障”。

BOB登陆
官網
聯係我們