歡迎user
在智算時代,AI技術的迅猛發展不斷突破數據處理能力的邊界,存儲係統的性能已成為製約大規模AI訓練效率的關鍵瓶頸。其中,IOPS(每秒讀取次數)作為衡量存儲性能的核心指標之一,直接決定了係統處理海量數據請求的能力。尤其在自然語言模型訓練等場景中,動輒百萬級的小文件高頻讀取需求,使得傳統存儲架構麵臨前所未有的挑戰。這種突破物理介質極限的性能要求,不僅重新定義了智算時代存儲係統的能力標準,更催生了分布式存儲架構的創新革命。
AI訓練為什麼需要百萬IOPS
近年來,AI領域取得了顯著的發展,成為廣泛關注的熱點。AI的工作負載主要由兩個關鍵階段組成:訓練和推理。在訓練階段,存儲係統的性能對於整體效率至關重要,特別是在兩個方麵:訓練數據的加載和檢查點(checkpoint)的保存。檢查點是一組GB到TB級不等的大文件,快速保存檢查點對存儲的要求是提供高帶寬能力。那麼訓練數據的特點是什麼?對存儲的要求又是什麼?
以H100和A100推薦存儲性能為例,可以更清晰地了解AI服務器在處理自然語言模型時對存儲係統的要求。在自然語言處理任務中,數據集通常由大量小文本文件組成,平均文件大小約為2KB。對於A100單節點AI服務器,其推薦的讀帶寬為2GB/s。這意味著,為了充分利用這一帶寬,係統需要每秒處理多達100萬個小文件的讀取操作。
同樣,H100單節點AI服務器在滿帶寬條件下的需求更為顯著,每秒需要讀取多達200萬個小文件。這些數據表明,AI服務器在自然語言模型訓練中對存儲係統提出了極高的性能要求,尤其是在小文件的高頻讀取方麵。存儲係統必須具備極高的並發處理能力和低延遲,以確保在如此高的文件訪問頻率下仍能保持穩定和高效的性能。
超百萬IOPS是如何煉成的
處理海量小文件的讀寫操作通常會帶來高額的I/O開銷和沉重的元數據管理負擔。在這些操作中,元數據處理往往占據了很大的比例,可能達到整體操作的70%至80%。這使得元數據性能成為限製係統IOPS的主要瓶頸之一。
為應對這一挑戰,Polaris係統引入了一種高效的元數據管理框架,能夠提供百萬級的IOPS性能。首先,Polaris采用了一種全局分散的元數據處理策略,將元數據均勻分布到多個節點進行處理。這種方法有效地消除了單點瓶頸,極大地提高了係統的並發處理能力。
其次,Polaris引入了全局共享的分布式緩存策略,為業務I/O提供了一個共享的分布式緩存加速資源池。用戶的寫請求在被寫入該緩存池後立即返回成功確認,從而顯著提升了請求的響應速度。在數據落盤時,Polaris通過ROW(Redirect-on-write:寫時重定向)技術,將隨機的小I/O操作聚合成大I/O進行順序寫入。這不僅有效地減少了EC(糾刪碼)場景下的寫懲罰,還降低了元數據操作次數及CPU的開銷,同時減少了容量浪費。
這些技術應用顯著提升了Polaris在處理小文件時的性能表現,使其能夠更高效地應對海量小文件操作帶來的挑戰。
全局分散的元數據處理方式:
● MDS(元數據服務)采用全主模式,每個元數據節點提供n個VMDS服務。
●每個VMDS處理歸屬自己的元數據,處理能力隨硬件資源提升線性提升。
●目錄A創建後,係統會為其自動生成x個虛擬目錄
●虛擬目錄通過hash算法隨機打散到VMDS上。每個虛擬目錄對應固定的VMDS服務(假設虛擬目錄1對應的元數據服務是VMDS n)。
●當向目錄A寫入文件file1時,係統會根據file1的文件名稱計算落到哪個虛擬目錄(假設落到虛擬目錄1),file1的元數據處理就自動分配到VMDS n。
全局分布式緩存&ROW技術:
●業務主機下發的小IO寫入分布式緩存後,即返回完成,縮短IO路徑。
●數據在分布式緩存中,隨機小IO通過ROW技術聚合成大IO順序落盤。EC場景則聚合成滿條帶寫入持久化介質。避免了未滿條帶的情況下帶來的寫懲罰,無需將原有數據讀出後計算新的校驗位再寫入。減少了元數據的操作次數和CPU開銷,從而提升了係統性能。
伴隨著AI的快速發展,高效的數據存儲係統必將成為AI訓練增效的下一個引擎。BOB登陆 的Polaris全閃分布式存儲係統,憑借其超強性能、架構簡化和極致穩定性,為更多企業和用戶提供了便捷、高效的AI存儲解決方案,推動數據存儲、AI計算和大模型訓練的高效協同,為AI創新注入新的活力。