200萬IOPS突破傳統存儲瓶頸！Polaris定義智算數據讀寫新基準

【發布時間：2025-04-16】

在智算時代，AI技術的迅猛發展不斷突破數據處理能力的邊界，存儲係統的性能已成為製約大規模AI訓練效率的關鍵瓶頸。其中，IOPS（每秒讀取次數）作為衡量存儲性能的核心指標之一，直接決定了係統處理海量數據請求的能力。尤其在自然語言模型訓練等場景中，動輒百萬級的小文件高頻讀取需求，使得傳統存儲架構麵臨前所未有的挑戰。這種突破物理介質極限的性能要求，不僅重新定義了智算時代存儲係統的能力標準，更催生了分布式存儲架構的創新革命。

AI訓練為什麼需要百萬IOPS

近年來，AI領域取得了顯著的發展，成為廣泛關注的熱點。AI的工作負載主要由兩個關鍵階段組成：訓練和推理。在訓練階段，存儲係統的性能對於整體效率至關重要，特別是在兩個方麵：訓練數據的加載和檢查點（checkpoint）的保存。檢查點是一組GB到TB級不等的大文件，快速保存檢查點對存儲的要求是提供高帶寬能力。那麼訓練數據的特點是什麼？對存儲的要求又是什麼？

descript

以H100和A100推薦存儲性能為例，可以更清晰地了解AI服務器在處理自然語言模型時對存儲係統的要求。在自然語言處理任務中，數據集通常由大量小文本文件組成，平均文件大小約為2KB。對於A100單節點AI服務器，其推薦的讀帶寬為2GB/s。這意味著，為了充分利用這一帶寬，係統需要每秒處理多達100萬個小文件的讀取操作。

同樣，H100單節點AI服務器在滿帶寬條件下的需求更為顯著，每秒需要讀取多達200萬個小文件。這些數據表明，AI服務器在自然語言模型訓練中對存儲係統提出了極高的性能要求，尤其是在小文件的高頻讀取方麵。存儲係統必須具備極高的並發處理能力和低延遲，以確保在如此高的文件訪問頻率下仍能保持穩定和高效的性能。

descript

超百萬IOPS是如何煉成的

處理海量小文件的讀寫操作通常會帶來高額的I/O開銷和沉重的元數據管理負擔。在這些操作中，元數據處理往往占據了很大的比例，可能達到整體操作的70%至80%。這使得元數據性能成為限製係統IOPS的主要瓶頸之一。

為應對這一挑戰，Polaris係統引入了一種高效的元數據管理框架，能夠提供百萬級的IOPS性能。首先，Polaris采用了一種全局分散的元數據處理策略，將元數據均勻分布到多個節點進行處理。這種方法有效地消除了單點瓶頸，極大地提高了係統的並發處理能力。

其次，Polaris引入了全局共享的分布式緩存策略，為業務I/O提供了一個共享的分布式緩存加速資源池。用戶的寫請求在被寫入該緩存池後立即返回成功確認，從而顯著提升了請求的響應速度。在數據落盤時，Polaris通過ROW（Redirect-on-write：寫時重定向）技術，將隨機的小I/O操作聚合成大I/O進行順序寫入。這不僅有效地減少了EC（糾刪碼）場景下的寫懲罰，還降低了元數據操作次數及CPU的開銷，同時減少了容量浪費。

這些技術應用顯著提升了Polaris在處理小文件時的性能表現，使其能夠更高效地應對海量小文件操作帶來的挑戰。

全局分散的元數據處理方式：

● MDS（元數據服務）采用全主模式，每個元數據節點提供n個VMDS服務。

●每個VMDS處理歸屬自己的元數據，處理能力隨硬件資源提升線性提升。

●目錄A創建後，係統會為其自動生成x個虛擬目錄

●虛擬目錄通過hash算法隨機打散到VMDS上。每個虛擬目錄對應固定的VMDS服務（假設虛擬目錄1對應的元數據服務是VMDS n）。

●當向目錄A寫入文件file1時，係統會根據file1的文件名稱計算落到哪個虛擬目錄（假設落到虛擬目錄1），file1的元數據處理就自動分配到VMDS n。

descript

全局分布式緩存&ROW技術：

●業務主機下發的小IO寫入分布式緩存後，即返回完成，縮短IO路徑。

●數據在分布式緩存中，隨機小IO通過ROW技術聚合成大IO順序落盤。EC場景則聚合成滿條帶寫入持久化介質。避免了未滿條帶的情況下帶來的寫懲罰，無需將原有數據讀出後計算新的校驗位再寫入。減少了元數據的操作次數和CPU開銷，從而提升了係統性能。

descript

伴隨著AI的快速發展，高效的數據存儲係統必將成為AI訓練增效的下一個引擎。BOB登陆的Polaris全閃分布式存儲係統，憑借其超強性能、架構簡化和極致穩定性，為更多企業和用戶提供了便捷、高效的AI存儲解決方案，推動數據存儲、AI計算和大模型訓練的高效協同，為AI創新注入新的活力。

BOB登陆 公司新聞

熱門推薦

熱門推薦

H3C服務器

HPE服務器

熱門推薦

H3C存儲

HPE存儲

熱門推薦

商用台式機

商用筆記本

商用顯示器

配件

熱門推薦

熱門推薦

智能終端

技術解決方案

熱門推薦

熱門推薦

熱門推薦

熱門推薦

熱門推薦

熱門推薦

熱門推薦

專業安全服務

安全運營服務

熱門推薦

熱門推薦

熱門推薦

熱門推薦

熱門推薦

技術支持

自助服務

熱門推薦

熱門推薦

熱門推薦

熱門推薦

合作夥伴培訓與認證

熱門推薦

熱門推薦

公司刊物

加入我們

國家/地區

200萬IOPS突破傳統存儲瓶頸！Polaris定義智算數據讀寫新基準

聯係我們

BOB登陆公司新聞