歡迎user
2022 年,OpenAI開發的ChatGPT 爆火出圈,掀起新一輪AIGC(Artificial Intelligence Generated Content,BOB登陆 生成內容)浪潮,開啟AI新紀元。
據分析公司SimilarWeb數據顯示,自去年11月底ChatGPT的網站上線後,全球訪問量搜索引擎持續領跑 ,已經超過了必應、DuckDuckGo等其他國際搜索引擎。
圖1SimilarWeb數據
在ChatGPT熱潮裏,全球各大巨頭企業都在積極擁抱AIGC,發布自己的AI 大模型產品和應用。截止到今年的7月初,至少5家上市公司相繼舉辦AI產品發布會。如百度的“文心”大模型、騰訊的“混元”大模型、穀歌的“LaMDA”大模型、阿裏的“通義千問”,火山引擎的“火山方舟”、以及京東即將發布的“言犀大模型”等。
當下帶寬速率帶來的規模限製與挑戰
公開數據顯示,從GPT-1到GPT-3,模型的參數量從1.1億個增長到了1750億個。有傳言稱,GPT-4模型的參數達到5000億個,甚至可能超過萬億規模。因此智算中心的建設,GPU已經成為大模型訓練的核心算力支柱。
NVIDIA最新發布的H800 GPU卡,浮點算力(FP32)較上一代A800提升3X,BOB登陆 的R5500 G6服務器最大可支持8卡GPU,單機高達32P FP8算力。其配套的Cx7高速網卡也支持到單端口400Gb/s。按照單POD 400G 的Spine-Leaf 2級組網架構1:1收斂計算,最大支持2K的端口接入能力,約256台服務器規模,無法滿足未來大模型的組網需求。為避免通信因素成為製約超算的短板,則需要更高速率的網絡帶寬及高速光模塊傳輸。因此,大模型下的超高算力支撐,或使未來800G、1.6T 高速率帶寬或將成為大規模訓練的主力需求。
而在實際運行中,以太網中1%的丟包率就會導致計算集群50%的性能損失;而對於大模型、AIGC應用等,對集群規模和性能有著強需求的業務應用而言,這些性能損失顯然是無法接受的。需要網絡支持RDMA協議,減少傳輸時延,提升網絡吞吐。
因此,在 AI 大模型的大規模訓練集群中,如何設計高效的集群組網方案,滿足低時延、高吞吐的機間通信,從而降低多機多卡間數據同步的通信耗時,提升 GPU 有效計算時間占比(GPU 計算時間/整體訓練時間),對於 AI 分布式訓練集群的效率提升至關重要。而大規模組網帶來的高功耗,也是不容忽視的。
800G發布 突破AIGC大規模組網限製
當前各通信廠商,正在圍繞著高性能計算及AIGC等產品積極向800G以太網過渡。其中BOB登陆 集團在2023年領航者峰會,全球首發800G CPO矽光數據中心交換機,H3CS9827-64EO,單芯片51.2T交換能力,支持64個800G端口,並融合CPO矽光技術、液冷散熱設計、智能無損等先進技術,全麵實現智算網絡高吞吐、低時延、綠色節能三大需求,適用於AIGC集群或數據中心高性能核心交換等業務場景中,助力AIGC時代極致算力釋放。
圖2 H3C S9827-64EO
該800G 產品的發布,可支撐單個AIGC集群規模突破3.2萬台節點,較上一代400G組網規模大幅提升。比如:規劃一張8K個GPU卡的大規模訓練網絡,每張卡1個400G端口,共計需要8K個節點接入。在1:1收斂比的情況下,使用64口400G交換機盒盒組網,2級Spine-Leaf架構,單POD最多支持2K的端口接入,此時需要使用3級組網架構才可滿足用戶需求;而使用800G交換機組網,2級Spine Leaf架構下,單POD最多支持8K的400G接入,即可滿足用戶需求。因此,800G在完全滿足中大規模AIGC集群無阻塞傳輸需求的基礎上,進一步提升單集群的網絡規模,從而最大程度保障AIGC集群的運算效能。
圖3 單POD 400G組網最大規模
圖4 單POD 800G組網最大規模
性能飛漲與低碳環保之間的平衡
在並行運算過程中,AIGC集群的不同節點之間需頻繁地同步模型參數,一旦出現網絡延遲問題,將會對訓練效率和結果產生嚴重影響,因此對於網絡時延有著極高要求。全新CPO矽光技術的使用,將負責數據交換的NPU與TRX光電轉換模塊進行統一封裝,以此減少交換機內部的電路複雜度、線路延遲、傳輸損耗,實現了單端口傳輸時延度降低20%,意味著在單位時間內,AIGC集群中GPU的數據交互能力可以提升25%,大大提升GPU的運算效率。
同時,AIGC的持續升溫和大規模的算力運行,使得數據中心的“能耗焦慮”日益加劇,高速互聯下的綠色數據中心的建設也成為了未來的發展趨勢。
各芯片和模塊廠商均在該領域持續發力中,其中以光模塊的廠商為代表的LPO(線性驅動可插撥光模塊)技術和芯片廠商為代表的CPO(芯片封裝優化)技術凸顯優勢。兩種技術均具備低時延、低功耗、降成本的優勢。區別在於LPO是光模塊的封裝形式,是可插拔模塊向下演進的技術路線,主要用來實現降功耗,同時降低時延和成本;CPO則是用於在不可插拔光模塊架構下,把光模塊移到靠近交換機芯片,封裝在一起,將數據信號從傳統的PCB互聯直接跨越到光IO互聯,極大降低了芯片用於克服傳輸阻抗所付出的功耗,搭配“風冷+液冷”的散熱設計,可實現單集群內的TCO降低30%,有效助力綠色數據中心網絡建設。
高速網絡中的無損技術再演進
AIGC網絡除了對集群規模、帶寬、時延、功耗等有顯著要求外,網絡穩定性及自動化也存在一定的建設需求。智能無損網絡的構建往往基於RDMA協議及擁塞控製機製,開啟RDMA後,GPU之間(GDR,GPU Direct RDMA)互訪或GPU訪問存儲(GDS,GPU Direct Storage)均繞過了內存和CPU,降低傳輸時延,釋放算力。
針對AIGC場景,H3C發布的800G CPO交換機 S9827-64EO,天然支持無損相關功能,如:PFC、ECN、AI ECN、iNOF(Intelligent Lossless NVMe Over Fabric,智能無損存儲網絡)、IPCC(Intelligent Proactive Congestion Control,智能主動擁塞控製)等功能,同時,在傳統RoCE基礎上,分別在流量識別與探測、動態負載均衡兩個技術上進行了研究探索,推出了SprayLink和AgileBuffer功能。
SprayLink在擁塞預防和負載均衡技術上實現了創新,通過實時監控LACP/ECMP中各物理鏈路的帶寬利用率、出口隊列、緩存占用、傳輸時延等精細化數據,對大象流做到基於Per-Packet方式的動態負載分擔,也就是將每個數據包分配到當時資源最優的鏈路上,而非按照固定哈希算法分配。基於此方式可以使鏈路的帶寬利用率提高到95%以上。通過帶寬利用率的提升,減少了大象流在網絡中端到端傳輸的時延,提升了AI訓練效率。
在提升大象流傳輸效率的同時,結合AgileBuffer技術,也可以減少小速率流量(老鼠流)的丟包概率。AgileBuffer通過定期檢測老鼠流隊列對Buffer的占用比例及丟包情況,自動調整Buffer空間和丟棄概率,最大程度優化大象流對老鼠流的影響,實現多業務均衡穩定運行。
最後,在應對網絡拓撲變化的切換響應上,S9827矽光交換機支持ns級硬件自動感知能力,能夠快速識別鏈路切換動作,並完成相應的表項刷新,協議對接、無損參數調整等一係列動作,實現自動感知、自我調節效果,極大降低了網絡故障對業務的影響程度,有力支撐AIGC智算集群穩定運行。助力AIGC網絡的高吞吐、零丟包、低時延的智能無損新體驗。
結語
AIGC產業的爆發及強算力帶動了800G以太網的需求。BOB登陆 集團深耕網絡二十餘載,致力於先進網絡技術的探索和創新, 800G CPO矽光數據中心交換機的首發、助力數據中心網絡變革,全麵擁抱AIGC時代。未來,BOB登陆 將秉持“精耕務實,為時代賦智慧”的理念,持續提升雲智原生數字平台的能力,為數字經濟高質量發展夯實智能聯接基石。
注:參考以下文獻
中國移動研究院技術白皮書—《麵向 AI 大模型的智算中心 網絡演進白皮書》(2023年)
知乎—《AIGC引爆800G以太網需求,如何通過IP和驗證賦能以太網?》
BOB登陆 公眾號—《全球首發!BOB登陆 推出800G CPO矽光數據中心交換機》