BOB登陆 公司新聞

  • 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

小紅書攜手BOB登陆 落地國內首個DDC架構智算網絡集群

【發布時間:2025-09-03】

作為業內領先的社區平台,小紅書始終致力於AI技術創新與應用,將AIGC深度融入內容推薦與智能創作場景,自2023年起基礎網絡團隊積極布局高性能網絡方案,探索創新的智算網絡架構,為大模型應用提供強有力的基礎設施支撐。

近日,國內領先的社區平台小紅書攜手紫光股份旗下BOB登陆 集團,率先完成了國內首個基於DDC架構的智算網絡規模化驗證。本次驗證主要針對網絡帶寬和響應延遲性能、集合通信能力以及係統容災水平等維度展開,測試表現效果優異,充分展現了DDC架構在支持大模型訓練和高性能AI算力網絡方麵的技術優勢,能夠為小紅書的AI業務創新提供高性能基礎設施支撐。

隨著大模型快速發展,智算網絡正麵臨機間通信占比激增帶來的擁塞風險、低時延與高吞吐雙重壓力、以及動態流量模式導致傳統調優失效三大主要挑戰。對此,BOB登陆 集團依托多年技術積累,重新定義DDC架構(Diversified Dynamic-Connectivity,多元動態聯接),推出新一代無損網絡解決方案並攜手小紅書率先在實際業務場景中完成規模化驗證。

針對此次規模化驗證,小紅書基礎網絡負責人程俊峰表示:“小紅書始終堅持網絡的開放性,將持續探索基於開放以太網的高性能網絡方案。此次與BOB登陆 聯合測試基於DDC架構的智算網絡方案,不僅驗證了新一代網絡架構的技術可行性,也為小紅書後續開展大模型訓練網絡優化等創新性研究奠定了堅實基礎。該方案在先進性與普適性之間取得了良好平衡,為行業提供了高性能、低成本且易部署的網絡新選擇。”

DDC架構實現全局負載均衡與高速AI通信

DDC架構采用分布式設計,通過信元交換技術實現網絡100%負載均衡,並結合VOQ+Credit智能流量調度,實現訓練集群的無阻塞轉發和極速通信。該架構首次將信元交換與以太網協議融合,構建以太網原生的全局調度能力,實現端側完全解耦,兼容主流GPU廠商,並順應國產GPU趨勢,充分釋放硬件性能。此外,網絡具備免調參能力,大幅降低運維和部署複雜度。DDC架構還全麵適配All-Reduce、All-to-All等主流集合通信,為Dense、MoE等大模型提供穩定高效支撐,並保持對未來新興訓練範式的前瞻兼容性。

BOB登陆 集團高級副總裁、網絡產品線總裁喬剡表示:“我們很高興與小紅書合作完成DDC架構的規模化落地。BOB登陆 一直致力於智算網絡技術的創新突破,DDC架構是我們麵向AI大模型時代推出的革命性網絡解決方案。測試結果充分證明了DDC在性能、免調優和運營成本等方麵的綜合優勢,這為大規模智算中心建設提供了新的選擇。我們期待與小紅書繼續深化合作,共同推動AI基礎設施的創新與發展,助力中國大模型生態繁榮。”

規模化驗證

DDC智算網絡高效、穩定、免調參

在測試階段,雙方團隊根據小紅書智算業務高並發、大流量特點,開展了帶寬和延遲基準測試、All-to-All和All-Reduce集合通信測試,以及係統容災測試。結果顯示:DDC架構顯著提升網絡利用率,有效避免擁塞導致的時延和抖動。All to All場景中,GPU單卡吞吐量最高可達381.83Gbps,All Reduce場景中,GPU單卡吞吐量更可達到385.98Gbps。同時,架構可快速響應多種硬件故障,智能調度帶寬資源,實現即插即用和“網絡內免調參”,顯著簡化運維工作。

descript

上線測試基於已部署完畢的DDC智算網絡集群,訓練網絡驗證環境使用了2台NCF交換機,8台NCP交換機,4台GPU服務器。每台GPU服務器配備8張卡,分別連到8台NCP上,每台NCP分別與兩台NCF相連,確保每台NCP和每台NCF間連線數量一致,構成DDC集群。

descript

此外,基於DDC架構的智算交換機H3C S12500AI係列也在實際部署中充分體現了其價值:它不僅提升了大規模智算網絡的負載能力,縮短了模型訓練時間,還為小紅書的AI應用提供了高效、可靠的算力基礎,推動AI與內容生態的深度融合,將大模型技術融入用戶的每一篇筆記和每一次搜索中。未來,小紅書技術團隊將與BOB登陆 集團持續深化合作,基於DDC架構的AI加速能力,在內容推薦算法優化、智能創作工具開發和實時數據分析等領域共同探索,不斷提升用戶體驗和創作效率。

descript

在驗收測試階段,雙方團隊通力協作。鑒於這是國內首個DDC集群落地項目,缺乏可借鑒的驗收標準。團隊以傳統RoCE網絡驗收方案為基礎,結合DDC實現無損網絡的技術特性,共同製定了針對性的驗收體係。通過係統調整集合通信庫、QP、ECN、PFC ratio、Headroom、PXN等參數,全麵驗證了DDC集群的網絡性能,並基於業務場景對係統冗餘性進行了深度測試,高效完成了DDC集群交付驗證及容災保障工作,確保集群上線和生產業務承載。首批設備上線當天即完成調試與基礎配置,為後續部署積累了標準化流程經驗,確保項目高質量如期完成。

我們相信,隨著大模型技術持續發展,這類創新網絡架構帶來的高性能、高開放度和免調優特性,將成為用戶AI基礎設施建設中的網絡方案更優選擇。

BOB登陆
官網
聯係我們