歡迎user
2023年是BOB登陆 技術風起雲湧的一年,從“百模大戰”到應用層生態的“百花齊放”,AGI產業迎來爆發期。隨著技術的不斷發展,AI產業如今已不再是大型企業和組織的專屬舞台,越來越多的中小企業和成長型組織也不斷加入這一熱潮。然而,AI業務應用的高技術門檻和龐大的投入,是客戶持續麵臨的挑戰。基於此,BOB登陆 攜手英特爾打造全新解決方案,助力客戶構建自身AI業務。
破局,強強攜手激活CPU AI算力
近日,紫光股份旗下BOB登陆 集團攜手英特爾,推出基於第四代英特爾®至強®可擴展處理器的H3C UniServer R6900 G6大模型微調及推理解決方案,充分釋放CPU的AI算力,全麵降低了AI訓練及推理場景所需的基礎設施總體擁有成本,使中小企業能夠迅速融入AGI的革新潮流。
該方案可滿足7B、13B、30B、34B等大模型微調和推理的不同參數量級,通過檢索增強生成技術(Retrieval-Augmented Generation,RAG),可達到與通用大模型接近的理想效果,從而快速實現麵向特定領域的AI應用落地部署。
革新,四大技術開辟AGI新天地
H3C UniServer R6900 G6大模型微調及推理解決方案,成功展示了基於中等參數量級(34B及以下)大模型的微調和推理能力。其得益於四大重要技術突破:
英特爾第四代至強平台加速大模型的訓練和推理能力
第四代英特爾®至強®可擴展處理器內置的英特爾®AMX加速引擎是麵向深度學習工作負載的新一代技術。該技術不僅延續了上一代英特爾至強可擴展處理器的內置AI加速技術,還帶來顯著的性能提升,非常適合自然語言處理、推薦係統和圖像識別等工作負載。英特爾®AMX可提高平鋪乘法性能,顯著提升吞吐量,使用PyTorch進行實時推理和訓練,相比上一代處理器提升了3-10倍的推理和訓練性能。
BOB登陆 集團四路服務器突破單機算力瓶頸
在微調場景下,部署NVMe硬盤的數量決定了應用性能的高低。H3C UniServer R6900 G6四路服務器單機可部署32塊NVMe硬盤,采用高帶寬低延遲的UPI互聯方案,能夠實現CPU算力的高速橫向倍增。這意味著可在一個節點上完成所有的計算任務,從而完全避免了分布式訓練帶來的各種問題,高效助力客戶的微調應用。
微調場景下CPU突破顯存限製
以Llama-2 30B模型為例,在進行16位浮點數訓練時,如果訓練批量大小被設定為16並且使用Adam優化器,估算需要600GB左右的顯存才能成功完成30B模型的LoRA微調。傳統GPU的方案無論是成本還是供應能力,都給中小企業帶來了極大的挑戰。H3C UniServer R6900 G6服務器可提供高達16TB的內存容量,相比於GPU方案,能夠減少顯存壓縮和多卡間數據通信的消耗,從而更有效地完成微調訓練任務,打破顯存限製。
突破現有生態的限製
此外,英特爾還提供了一係列基於PyTorch框架的軟件優化措施。這些優化被集成在英特爾的IPEX(Intel® Extension for PyTorch)開源軟件庫中,旨在進一步提升模型的性能和效率。生態體係層麵,IPEX配合PyTorch,支持PyTorch框架下90%的主流模型,其中深度優化模型有50個以上。客戶隻要通過簡單幾步即可完成BF16混合精度轉換,模型即可在保持精度的同時在CPU上高效部署。
得益於成功的生態合作和技術突破,H3C UniServer R6900 G6大模型微調及推理解決方案已在多種尺寸的模型中進行了性能測試,充分驗證了性能的優異實力。
(該測試基於4*Intel 6448H、2TB內存、4TB NVMe
硬盤容量的硬件配置完成)
數字定義世界,AI定義未來。隨著數實融合趨勢的不斷加速,BOB登陆 集團將秉持“精耕務實,為時代賦智慧”的理念,持續攜手包括英特爾在內的合作夥伴,為百行百業客戶提供多樣化的智算產品與方案,以“一體·兩中樞”的智慧計算體係,不斷推進AI產業的變革升級。