隨著bobty下载软件 、大數據、BOB登陆 、物聯網以及5G網絡的興起,數據呈現爆炸式增長,同時也對數據中心建設提出了更苛刻的要求,而如何建設滿足未來3至5年業務發展的需要,則是每位數據中心從業者都需要思考的命題。
建設高性能數據中心傳統思路主要是一方麵推動數據中心網絡帶寬升級進而帶動組網架構升級(即10G/40G模型向25G/100G組網模型演進,進而向100G/400G模型演化);另外一方麵則是引入基於SDN Telemetry等智能管理技術使數據中心網絡實現自動化、智能化運維管理,最終實現數據中心網絡“管控析”融合升級。
(圖1:傳統數據中心方案升級之路)
但數據中心基礎設施三大件:計算、存儲近些年都有長足的進步,其中,計算,在CPU基礎上,出現了像GPU、TPU等為特定場景、特定業務而生的處理器芯片,計算效率成百上千的提升;存儲,在HDD機械硬盤的基礎上出現了SSD全閃存產品,存取效率也得到質飛躍。網絡雖然出現了SDN技術,但其內核本質還是TCP/IP技術,而TCP/IP處理機製是“盡力而為”,涉及“TCP/IP協議棧處理時延大”和“因協議棧處理機製帶來的CPU負載居高不下的問題”,並沒有太大的改進:
TCP/IP協議棧處理時延大:
1. TCP協議棧在收/發報文時,需要做多次上下文切換,每次切換需耗費5us~10us左右時延;
2. 以及至少三次的數據拷貝,嚴重依賴CPU進行協議封裝,協議棧就本身就有數十微秒的固定時延,使得在AIBOB登陆 和SSD分布式存儲-微秒級係統中,協議棧時延成為最明顯的瓶頸;
服務器CPU負載居高不下:
1. 除固定時延問題,TCP/IP還需主機CPU多次參與協議棧內存拷貝。網絡規模越大,網絡帶寬越高, CPU在收發數據時的調度負擔越大,導致CPU持續高負載。
2. 按照業界測算數據:每傳輸1bit數據需要耗費1Hz的CPU資源;當網絡帶寬達到25G以上(滿載),絕大多數服務器,至少50% CPU資源將不得不用來傳輸數據。
(圖2:難道TCP/IP是木桶最短的那塊板?)
基於此,TCP/IP的下一跳,到底在哪裏?
2.1 技術發展趨勢1:RDMA適時而生
傳統TCP/IP技術在數據包處理過程中,需要首先經過軟件應用和操作係統的處理,需要占用大量的服務器資源和內存總線帶寬資源,這一過程中存在多次數據拷貝、中斷處理以及處理複雜的TCP/IP協議處理等問題,從而無可避免的就會帶來網絡時延過大的結果。
RDMA(Remote Direct Memory Access)技術全稱“遠程直接內存訪問”,是為了解決網絡傳輸中服務器端數據處理的延遲而產生的技術。支持將用戶應用中的數據直接傳入服務器存儲區,通過網絡將數據從一個係統快速傳輸至遠程係統的存儲中。
(圖3:TCP/IP和RDMA協議棧處理流程對比)
RDMA技術實現了在網絡傳輸過程中兩個節點之間數據緩衝區數據的直接傳遞,在本節點可以直接將數據通過網絡傳送到遠程節點的內存中,繞過操作係統內的多次內存拷貝,相比於傳統的網絡傳輸,RDMA無需操作係統和TCP/IP協議棧的介入,可以輕易的實現超低延時的數據處理、超高I/O吞吐量的傳輸,基本不需要遠程節點CPU等資源的介入,不必因為數據的處理和遷移耗費過多的資源。
RDMA技術最早出現在Infiniband網絡,用於HPC高性能計算集群的互聯。傳統的基於Socket套接字(TCP/IP協議棧)的網絡通信,需要經過操作係統軟件協議棧,數據在係統DRAM、處理器Cache和網卡Buffer之間來回拷貝搬移,因此占用了大量的CPU計算資源和內存總線帶寬,也加大了網絡延時。
(圖4:RDMA協議的技術優勢?)
舉例來說,40Gbps的TCP/IP流能耗盡主流服務器的所有CPU資源,RDMA技術則很好的解決了傳統TCP/IP通信的技術痛點。例如,在40Gbps場景下,采用RDMA技術的服務器,CPU占用率會從100%下降到5%,網絡延時從ms級降低到10us以下,極端場景下甚至會更多,所以RDMA技術帶來的優勢是顯而易見的,同時RDMA技術又可以在數據中心幾乎所有業務流量場景都可以采用,比如應用到應用、計算到計算、計算到存儲和存儲到存儲四類場景,並且對於數據中心數據讀取效率的提升又顯而易見。
(圖5:RDMA技術在四類場景流量模擬)
2.2 技術發展趨勢2:RDMA技術介紹
現階段,RDMA網絡技術主要為Infiniband、RoCE和iWARP,Infiniband網絡主要出現在HPC高性能計算場景,因為其自身技術特點的因素,該技術采用的一切都是專用的,包括應用程序、編程接口、網絡協議、網卡、網絡設備和硬件接口形式乃至管理軟件都是專用的。iWARP基於TCP/IP協議的RDMA技術,由IETF標準定義發布,本文受製於篇幅所限,重點介紹RoCE技術。
RoCE技術基於以太網的RDMA技術,Emulex聯合IBTA(InfiniBand Trade Association, InfiniBand行業協會)共同宣布推出,發展至今已經發布兩個版本,最新RoCEv2版本,將IB的GRH(Global Routing Header)換成UDP Header + IP Header。 RoCE v2工作在UDP之上,采用UDP 4791端口進行傳輸,支持路由,所以有時又會稱為可路由的RoCE,簡稱RRoCE。
(圖6:主流RDMA技術演化與對比)
2.3 技術發展趨勢2:RDMA無損網絡技術
RDMA的提出之初承載在無損的InfiniBand網絡中,Infiniband網絡提供完善的丟包重傳機製,對於InfiniBand架構,接收端僅可接收有序報文,如果有丟包發生,會引起流中斷;當有丟包發生時,接收端會發送帶有PSN (packet sequence number報文序列號) 的NACK (not ACK否認字符) 控製報文到發送端,來重傳丟失報文及後續報文。
(圖7:基於InfiniBand的重傳機製)
但是當RDMA技術應用在以太網中時候,以太網本質是“盡力而為”的網絡,因為以太網缺乏完善的丟包保護機製,對於丟包異常敏感,超過0.1%(千分之一)的丟包率將導致網絡有效吞吐急劇下降至75%;而1%的丟包則使得網絡有效吞吐率幾乎下降為0;所以要使得RDMA吞吐不受影響,丟包率最好保證在萬分之一(0.1‰)甚至是十萬分之一(0.01‰)以下,即最好無丟包。
(圖8:傳統以太網缺少完善的丟包保護機製)
而原生以太網的設計理念是“盡力而為”的網絡,並不是無損網絡,因此無損以太網絡則需要PFC基於優先級的流量控製(Priority-based Flow Control,IEEE802.1Qbb)、ECN顯示擁塞通知(Ethernet Congestion Notification,IEEE802.1Qau)、DCBX數據中心橋能力交換協議(Data Center Bridging Exchange Protocol,IEEE802.1Qaz)和ETS增強傳輸選擇(Enhanced Transmission Selection,IEEE802.1Qaz)四個技術配合完成,其中以太網層主要是PFC、ETS、DCBX;IP層主要是ECN;IB傳輸層主要是ECN,業務處理流程大致如下:
(圖9:RDMA無損以太網計算場景技術全景)
其中PFC和ECN是其中兩個必選技術,一般情況推薦,雖然PFC是二層技術,ECN是網絡層和傳輸層技術,但是PFC與ECN能夠同時使能,並且推薦在RoCE環境中同時使能,以保證RoCE報文無丟包並且網絡帶寬得到保證。從充分發揮網絡高性能轉發角度,一般建議通過調整ECN和PFC的buffer水線,讓ECN快於PFC觸發,即網絡還是持續全速進行數據轉發,讓服務器主動降低發包速率。若還不能解決問題,再通過PFC讓上遊交換機暫停報文發送,雖然整網吞吐性能降低,但是不會產生丟包,兩大技術相互配合以期最終實現網絡無損。
2.4 BOB登陆 SeerFabric智能無損數據中心方案全景
借助BOB登陆 在網絡領域近20年的積累和行業客戶業務的理解,BOB登陆 發布SeerFabric智能無損數據中心解決方案,解決方案整體基於雲邊AI協同架構,能夠借助智能學習為不同業務場景構建智能無損控製模型,並能實現對業務場景的智能識別,進而完成相應模型參數的動態匹配,以大帶寬、低時延、零丟包的精確轉發和可確定性網絡體驗,廣泛服務於互聯網、政府、金融、生產娛樂、高性能計算等重要行業和領域的數字化轉型。
(圖10:BOB登陆 SeerFabric智能無損數據中心解決方案架構)
BOB登陆 SeerFabric智能無損解決方案覆蓋計算、存儲、網絡交換、管理控製、性能展現與優化端到端的大帶寬、遞時延、零丟包的精確轉發和可確定性網絡體驗,從解決方案架構上,又可劃分為管控析層和ICT基礎設施(網絡、計算、存儲)層,從應用場景上主要分為傳統計算場景、存儲網絡場景和高性能計算三大場景,要做到三大場景統一融合,管控析層是最為至關重要的環節,主要是智能控製引擎SeerEngine和智能分析器SeerAnalyzer來承載實現。SeerEngine實現構建基於場景的業務流量模型和模型匹配,實現智能無損網絡的動態控製;SeerAnalyzer實現端到端精細化數據采集和無損性能狀態可視,並依據性能狀態數據使用AI-ECN算法完成網絡設備ECN水線的動態智能調優計算。
BOB登陆 AI-ECN充分實現了數據、智能算法和專業知識的結合,為BOB登陆 SeerFabric智能無損解決方案智能化賦能。
端到端細粒度的性能指標Telemetry數據采集上,充分挖掘智能網卡、存儲、H3C網絡設備精細化性能數據采集能力,使得智能算法能夠感知RoCE流量成份及大小、網絡設備緩存隊列的動態變化等;數據項包括接口及隊列的各種性能統計指標、以及網絡設備偵聽的RoCE流會話統計等。同時,通過部署於服務器上的Agent和智能網卡配合,提供RoCE流量的撥測能力,在業務上線之前就可以對網絡進行可視化調試調優。支持的RoCE智能網卡包括Mellanox係列網卡、Intel E810網卡等。
在算法上,真實的實驗環境采集不同流量模型下的性能KPI,並通過應用的真實體驗進行標注後形成訓練數據集,結合專家知識建模並離線訓練後,生成ECN水線動態調優模型。BOB登陆 AI-ECN調優算法模型具有效率高、計算量小的特點,同時支持控製器集中式調優和網絡設備分布式本地調優兩種模式。例如,在集中式調優模式下,不需要專用的AI芯片,使用搭載Intel XEON-SP服務器的管控析集群,就可在較大規模網絡管理下,開啟ECN水線調優;在本地模式下,搭載Intel XEON-D 和 ATOM的BOB登陆 網絡交換機,僅以較小的CPU開銷就可以完成調優。
智能:基於AD-DC應用驅動數據中心
BOB登陆 SeerFabric智能無損數據中心解決方案SeerAnalyzer智能分析器支持實現網絡及聯接的存儲和計算資源,基於AI學習及專家知識,對網絡,計算,存儲資源,構建差異化數據中心場景的智能無損網絡分析模型。SeerAnalyzer智能分析器實時監控RoCE基礎數據,采集重點關注包括ingress/egress丟包計數/總量、ingress/egressPFC計數/總量、ingress/egress buffer使用情況、ECN、headroom buffer使用、Ingress/egress門限閾值超限次數等等信息;同時分析器還會收集RDMA實時告警上報信息,諸如ingress/egress丟包告警信息、Headroom Buffer超限丟包告警信息、egress buffer超限告警以及通過Netconf操作配置變更信息等關鍵信息,SeerAnalyzer收集上述網絡大數據信息,從而訓練基於業務的網絡模型,洞察網絡,並多維度實時評價、統計、歸納、可視化呈現,進一步實現精準根因分析,並實現異常預測和趨勢分析,並最終通過與SeerEngine智能控製器實現智能聯動以及網絡優化,閉環自愈網絡,為用戶業務保障護航。
針對AIBOB登陆 計算場景,多打一發送Burst流量時,Buffer不溢出的情況下支持的最大N值,而實現這一需求就需要網絡設備工作在“Lossless”無損模式,針對多打一即N:1 Incast模型場景,BOB登陆 SeerFabric智能無損解決方案支持通過智能分析器SeerAnalyzer采集網絡大數據基於BOB登陆 AI算法向網絡基礎下發參數調優。
BOB登陆 SeerFabric智能無損數據中心解決方案支持基於buffer深度調優的基礎上,還支持基於鏈路帶寬利用率實現AI ECN調優,比如當鏈路帶寬利用率超過90%、95%以上的時候,交換機通過AI ECN功能實現帶寬和時延的業務平衡。
融合:以太網一統三大場景實現數據中心業務大融合
傳統存儲SAN網絡場景一直都是FC(Fabric Channel)光纖交換機的天下,自2017年,全球數據中心存儲市場,閃存盤(SSD, Solid-State Drive)市場份額超過機械硬盤(HDD,Hard Disk Drive)至今,已經有行業客戶開始把企業生產業務運行在SSD存儲上。存儲場景NVME-of替代傳統FC SAN網絡重點需關注:服務器通過手工配置來發現磁盤設備,並和磁盤設備建立長連接。如服務器長時間未收到磁盤設備發送的報文,則認為磁盤設備故障,將存儲流量切換到備用路徑。
BOB登陆 SeerFabric智能無損數據中心解決方案支持智能無損存儲網絡技術解決方案,即iNOF(Intelligent Lossless NVMe Over Fabric,智能無損存儲網絡),該技術是一種以太網和存儲網絡融合的技術,通過和LLDP(Link Layer Discovery Protocol,鏈路層發現協議)配合使得iNOF內的所有設備可以第一時間自動感知服務器和磁盤設備的加入和離開,以便產品可以智能調整相關配置,最終協助實現存儲流量在以太網的無丟包、高吞吐傳輸。相對於傳統NVMe技術,BOB登陆 SeerFabric智能無損數據中心解決方案iNOF具備優勢:
² 即插即用:當主機接入iNOF網絡時,其它已在iNOF網絡的主機會迅速發現新加入的主機,並自動發起和新主機的連接。
² 故障智能快速感知:當主機接入iNOF網絡的某條鏈路故障時,iNOF交換機會迅速將該故障通知給iNOF網絡中的其它主機,然後其它主機可以智能感知快速跳轉。
超寬:大帶寬支持400G組網演化
BOB登陆 SeerFabric智能無損數據中心解決方案支持主流數據中心交換機產品,即框盒組網,盒盒組網,覆蓋10G/40G組網模型、25G/100G組網模型、100G/100G組網模型和100G/400G模型全覆蓋;
針對數據中心互聯DCI場景,FC帶寬底、成本高的劣勢,BOB登陆 SeerFabric智能無損解決方案提供基於400G超長距離無損網絡解決方案,是業界4倍,同時結合BOB登陆 智能控製器SeerEngine和智能分析器SeerAnalyzer可以實現存儲網絡自動化運維管理,有效降低用戶運維成本,降低用戶工作量。