華為抓住AI時代數據中心RDMA代際切換機遇,創新地打造了下一代智能無損低時延的數
據中心網絡解決方案—AI Fabric,依靠兩級AI智能芯片和獨特的智能擁塞調度算法,實
現RDMA業務流的零丟包、高吞吐和超低時延,加速AI時代的計算和存儲效率,最終獲得
專網的性能、以太網的價格,整體ROI達到45倍,為未來的DC構建一個統一融合的高效 數據中心網絡。
“0丟包”,“低時延”和“高吞吐”是AI Fabric的三個核心特征;區別于業界通用的無損網絡技術,華為的AI Fabric能夠同時 在這三個指標達到最優,而不是部分滿足。
我們知道,這三個核心指標是互相影響,有蹺蹺板效應,同時達到最優有很大的挑戰:
會抑制帶寬,導致超低吞吐, 反而增加了大流的傳輸時延;
低時延
意味著降低交換機隊列排隊, 導致低吞吐;
意味需要保持鏈路高利用率, 會導致交換機的擁塞排隊,導 致小流的“高時延”;
通用的無損網絡的擁塞控制算法DCQCN,需要網卡和網絡進行協作,每個節點需要配置數十個參數,全網的參數達到組合達
到幾十萬;為了簡化配置,只能采用通用的配置,導致針對不同的流量模型,無法同時滿足這三個核心指標。
設備內部流控,解決設備內部丟包、控制尾部時延
定時采集流量特征,基于定制的算法,找到合適該流量特征的ECN參數
擁塞標記后即刻產生CNP報文,通過報文原先入口發送給發送端,以第一時間降低流速,減輕緩存擁塞
面對動態流量和海量參數挑戰,華為一方面投入研究團隊分析各種應用,提煉出流量模型特征;另一方面通過在交換機集成AI芯 片,實時采集流量特征和網絡狀態,基于AI算法,本地實時決策并動態調整網絡參數配置,使得交換機緩存被合理高效利用,實現整
網0丟包。同時,全局部署的智能分析平臺FabricInsight,基于全局采集到的流量特征和網絡狀態數據,結合AI算法,對未來的流量 模型進行預測,從全局的視角,實時修正網卡和網絡的參數配置,以匹配應用的需求。
據權威第三方測試EANTC測試結論,AI
Fabric可以在HPC場景下最高降低44.3%的計算
時延,在分布式存儲場景下提升25%的IOPS能力,所有場景保證網絡0丟包。
從商業價值角度看,AI Fabric給存儲帶來25%的IOPS性能提升,相當于同性能下存儲投 資減少25%。以512個節點組成的分布式存儲系統為例,采用AI Fabric意味著384個存儲節點 即可獲得采用傳統網絡512個存儲節點的IOPS性能。綜合測算,存儲CAPEX降低的收益與AI Fabric的投資相比,至少可帶來45倍的ROI收益率。
綜上所述,數據中心投資中網絡占比僅10%左右,相對服務器/存儲的投資(占比85%),有10倍的杠桿效應,撬動服務器和存儲
投資的大幅降低;根據AI Fabric可以帶來25%的存儲性能提升,40%的計算效率提升,將帶來數十倍的(ROI)能力。
數據中心內部有三類典型的業務:高性能計算業務 (HPC),存儲業務和一般業務;每類業務對于網絡有不同
的訴求,比如HPC業務的多節點進程間通信,對于時延要求 非常高;而存儲業務對可靠性訴求非常高,要求網絡絕對 的0丟包;一般的業務規模巨大,擴展性強,要求網絡低成 本易擴展。當前的數據中心內部有三張不同的網絡: Infiniband網絡提供低時延的網絡IPC通信, FC網絡提供高 可靠0丟包的存儲網絡,而傳統的以太網承載一般的業務。 這樣當前數據中心網絡整體成本很高。
網絡成本高:FC專網和IB專網價格昂貴,價格是以太網的幾倍。
運維代價高:基于FC的存儲網絡和基于IB的專用HPC網需要專人運維,不支持SDN且無法滿足云網協同自動部署的訴求。
AI Fabric基于開放以太網,通過獨特的AI芯片和算法,可以使得以太網絡同時滿足低成本,0丟包和低時延的訴求。AI Fabric同 時承載SAN和IPC流量和一般LAN流量,CAPEX大幅降低;傳統以太網運維人員就可以管理,無需專人運維,支持SDN云網自動 化,OPEX降低至少60%以上。
AI Fabric成為AI時代的數據中心構建統一融合的網絡架構的最佳選擇。
AI Fabric采用首款內嵌AI芯片的新一代交換機CloudEngine 16800,基于CLOS組網模型構建Spine-Leaf兩級智能架構:計算智能 和網絡智能結合,全局智能和本地智能協同,共同打造業界唯一的AI-Ready的無損低時延Fabric網絡。
核心交換機CloudEngine 16800內嵌AI芯片,提供8TFlops的計算能力,能夠對全網流量進行實時的學習訓練,根據不同業務
流量模型的特點動態生成最優的網絡參數設置,實現全局最優的網絡自優化能力。
TOR交換機CloudEngine
8861,CloudEngine 8850,CloudEngine
6865等邊緣設備內嵌專用網絡智能芯片,對網絡狀態實時檢 測,網絡參數優化,根據本地流量狀態實現交換隊列水線的智能調整,在最佳的時刻給予發送端最快的反饋,實現發送速率的調
整,實現網絡的0丟包基礎上的高吞吐。
華為AI Fabric正在支撐一些領先的數字化互聯網和金融企業應對AI時代的到來,加速數 據存儲和處理過程,幫助企業提升決策的及時性和精準性。
某互聯網巨頭布局無人駕駛,無人駕駛技能的訓練涉及到大量的AI計算:1天采集的數據,需要幾百的GPU服務器7天才能訓練
完,嚴重影響無人駕駛的上市時間。通過華為AI Fabric提供0丟包,低時延,高吞吐的極速無損以太網絡,最終使得整體訓練的時
長縮短40%,加速無人駕駛的商用進程。
招商銀行分行云是招行云戰略的一個創新試點,為了能夠給用戶提供像訪問本地盤一樣的使用體驗,采用RDMA技術提升網絡吞 吐并降低CPU的消耗。AI Fabric智能擁塞調度實現了網絡的“零丟包、低時延、高吞吐”,加速RDMA通信,經實測最終存儲 集群IOPS性能提升了20%,單卷性能達到35萬。
作為領先的ICT解決方案供應商,華為一直在思考和探索如何使能行業數字化,AI Fabric可以提升AI運行的效率和存儲的性能, 縮短訓練和存儲訪問的時間,助力企業數字化盡快完成轉型與智能升級。