智算中心的 AI NIC 解決方案
智算中心的需求與挑戰(zhàn)
隨著AI模型的規(guī)模和復(fù)雜性不斷增加,尤其是在深度學(xué)習(xí)和大數(shù)據(jù)處理的背景下,數(shù)據(jù)傳輸量劇增,網(wǎng)絡(luò)容易成為系統(tǒng)性能的瓶頸。特別是在分布式計(jì)算環(huán)境中,節(jié)點(diǎn)之間的數(shù)據(jù)交換頻繁,若網(wǎng)絡(luò)帶寬不足或延遲過(guò)高,會(huì)嚴(yán)重影響AI任務(wù)的執(zhí)行效率,所以AI網(wǎng)絡(luò)需要支持高帶寬以便在節(jié)點(diǎn)之間快速傳輸大量數(shù)據(jù)。同時(shí),低延遲是實(shí)時(shí)AI訓(xùn)練和推理的關(guān)鍵。
解決方案實(shí)現(xiàn)
- 接口速率: 提供單口400GE或雙口200GE IO以及PCIe Gen5高速接口,能夠滿足AI計(jì)算和數(shù)據(jù)中心應(yīng)用對(duì)帶寬的嚴(yán)苛需求。
- DPU直達(dá) NVMe 存儲(chǔ): 通過(guò)DPU直接連接 NVMe 存儲(chǔ)設(shè)備,實(shí)現(xiàn)數(shù)據(jù)的高速讀寫,減少中間環(huán)節(jié)帶來(lái)的延遲,從而顯著提升系統(tǒng)的整體性能。
- RDMA 協(xié)議: 搭載標(biāo)準(zhǔn)/自研 RDMA協(xié)議,實(shí)現(xiàn)了遠(yuǎn)程內(nèi)存訪問(wèn)的高效性和低延遲,適用于大規(guī)模數(shù)據(jù)處理和高性能計(jì)算任務(wù)。
- 自研通信庫(kù): 硬件結(jié)合自研通信庫(kù),能夠?qū)崟r(shí)感知業(yè)務(wù)需求,根據(jù)實(shí)際應(yīng)用場(chǎng)景動(dòng)態(tài)調(diào)整,優(yōu)化數(shù)據(jù)傳輸路徑和計(jì)算任務(wù)分配。
- 多路徑高性能擁塞控制算法: 自研的多路徑擁塞控制算法在高并發(fā)和高負(fù)載情況下,能夠智能地選擇最佳數(shù)據(jù)傳輸路徑,避免網(wǎng)絡(luò)擁塞,保障數(shù)據(jù)傳輸?shù)姆€(wěn)定性和速度。
- 降低長(zhǎng)尾時(shí)延: 硬件級(jí)重傳機(jī)制有效減少了因網(wǎng)絡(luò)波動(dòng)和數(shù)據(jù)包丟失導(dǎo)致的延遲,長(zhǎng)尾時(shí)延降低達(dá) 50%,顯著減少了因重傳帶來(lái)的等待時(shí)間,提升了整體系統(tǒng)響應(yīng)速度。