UALink還是Ultra Ethernet，面向AI的數(shù)據(jù)中心協(xié)議

—— UALink 可縱向擴展，而 Ultra Ethernet 可橫向擴展。

作者：Bryon Moyer 時間：2025-03-18 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

AI 和 HPC 數(shù)據(jù)中心中的計算節(jié)點越來越需要擴展到芯片或封裝之外，以獲取額外的資源來處理不斷增長的工作負(fù)載。他們可能會征用機架中的其他節(jié)點（縱向擴展）或使用其他機架中的資源（橫向擴展）。

本文引用地址：http://m.ptau.cn/article/202503/468265.htm

問題是目前沒有開放的 Scale-up 協(xié)議。到目前為止，這項任務(wù)一直由專有協(xié)議主導(dǎo)，因為大部分最高性能的計算都是在大型數(shù)據(jù)中心使用定制芯片和架構(gòu)完成的。雖然以太網(wǎng)在橫向擴展方面很受歡迎，但對于 AI 和高性能計算工作負(fù)載來說，它并不理想。

但兩種新協(xié)議 UALink 和 Ultra Ethernet 旨在解決當(dāng)前縱向擴展和橫向擴展通信的缺陷。UALink 是一種全新的縱向擴展協(xié)議，而 Ultra Ethernet 則基于以太網(wǎng)構(gòu)建，用于橫向擴展。

多重通信職責(zé)
“計算節(jié)點” 是一個描述某些計算軌跡的抽象概念。它具有有限的容量，可以訪問有限數(shù)量的內(nèi)存和其他可能的資源，例如加速器。就其本身而言，它不足以應(yīng)對高強度工作負(fù)載，并且依賴于其他節(jié)點來分配整體問題。提供交換數(shù)據(jù)和協(xié)調(diào)作所需通信的協(xié)議通?？煞譃槿?。

最低級別的協(xié)議是 die-to-die 互連，由于先進(jìn)的封裝，它在今天具有相關(guān)性。軟件包中看起來像單個計算節(jié)點的東西可能是多個小芯片一起工作。實現(xiàn)此目的的協(xié)議是 UCIe 和 Bunch of Wires （BoW）以及一些專有協(xié)議。但所有這些通信在包裝之外都是不可見的。

滿載的計算節(jié)點可以看作是連接了計算、內(nèi)存和加速器的服務(wù)器主板。但是，主板上可能有多個處理器，因此系統(tǒng)軟件會確定哪些工作負(fù)載在哪些處理器上運行。但這對于訓(xùn)練 AI 模型所需的任務(wù)類型來說還不夠。這需要伸手進(jìn)入機架或 Pod 以利用更多資源。

目標(biāo)是組裝多個計算節(jié)點，同時保持單個計算空間的感覺 — 多個處理器和加速器充當(dāng)具有統(tǒng)一地址的單個大型處理器或加速器。這個中間通信級別是縱向擴展的，這就是 UALink 的用武之地。它與 PCIe 和 CXL 一起工作，但只有 UALink 具有統(tǒng)一分配資源的作用。

“UALink 旨在連接您的主要 GPU 單元，以實現(xiàn) GPU 到 GPU 的擴展，”Synopsys 高性能計算 IP 解決方案產(chǎn)品管理副總裁 Michael Posner 說。“它旨在增加帶寬并減少該連接的延遲?！?/p>

GPU 只是加速器的一種類型，UALink 可以廣泛地與任何類型的加速器配合使用。然后，UALink 抽象出加速器之間的劃分。

“我們的想法是將 AI 處理器互連起來，看起來像這個 Pod 中的一個大型處理器，”Synopsys 首席產(chǎn)品經(jīng)理 Jon Ames 說。

內(nèi)存訪問是 UALink 角色的重要組成部分。Cadence 硅解決方案集團(tuán)設(shè)計 IP 高級產(chǎn)品營銷組總監(jiān) Arif Khan 在一篇博文中表示：“UALink 優(yōu)化了 pod 中加速器之間的 xPU 到 xPU 內(nèi)存通信，無論是直接連接還是通過完全連接的高基數(shù)開關(guān)。

超越機架
機架中的資源之外，其他機架中也有類似的資源。但是，這些機架無法通過將單個機架固定在一起的同一互連進(jìn)行訪問。以太網(wǎng)通常在機架之間通信，這就是橫向擴展 — 最高通信級別。它類似于 Scale-up，但其覆蓋范圍比 Scale-up 所能提供的更廣泛。此架構(gòu)在機架內(nèi)有一個網(wǎng)絡(luò)（例如 PCIe），在機架外（或網(wǎng)絡(luò)的另一個層）具有另一個網(wǎng)絡(luò)。這是縱向擴展和橫向擴展之間的主要區(qū)別。

“超級以太網(wǎng)解決了橫向擴展問題，”Posner 說?！八⒃趥鹘y(tǒng)以太網(wǎng)之上?！?/p>

Khan 對此表示贊同?！翱?Pod 的擴展依賴于 Ultra Ethernet 來加速數(shù)據(jù)中心以太網(wǎng)（本質(zhì)上是替代當(dāng)今依賴遠(yuǎn)程 DMA/RoCE 的批量傳輸），”他說。

圖 1：數(shù)據(jù)中心互連的四個級別。在整個數(shù)據(jù)中心中，從一個機架移動到另一個機架構(gòu)成了橫向擴展通信。在同一機架內(nèi)進(jìn)行縱向擴展。在高級處理器封裝中，晶粒間互連處理晶粒間通信。來源：Bryon Moyer/Semiconductor Engineering

die-to-die 協(xié)議和其他協(xié)議之間的一個根本區(qū)別是鏈路的基本性質(zhì) — 串行與并行。UCIe 和 BoW 都是 parallel interface，通常帶有 forwarded clocks。這提供了最低的延遲，同時需要更多的引腳，并使 skew 成為一個更重要的問題。

UALink 和 Ultra Ethernet 使用串行鏈路。這大大減少了必要信號的數(shù)量，但它增加了提取 clock 和解析非 non-return-to-zero （NRZ）格式的 symbol 值的開銷。這種額外的處理是導(dǎo)致 die-to-die 協(xié)議提供的鏈接延遲增加的原因?！芭c任何接口相比，UCIe 和 BoW 等并行接口的 NoC 到 NoC 延遲都非常低，”Siemens EDA 中央工程解決方案總監(jiān) Pratyush Kamal 指出。

縱向擴展：一個綠地
如今，PCIe 和 CXL 可以在機架級別運行，但它們不提供 UALink 創(chuàng)建者正在設(shè)計的語義。因此，現(xiàn)有技術(shù)由廣泛的專有解決方案組成。每家實施 Scaleup 的公司都必須投入資源來設(shè)計協(xié)議，而多家公司做同樣的事情會消耗行業(yè)的效率。

“我們看到 UALink 取代了許多專有互連，”Synopsys 的 IP 戰(zhàn)略營銷經(jīng)理 Ron Lowman 說?！癧創(chuàng)建專有版本的設(shè)計師] 使用了從 PCIe 到以太網(wǎng)以及介于兩者之間的一切，并通過定制來處理擴展，UALink 正在解決這個問題。”

UALink 聯(lián)盟于去年秋天正式召開會議，其既定目標(biāo)是“開發(fā)互連技術(shù)規(guī)范，促進(jìn) AI 加速器之間的直接加載、存儲和原子作”。事實上，UALink 中的 UA 代表 Ultra Accelerator。它并沒有排除 PCIe 或 CXL，這三者的職責(zé)之間存在重疊。但是，UALink 正在專門針對 AI 和 HPC 工作負(fù)載進(jìn)行優(yōu)化。

它由三個主要層組成 — 一個頂部的事務(wù)層，用于管理完整事務(wù)，一個位于中間的數(shù)據(jù)鏈路層，用于管理每個躍點，以及一個處理信號的物理層（PHY）。前兩個是新的，但 PHY 層利用現(xiàn)有的功能來加快實施和采用。

在某種程度上，縱向擴展一直是 PCIe 的領(lǐng)域，但沒有針對 AI 進(jìn)行優(yōu)化。Lowman 說：“你在 PCIe 中看到的是許多不同的芯片執(zhí)行許多不同的任務(wù)，而 UALink 實際上是在嘗試采用 AI 加速器，并將其從 1 擴展到 1,000 來處理單個工作負(fù)載?！癠ALink 不具備 PCIe 的所有功能和向后兼容性，但它可以滿足特定的 AI 工作負(fù)載需求，例如全局內(nèi)存尋址和共享內(nèi)存?！?/p>

UALink 的兩個初始版本將首次亮相，一個是 224 Gbps，另一個可以放寬半速（-200 和 -100 版本）。兩者都將采用以太網(wǎng) PHY。在初始版本發(fā)布后，計劃推出 -128 版本，該版本將利用 PCIe Gen 7 的 PHY。

該聯(lián)盟開發(fā) UALink 并不是為了理想，而是為了快速實現(xiàn)，因為該行業(yè)發(fā)展得如此之快?！癆I 硬件軟件的發(fā)展速度比硬件的響應(yīng)速度要快得多，”Lowman 說?！耙虼耍M快推出有助于擴大規(guī)模的產(chǎn)品將對整個行業(yè)有益?！?/p>

這意味著盡可能多地重復(fù)使用現(xiàn)有標(biāo)準(zhǔn)?！拔覀兊南敕ú⒉皇钦f以太網(wǎng)和 PCI 是絕對最好的選擇，”Lowman 說?！拔覀兊南敕ㄊ牵覀兛梢允褂脴?biāo)準(zhǔn)化協(xié)議快速進(jìn)入市場，該協(xié)議可以完成縱向擴展架構(gòu)所需的基本工作。因此，該聯(lián)盟采用了現(xiàn)有的技術(shù)。UALink 128 利用了類似 PCIe 的 PHY，UALink 200 利用了基于以太網(wǎng)的 PHY。

預(yù)計 UALink 不會挑戰(zhàn) PCIe 或 CXL?！拔覀円呀?jīng)就 PCIe、CXL 和 UALink 的定位進(jìn)行了很多對話，我們堅信它們在市場上都有自己的利基市場，”他說。

UALink 1.0 規(guī)范應(yīng)在下個季度提供，并可免費下載。

橫向擴展：基于以太網(wǎng)
構(gòu)建由于能夠很好地處理廣泛的應(yīng)用程序，以太網(wǎng)已被廣泛采用。但它的一些策略會損害性能，主要是由于尾部延遲。

以太網(wǎng)中的通信延遲不是固定的或可預(yù)測的。一個事務(wù)可能完成而沒有問題，而另一個事務(wù)可能會遇到鏈路擁塞，并丟棄數(shù)據(jù)包，因此需要重新發(fā)送。盡管大多數(shù)事務(wù)可以在最短的時間內(nèi)完成，但這些工作負(fù)載需要所有節(jié)點同步才能繼續(xù)，并且一個鏈接比其他鏈接花費的時間更長可能會阻礙一切。術(shù)語 tail latency 指的是由這些（希望）少數(shù)事務(wù)引起的延遲。它們是延遲分布的尾部。

在考慮延遲時，還必須認(rèn)識到 die-to-die 連接增加的延遲不僅僅是物理層延遲。“重要的是 NoC 到 NoC 的延遲，而不是 PHY 到 PHY 的延遲，”Kamal 說。

由于通信方式的性質(zhì)，此問題對于 AI 和 HPC 工作負(fù)載尤其嚴(yán)重。以太網(wǎng)最常用于傳遞東西向或南北向的數(shù)據(jù)流。有一種方向性和一種感覺，“我們完成了那個流程，這是我們最后一次看到它。但 AI/HPC 工作負(fù)載與發(fā)送數(shù)據(jù)進(jìn)行計算，然后返回結(jié)果有關(guān)。這不僅僅是一條消失的溪流。它是數(shù)據(jù)輸出和結(jié)果，一遍又一遍。它更像是呼吸而不是流動，每次發(fā)送數(shù)據(jù)都是呼氣，結(jié)果是吸氣。每次“呼吸”都涉及節(jié)點之間的多個交易。

“以太網(wǎng)是專門為成為通用網(wǎng)絡(luò)而開發(fā)的，”超級以太網(wǎng)聯(lián)盟指導(dǎo)委員會主席 J Metz 說?！叭绻阌心媳苯煌ɑ驏|西交通，那就太好了。如果你有集群流量執(zhí)行 all-to-all、all-reduce 或任何其他集合，那就不太好了。當(dāng)你來回傳遞消息，以便它們可以進(jìn)行自己的處理，然后將其發(fā)送回去時，這更像是那種呼吸環(huán)境。

無花果。 2：Ultra Ethernet 在數(shù)據(jù)中心網(wǎng)絡(luò)中的位置?？v向擴展發(fā)生在節(jié)點內(nèi)，使資源集合看起來像一個虛擬節(jié)點。Ultra Ethernet 擴展這些節(jié)點。雖然此處未說明，但 CPU 和 GPU 都可以參與。來源：Ultra Ethernet Consortium

盡管 Ultra Ethernet 可以通過網(wǎng)絡(luò)接口卡（NIC）進(jìn)行連接，但這不是必需的?！敖Y(jié)構(gòu)端點（FEP）可以是任何具有結(jié)構(gòu)地址的設(shè)備，它可以是加速器本身的合適以太網(wǎng)點，”Metz 說?！癋EP 的魔力發(fā)生了，包括擁塞、語義和數(shù)據(jù)包交付控制?！?/p>

圖 2 展示了一個簡化的數(shù)據(jù)中心網(wǎng)絡(luò)，重點是 GPU 。但 CPU 也可以參與?！癆I 工作流程不是鐵板一塊，”Metz 說?！霸诓煌旱?CPU 和 GPU 之間，甚至在集群內(nèi)部，都存在許多階段。有些工作最好在 CPU 中完成，有些在 GPU 中完成。

超級以太網(wǎng)聯(lián)盟（UEC）專門針對這種類型的通信，具有一些強制性功能和一些可選功能。給定一個事務(wù)，只有終端節(jié)點具有強制行為。這是有意為之的，以便可以使用標(biāo)準(zhǔn)以太網(wǎng)交換機構(gòu)建 Ultra Ethernet 網(wǎng)絡(luò)。雖然沒有提供 Ultra Ethernet 的所有優(yōu)勢，但端點安裝可以繼續(xù)進(jìn)行，而無需等待新交換機。

向以太網(wǎng)
添加層標(biāo)準(zhǔn)以太網(wǎng) 指定第 2 層（數(shù)據(jù)鏈路）及以下層的功能。它不知道事務(wù)或終端節(jié)點。它只是逐個躍點移動數(shù)據(jù)。Ultra Ethernet 在此基礎(chǔ)上增加了第 3 層（網(wǎng)絡(luò)）和第 4 層（傳輸）。它是管理事務(wù)語義的傳輸層。它必須是安全的嗎？所有數(shù)據(jù)包都必須按順序到達(dá)嗎？它必須可靠嗎？

“傳輸部分是 Ultra Ethernet 的重要組成部分，”Ames 說?！八鼮槟峁┝丝梢詼p少整體系統(tǒng)延遲的機制。”

層的神圣性在傳統(tǒng)以太網(wǎng)中沒有得到很好的尊重。其他功能已經(jīng)悄悄滲入了一些層次，而這些層次可能更適合其他層次。Ultra Ethernet 正在努力避免這種情況?！澳阋_保當(dāng)你在第二層做某事時，它會做第二層，”Metz 說。“你想在第三層做點什么，它就是第三層。你不做你不在 MAC 層做路由協(xié)議。

第 3 層僅使用互聯(lián)網(wǎng)協(xié)議（IP），保持不變?！癧我們]目前沒有解決網(wǎng)絡(luò)層問題，”他說?！皬哪撤N意義上說，這很好，因為它有助于簡化流程，并使使用 Clos 或葉脊配置的傳統(tǒng)數(shù)據(jù)中心環(huán)境變得非常容易。一旦您開始研究 dragonfly、megafly 或 torus [網(wǎng)絡(luò)拓?fù)鋆等內(nèi)容，您將在 HPC 環(huán)境中更頻繁地看到這些，我們就不關(guān)注這些了。我們將來必須解決這個問題。

傳輸層是標(biāo)準(zhǔn)的強制性部分，在端點中實現(xiàn)?！霸唇K端節(jié)點將成為核心決策者，然后接收終端節(jié)點將提供 [這些決策] 所需的反饋，”Metz 說。在出現(xiàn)問題數(shù)據(jù)包的情況下，目標(biāo)不會發(fā)送通常的 ACK（確認(rèn)），而是發(fā)送 NACK（否定確認(rèn)）以及一些診斷信息。

“您可以識別丟失或速度較慢的數(shù)據(jù)包，并將其發(fā)送回源頭，”Metz 解釋說?！皝碓磳⑵渑c它最初選擇的任何路徑相結(jié)合，并在重新提交時選擇了不同的路徑。”

圖 3：超級以太網(wǎng)堆棧包括傳輸層和網(wǎng)絡(luò)層，其中傳輸層是強制性的。到目前為止，網(wǎng)絡(luò)層采用的 IP 沒有變化。數(shù)據(jù)鏈路層和物理層添加了新的可選功能。藍(lán)色元素是必需的，綠色元素與以太網(wǎng)相同，米色元素是可選的。來源：Ultra Ethernet Consortium。

新功能有助于減少尾部延遲
展示 Ultra Ethernet 減少延遲的方法的四項功能是無序交付、鏈路級重試、流量控制和數(shù)據(jù)包噴射。其中許多交易只是將數(shù)據(jù)從一個地方發(fā)送到另一個地方，只要數(shù)據(jù)全部到達(dá)那里，它到達(dá)的順序就無關(guān)緊要。您仍然可以選擇按順序交付，但這不是必需的。

如果某些數(shù)據(jù)未到達(dá)，則無需重新發(fā)送整個事務(wù)。目標(biāo)終端節(jié)點可以識別任何缺失的數(shù)據(jù)包，只有那些數(shù)據(jù)包會被重新發(fā)送。此外，如果中間節(jié)點沿路徑收到一個壞數(shù)據(jù)包，它可以立即請求重試該數(shù)據(jù)包，而無需在堆棧上移動并在事務(wù)級別處理它。

“鏈路級重試可以防止堆棧上層的協(xié)議不必確定是否需要重新傳輸某些內(nèi)容，”Ames 說，并指出了在較低級別響應(yīng)更快的好處，以及需要只重新發(fā)送壞數(shù)據(jù)包而不是整個事務(wù)。

由于鏈路級重試是一項可選功能，因此在使用新鏈路層升級交換機之前，早期的 Ultra Ethernet 網(wǎng)絡(luò)不會具有此功能。

另一個鏈路層修改與流控制有關(guān)?！霸阪溌芳墑e有一個基于信用的流量控制機制，”Ames 說。

最后，標(biāo)準(zhǔn)以太網(wǎng)通常會為流或事務(wù)選擇一條路徑，并在事務(wù)期間堅持使用。如果選擇了擁塞或其他受損的路徑，則該事務(wù)可能需要很長時間才能在任何必要的重試后完全到達(dá)。數(shù)據(jù)包噴射是一項可選功能，允許源為每個數(shù)據(jù)包做出單獨的路徑?jīng)Q策。

Ames 通過將其與標(biāo)準(zhǔn)以太網(wǎng)進(jìn)行比較來描述它。“如果節(jié)點 A 與節(jié)點 Q 通信，則通過一條路徑，如果節(jié)點 A 與節(jié)點 X 通信，則可能會采用不同的路徑，”他解釋說?！斑@就是多路徑在常規(guī)以太網(wǎng)中的工作方式。使用數(shù)據(jù)包噴射，您可以通過不同的鏈路發(fā)送數(shù)據(jù)包，網(wǎng)絡(luò)將在遠(yuǎn)端處理重組。但通常這只是一次數(shù)據(jù)傳輸，所以如果事情不按順序到達(dá)也沒關(guān)系。

最終，這些功能提供了更快地移動數(shù)據(jù)包的選項，并且重試次數(shù)更少或更多。某些功能（例如安全性）可能會增加典型事務(wù)的延遲，但是當(dāng)系統(tǒng)等待最后一個數(shù)據(jù)包到達(dá)時，尾部延遲是限制因素，而不是標(biāo)稱延遲。是的，每筆交易的到達(dá)速度可能會慢一點，但由于最后一個數(shù)據(jù)包的提前到達(dá)，每個人都可以更快地開始。

與 UALink
Ultra 以太網(wǎng)的 1.0 規(guī)范類似的時間即將到來。“我們正在考慮在 4 月或 5 月發(fā)布，”Metz 說。“它將對所有人開放下載。”一旦發(fā)布，就可以快速創(chuàng)建終端節(jié)點，而路由上的交換機可能需要更長的時間來升級。

“最終，為端點使用 ASIC 比為交換機使用 ASIC 更快，”Metz 說?！耙话銇碚f，交換 ASIC 不是單一用途的，開發(fā)周期比端點長得多。它們比端點有更多的功能要求，并且必須經(jīng)過大量的回歸測試。

盡管 UEC 使用的是由 IEEE 管理的標(biāo)準(zhǔn)以太網(wǎng)，但它計劃持續(xù)保持超級以太網(wǎng)控制，而不是將結(jié)果交給 IEEE 處理?！癠EC 是一個標(biāo)準(zhǔn)組織，”Metz 解釋說?！拔覀兇_實與 IEEE 建立了合作關(guān)系，與他們合作并共享信息，但 Ultra Ethernet 是一種 UEC 協(xié)議?！?/p>

挑戰(zhàn)在于，IEEE可以在Ultra Ethernet 1.0鎖定后對其鏈路層進(jìn)行一些更改?，F(xiàn)在，鏈路層的 IEEE 和超級以太網(wǎng)版本不同，它們可能仍然不同。該組織意識到了這一挑戰(zhàn)，并通過與與以太網(wǎng)有關(guān)系的組織保持溝通來應(yīng)對這一挑戰(zhàn)。

“我們正在與 IEEE、OCP、OIF、SNIA、以太網(wǎng)聯(lián)盟和 UALink 聯(lián)盟合作，我們都在共同努力，以確保不會發(fā)生這種分叉，”Metz 說。UALink Consortium 證實他們正在以類似的方式工作。

事實上，一個方面已經(jīng)在發(fā)揮作用——為 400 Gbps PHY 做準(zhǔn)備，預(yù)計可能在 2028/9 年的時間范圍內(nèi)。這似乎很遙遠(yuǎn)，但已經(jīng)在進(jìn)行討論，以協(xié)調(diào)任何將依賴該 PHY 的組織之間的努力。最終，目標(biāo)是所有衍生產(chǎn)品都可以基于一組統(tǒng)一的基本以太網(wǎng)功能進(jìn)行構(gòu)建。

結(jié)論
目前尚不清楚 HPC 本身是否能證明在這些新協(xié)議中付出的努力是合理的，但 AI 無處不在，而且它更像是 HPC 的殺手級應(yīng)用程序。HPC 當(dāng)然可以順勢而為，即使發(fā)送的交易的具體細(xì)節(jié)可能與 AI 不同。甚至 AI 也會在不同時間有不同的交易風(fēng)格。正是出于這個原因，存在各種選項，Ultra Ethernet 允許發(fā)送者選擇適合給定交易的最佳語義。

有趣的是，這兩項努力幾乎同時到期，盡管兩個組織之間沒有協(xié)調(diào)。鑒于規(guī)范將在 2025 年上半年推出，可能會有一個審查期，在此期間，公司會在采用之前評估規(guī)范。然后將它們加工成硅至少需要一年時間，因此這些協(xié)議可能會在 2026 年底開始出現(xiàn)在數(shù)據(jù)中心。