国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

新聞中心

EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 設(shè)計應(yīng)用 > UALink還是Ultra Ethernet,面向AI的數(shù)據(jù)中心協(xié)議

UALink還是Ultra Ethernet,面向AI的數(shù)據(jù)中心協(xié)議

—— UALink 可縱向擴展,而 Ultra Ethernet 可橫向擴展。
作者:Bryon Moyer 時間:2025-03-18 來源: 收藏

和 HPC 中的計算節(jié)點越來越需要擴展到芯片或封裝之外,以獲取額外的資源來處理不斷增長的工作負(fù)載。他們可能會征用機架中的其他節(jié)點(縱向擴展)或使用其他機架中的資源(橫向擴展)。

本文引用地址:http://m.ptau.cn/article/202503/468265.htm

問題是目前沒有開放的 Scale-up 協(xié)議。到目前為止,這項任務(wù)一直由專有協(xié)議主導(dǎo),因為大部分最高性能的計算都是在大型使用定制芯片和架構(gòu)完成的。雖然以太網(wǎng)在橫向擴展方面很受歡迎,但對于 和高性能計算工作負(fù)載來說,它并不理想。

但兩種新協(xié)議 旨在解決當(dāng)前縱向擴展和橫向擴展通信的缺陷。 是一種全新的縱向擴展協(xié)議,而 則基于以太網(wǎng)構(gòu)建,用于橫向擴展。

多重通信職責(zé)
“計算節(jié)點” 是一個描述某些計算軌跡的抽象概念。它具有有限的容量,可以訪問有限數(shù)量的內(nèi)存和其他可能的資源,例如加速器。就其本身而言,它不足以應(yīng)對高強度工作負(fù)載,并且依賴于其他節(jié)點來分配整體問題。提供交換數(shù)據(jù)和協(xié)調(diào)作所需通信的協(xié)議通??煞譃槿?。

最低級別的協(xié)議是 die-to-die 互連,由于先進(jìn)的封裝,它在今天具有相關(guān)性。軟件包中看起來像單個計算節(jié)點的東西可能是多個小芯片一起工作。實現(xiàn)此目的的協(xié)議是 UCIe 和 Bunch of Wires (BoW) 以及一些專有協(xié)議。但所有這些通信在包裝之外都是不可見的。

滿載的計算節(jié)點可以看作是連接了計算、內(nèi)存和加速器的服務(wù)器主板。但是,主板上可能有多個處理器,因此系統(tǒng)軟件會確定哪些工作負(fù)載在哪些處理器上運行。但這對于訓(xùn)練 模型所需的任務(wù)類型來說還不夠。這需要伸手進(jìn)入機架或 Pod 以利用更多資源。

目標(biāo)是組裝多個計算節(jié)點,同時保持單個計算空間的感覺 — 多個處理器和加速器充當(dāng)具有統(tǒng)一地址的單個大型處理器或加速器。這個中間通信級別是縱向擴展的,這就是 的用武之地。它與 PCIe 和 CXL 一起工作,但只有 UALink 具有統(tǒng)一分配資源的作用。

“UALink 旨在連接您的主要 GPU 單元,以實現(xiàn) GPU 到 GPU 的擴展,”Synopsys 高性能計算 IP 解決方案產(chǎn)品管理副總裁 Michael Posner 說。“它旨在增加帶寬并減少該連接的延遲?!?/p>

GPU 只是加速器的一種類型,UALink 可以廣泛地與任何類型的加速器配合使用。然后,UALink 抽象出加速器之間的劃分。

“我們的想法是將 AI 處理器互連起來,看起來像這個 Pod 中的一個大型處理器,”Synopsys 首席產(chǎn)品經(jīng)理 Jon Ames 說。

內(nèi)存訪問是 UALink 角色的重要組成部分。Cadence 硅解決方案集團(tuán)設(shè)計 IP 高級產(chǎn)品營銷組總監(jiān) Arif Khan 在一篇博文中表示:“UALink 優(yōu)化了 pod 中加速器之間的 xPU 到 xPU 內(nèi)存通信,無論是直接連接還是通過完全連接的高基數(shù)開關(guān)。

超越機架
機架中的資源之外,其他機架中也有類似的資源。但是,這些機架無法通過將單個機架固定在一起的同一互連進(jìn)行訪問。以太網(wǎng)通常在機架之間通信,這就是橫向擴展 — 最高通信級別。它類似于 Scale-up,但其覆蓋范圍比 Scale-up 所能提供的更廣泛。此架構(gòu)在機架內(nèi)有一個網(wǎng)絡(luò)(例如 PCIe),在機架外(或網(wǎng)絡(luò)的另一個層)具有另一個網(wǎng)絡(luò)。這是縱向擴展和橫向擴展之間的主要區(qū)別。

“超級以太網(wǎng)解決了橫向擴展問題,”Posner 說?!八⒃趥鹘y(tǒng)以太網(wǎng)之上?!?/p>

Khan 對此表示贊同?!翱?Pod 的擴展依賴于 來加速以太網(wǎng)(本質(zhì)上是替代當(dāng)今依賴遠(yuǎn)程 DMA/RoCE 的批量傳輸),”他說。

圖 1:數(shù)據(jù)中心互連的四個級別。在整個數(shù)據(jù)中心中,從一個機架移動到另一個機架構(gòu)成了橫向擴展通信。在同一機架內(nèi)進(jìn)行縱向擴展。在高級處理器封裝中,晶粒間互連處理晶粒間通信。來源:Bryon Moyer/Semiconductor Engineering

die-to-die 協(xié)議和其他協(xié)議之間的一個根本區(qū)別是鏈路的基本性質(zhì) — 串行與并行。UCIe 和 BoW 都是 parallel interface,通常帶有 forwarded clocks。這提供了最低的延遲,同時需要更多的引腳,并使 skew 成為一個更重要的問題。

UALink 和 Ultra Ethernet 使用串行鏈路。這大大減少了必要信號的數(shù)量,但它增加了提取 clock 和解析非 non-return-to-zero (NRZ) 格式的 symbol 值的開銷。這種額外的處理是導(dǎo)致 die-to-die 協(xié)議提供的鏈接延遲增加的原因?!芭c任何接口相比,UCIe 和 BoW 等并行接口的 NoC 到 NoC 延遲都非常低,”Siemens EDA 中央工程解決方案總監(jiān) Pratyush Kamal 指出。

縱向擴展:一個綠地
如今,PCIe 和 CXL 可以在機架級別運行,但它們不提供 UALink 創(chuàng)建者正在設(shè)計的語義。因此,現(xiàn)有技術(shù)由廣泛的專有解決方案組成。每家實施 Scaleup 的公司都必須投入資源來設(shè)計協(xié)議,而多家公司做同樣的事情會消耗行業(yè)的效率。

“我們看到 UALink 取代了許多專有互連,”Synopsys 的 IP 戰(zhàn)略營銷經(jīng)理 Ron Lowman 說?!癧創(chuàng)建專有版本的設(shè)計師] 使用了從 PCIe 到以太網(wǎng)以及介于兩者之間的一切,并通過定制來處理擴展,UALink 正在解決這個問題。”

UALink 聯(lián)盟于去年秋天正式召開會議,其既定目標(biāo)是“開發(fā)互連技術(shù)規(guī)范,促進(jìn) AI 加速器之間的直接加載、存儲和原子作”。事實上,UALink 中的 UA 代表 Ultra Accelerator。它并沒有排除 PCIe 或 CXL,這三者的職責(zé)之間存在重疊。但是,UALink 正在專門針對 AI 和 HPC 工作負(fù)載進(jìn)行優(yōu)化。

它由三個主要層組成 — 一個頂部的事務(wù)層,用于管理完整事務(wù),一個位于中間的數(shù)據(jù)鏈路層,用于管理每個躍點,以及一個處理信號的物理層 (PHY)。前兩個是新的,但 PHY 層利用現(xiàn)有的功能來加快實施和采用。

在某種程度上,縱向擴展一直是 PCIe 的領(lǐng)域,但沒有針對 AI 進(jìn)行優(yōu)化。Lowman 說:“你在 PCIe 中看到的是許多不同的芯片執(zhí)行許多不同的任務(wù),而 UALink 實際上是在嘗試采用 AI 加速器,并將其從 1 擴展到 1,000 來處理單個工作負(fù)載?!癠ALink 不具備 PCIe 的所有功能和向后兼容性,但它可以滿足特定的 AI 工作負(fù)載需求,例如全局內(nèi)存尋址和共享內(nèi)存?!?/p>

UALink 的兩個初始版本將首次亮相,一個是 224 Gbps,另一個可以放寬半速(-200 和 -100 版本)。兩者都將采用以太網(wǎng) PHY。在初始版本發(fā)布后,計劃推出 -128 版本,該版本將利用 PCIe Gen 7 的 PHY。

該聯(lián)盟開發(fā) UALink 并不是為了理想,而是為了快速實現(xiàn),因為該行業(yè)發(fā)展得如此之快?!癆I 硬件軟件的發(fā)展速度比硬件的響應(yīng)速度要快得多,”Lowman 說?!耙虼耍M快推出有助于擴大規(guī)模的產(chǎn)品將對整個行業(yè)有益?!?/p>

這意味著盡可能多地重復(fù)使用現(xiàn)有標(biāo)準(zhǔn)?!拔覀兊南敕ú⒉皇钦f以太網(wǎng)和 PCI 是絕對最好的選擇,”Lowman 說?!拔覀兊南敕ㄊ牵覀兛梢允褂脴?biāo)準(zhǔn)化協(xié)議快速進(jìn)入市場,該協(xié)議可以完成縱向擴展架構(gòu)所需的基本工作。因此,該聯(lián)盟采用了現(xiàn)有的技術(shù)。UALink 128 利用了類似 PCIe 的 PHY,UALink 200 利用了基于以太網(wǎng)的 PHY。

預(yù)計 UALink 不會挑戰(zhàn) PCIe 或 CXL?!拔覀円呀?jīng)就 PCIe、CXL 和 UALink 的定位進(jìn)行了很多對話,我們堅信它們在市場上都有自己的利基市場,”他說。

UALink 1.0 規(guī)范應(yīng)在下個季度提供,并可免費下載。

橫向擴展:基于以太網(wǎng)
構(gòu)建 由于能夠很好地處理廣泛的應(yīng)用程序,以太網(wǎng)已被廣泛采用。但它的一些策略會損害性能,主要是由于尾部延遲。

以太網(wǎng)中的通信延遲不是固定的或可預(yù)測的。一個事務(wù)可能完成而沒有問題,而另一個事務(wù)可能會遇到鏈路擁塞,并丟棄數(shù)據(jù)包,因此需要重新發(fā)送。盡管大多數(shù)事務(wù)可以在最短的時間內(nèi)完成,但這些工作負(fù)載需要所有節(jié)點同步才能繼續(xù),并且一個鏈接比其他鏈接花費的時間更長可能會阻礙一切。術(shù)語 tail latency 指的是由這些(希望)少數(shù)事務(wù)引起的延遲。它們是延遲分布的尾部。

在考慮延遲時,還必須認(rèn)識到 die-to-die 連接增加的延遲不僅僅是物理層延遲。“重要的是 NoC 到 NoC 的延遲,而不是 PHY 到 PHY 的延遲,”Kamal 說。

由于通信方式的性質(zhì),此問題對于 AI 和 HPC 工作負(fù)載尤其嚴(yán)重。以太網(wǎng)最常用于傳遞東西向或南北向的數(shù)據(jù)流。有一種方向性和一種感覺,“我們完成了那個流程,這是我們最后一次看到它。但 AI/HPC 工作負(fù)載與發(fā)送數(shù)據(jù)進(jìn)行計算,然后返回結(jié)果有關(guān)。這不僅僅是一條消失的溪流。它是數(shù)據(jù)輸出和結(jié)果,一遍又一遍。它更像是呼吸而不是流動,每次發(fā)送數(shù)據(jù)都是呼氣,結(jié)果是吸氣。每次“呼吸”都涉及節(jié)點之間的多個交易。

“以太網(wǎng)是專門為成為通用網(wǎng)絡(luò)而開發(fā)的,”超級以太網(wǎng)聯(lián)盟指導(dǎo)委員會主席 J Metz 說?!叭绻阌心媳苯煌ɑ驏|西交通,那就太好了。如果你有集群流量執(zhí)行 all-to-all、all-reduce 或任何其他集合,那就不太好了。當(dāng)你來回傳遞消息,以便它們可以進(jìn)行自己的處理,然后將其發(fā)送回去時,這更像是那種呼吸環(huán)境。


無花果。 2:Ultra Ethernet 在數(shù)據(jù)中心網(wǎng)絡(luò)中的位置??v向擴展發(fā)生在節(jié)點內(nèi),使資源集合看起來像一個虛擬節(jié)點。Ultra Ethernet 擴展這些節(jié)點。雖然此處未說明,但 CPU 和 GPU 都可以參與。來源:Ultra Ethernet Consortium

盡管 Ultra Ethernet 可以通過網(wǎng)絡(luò)接口卡 (NIC) 進(jìn)行連接,但這不是必需的?!敖Y(jié)構(gòu)端點 (FEP) 可以是任何具有結(jié)構(gòu)地址的設(shè)備,它可以是加速器本身的合適以太網(wǎng)點,”Metz 說?!癋EP 的魔力發(fā)生了,包括擁塞、語義和數(shù)據(jù)包交付控制?!?/p>

圖 2 展示了一個簡化的數(shù)據(jù)中心網(wǎng)絡(luò),重點是 GPU 。但 CPU 也可以參與?!癆I 工作流程不是鐵板一塊,”Metz 說?!霸诓煌旱?CPU 和 GPU 之間,甚至在集群內(nèi)部,都存在許多階段。有些工作最好在 CPU 中完成,有些在 GPU 中完成。

超級以太網(wǎng)聯(lián)盟 (UEC) 專門針對這種類型的通信,具有一些強制性功能和一些可選功能。給定一個事務(wù),只有終端節(jié)點具有強制行為。這是有意為之的,以便可以使用標(biāo)準(zhǔn)以太網(wǎng)交換機構(gòu)建 Ultra Ethernet 網(wǎng)絡(luò)。雖然沒有提供 Ultra Ethernet 的所有優(yōu)勢,但端點安裝可以繼續(xù)進(jìn)行,而無需等待新交換機。

向以太網(wǎng)
添加層 標(biāo)準(zhǔn)以太網(wǎng) 指定第 2 層(數(shù)據(jù)鏈路)及以下層的功能。它不知道事務(wù)或終端節(jié)點。它只是逐個躍點移動數(shù)據(jù)。Ultra Ethernet 在此基礎(chǔ)上增加了第 3 層(網(wǎng)絡(luò))和第 4 層(傳輸)。它是管理事務(wù)語義的傳輸層。它必須是安全的嗎?所有數(shù)據(jù)包都必須按順序到達(dá)嗎?它必須可靠嗎?

“傳輸部分是 Ultra Ethernet 的重要組成部分,”Ames 說?!八鼮槟峁┝丝梢詼p少整體系統(tǒng)延遲的機制。”

層的神圣性在傳統(tǒng)以太網(wǎng)中沒有得到很好的尊重。其他功能已經(jīng)悄悄滲入了一些層次,而這些層次可能更適合其他層次。Ultra Ethernet 正在努力避免這種情況?!澳阋_保當(dāng)你在第二層做某事時,它會做第二層,”Metz 說。“你想在第三層做點什么,它就是第三層。你不做你不在 MAC 層做路由協(xié)議。

第 3 層僅使用互聯(lián)網(wǎng)協(xié)議 (IP),保持不變?!癧我們]目前沒有解決網(wǎng)絡(luò)層問題,”他說?!皬哪撤N意義上說,這很好,因為它有助于簡化流程,并使使用 Clos 或葉脊配置的傳統(tǒng)數(shù)據(jù)中心環(huán)境變得非常容易。一旦您開始研究 dragonfly、megafly 或 torus [網(wǎng)絡(luò)拓?fù)鋆 等內(nèi)容,您將在 HPC 環(huán)境中更頻繁地看到這些,我們就不關(guān)注這些了。我們將來必須解決這個問題。

傳輸層是標(biāo)準(zhǔn)的強制性部分,在端點中實現(xiàn)?!霸唇K端節(jié)點將成為核心決策者,然后接收終端節(jié)點將提供 [這些決策] 所需的反饋,”Metz 說。在出現(xiàn)問題數(shù)據(jù)包的情況下,目標(biāo)不會發(fā)送通常的 ACK(確認(rèn)),而是發(fā)送 NACK(否定確認(rèn))以及一些診斷信息。

“您可以識別丟失或速度較慢的數(shù)據(jù)包,并將其發(fā)送回源頭,”Metz 解釋說?!皝碓磳⑵渑c它最初選擇的任何路徑相結(jié)合,并在重新提交時選擇了不同的路徑。”

圖 3: 超級以太網(wǎng)堆棧包括傳輸層和網(wǎng)絡(luò)層,其中傳輸層是強制性的。到目前為止,網(wǎng)絡(luò)層采用的 IP 沒有變化。數(shù)據(jù)鏈路層和物理層添加了新的可選功能。藍(lán)色元素是必需的,綠色元素與以太網(wǎng)相同,米色元素是可選的。來源:Ultra Ethernet Consortium。

新功能有助于減少尾部延遲
展示 Ultra Ethernet 減少延遲的方法的四項功能是無序交付、鏈路級重試、流量控制和數(shù)據(jù)包噴射。其中許多交易只是將數(shù)據(jù)從一個地方發(fā)送到另一個地方,只要數(shù)據(jù)全部到達(dá)那里,它到達(dá)的順序就無關(guān)緊要。您仍然可以選擇按順序交付,但這不是必需的。

如果某些數(shù)據(jù)未到達(dá),則無需重新發(fā)送整個事務(wù)。目標(biāo)終端節(jié)點可以識別任何缺失的數(shù)據(jù)包,只有那些數(shù)據(jù)包會被重新發(fā)送。此外,如果中間節(jié)點沿路徑收到一個壞數(shù)據(jù)包,它可以立即請求重試該數(shù)據(jù)包,而無需在堆棧上移動并在事務(wù)級別處理它。

“鏈路級重試可以防止堆棧上層的協(xié)議不必確定是否需要重新傳輸某些內(nèi)容,”Ames 說,并指出了在較低級別響應(yīng)更快的好處,以及需要只重新發(fā)送壞數(shù)據(jù)包而不是整個事務(wù)。

由于鏈路級重試是一項可選功能,因此在使用新鏈路層升級交換機之前,早期的 Ultra Ethernet 網(wǎng)絡(luò)不會具有此功能。

另一個鏈路層修改與流控制有關(guān)?!霸阪溌芳墑e有一個基于信用的流量控制機制,”Ames 說。

最后,標(biāo)準(zhǔn)以太網(wǎng)通常會為流或事務(wù)選擇一條路徑,并在事務(wù)期間堅持使用。如果選擇了擁塞或其他受損的路徑,則該事務(wù)可能需要很長時間才能在任何必要的重試后完全到達(dá)。數(shù)據(jù)包噴射是一項可選功能,允許源為每個數(shù)據(jù)包做出單獨的路徑?jīng)Q策。

Ames 通過將其與標(biāo)準(zhǔn)以太網(wǎng)進(jìn)行比較來描述它。“如果節(jié)點 A 與節(jié)點 Q 通信,則通過一條路徑,如果節(jié)點 A 與節(jié)點 X 通信,則可能會采用不同的路徑,”他解釋說?!斑@就是多路徑在常規(guī)以太網(wǎng)中的工作方式。使用數(shù)據(jù)包噴射,您可以通過不同的鏈路發(fā)送數(shù)據(jù)包,網(wǎng)絡(luò)將在遠(yuǎn)端處理重組。但通常這只是一次數(shù)據(jù)傳輸,所以如果事情不按順序到達(dá)也沒關(guān)系。

最終,這些功能提供了更快地移動數(shù)據(jù)包的選項,并且重試次數(shù)更少或更多。某些功能(例如安全性)可能會增加典型事務(wù)的延遲,但是當(dāng)系統(tǒng)等待最后一個數(shù)據(jù)包到達(dá)時,尾部延遲是限制因素,而不是標(biāo)稱延遲。是的,每筆交易的到達(dá)速度可能會慢一點,但由于最后一個數(shù)據(jù)包的提前到達(dá),每個人都可以更快地開始。

與 UALink
Ultra 以太網(wǎng)的 1.0 規(guī)范類似的時間即將到來。“我們正在考慮在 4 月或 5 月發(fā)布,”Metz 說。“它將對所有人開放下載。”一旦發(fā)布,就可以快速創(chuàng)建終端節(jié)點,而路由上的交換機可能需要更長的時間來升級。

“最終,為端點使用 ASIC 比為交換機使用 ASIC 更快,”Metz 說?!耙话銇碚f,交換 ASIC 不是單一用途的,開發(fā)周期比端點長得多。它們比端點有更多的功能要求,并且必須經(jīng)過大量的回歸測試。

盡管 UEC 使用的是由 IEEE 管理的標(biāo)準(zhǔn)以太網(wǎng),但它計劃持續(xù)保持超級以太網(wǎng)控制,而不是將結(jié)果交給 IEEE 處理?!癠EC 是一個標(biāo)準(zhǔn)組織,”Metz 解釋說?!拔覀兇_實與 IEEE 建立了合作關(guān)系,與他們合作并共享信息,但 Ultra Ethernet 是一種 UEC 協(xié)議?!?/p>

挑戰(zhàn)在于,IEEE可以在Ultra Ethernet 1.0鎖定后對其鏈路層進(jìn)行一些更改?,F(xiàn)在,鏈路層的 IEEE 和超級以太網(wǎng)版本不同,它們可能仍然不同。該組織意識到了這一挑戰(zhàn),并通過與與以太網(wǎng)有關(guān)系的組織保持溝通來應(yīng)對這一挑戰(zhàn)。

“我們正在與 IEEE、OCP、OIF、SNIA、以太網(wǎng)聯(lián)盟和 UALink 聯(lián)盟合作,我們都在共同努力,以確保不會發(fā)生這種分叉,”Metz 說。UALink Consortium 證實他們正在以類似的方式工作。

事實上,一個方面已經(jīng)在發(fā)揮作用——為 400 Gbps PHY 做準(zhǔn)備,預(yù)計可能在 2028/9 年的時間范圍內(nèi)。這似乎很遙遠(yuǎn),但已經(jīng)在進(jìn)行討論,以協(xié)調(diào)任何將依賴該 PHY 的組織之間的努力。最終,目標(biāo)是所有衍生產(chǎn)品都可以基于一組統(tǒng)一的基本以太網(wǎng)功能進(jìn)行構(gòu)建。

結(jié)論
目前尚不清楚 HPC 本身是否能證明在這些新協(xié)議中付出的努力是合理的,但 AI 無處不在,而且它更像是 HPC 的殺手級應(yīng)用程序。HPC 當(dāng)然可以順勢而為,即使發(fā)送的交易的具體細(xì)節(jié)可能與 AI 不同。甚至 AI 也會在不同時間有不同的交易風(fēng)格。正是出于這個原因,存在各種選項,Ultra Ethernet 允許發(fā)送者選擇適合給定交易的最佳語義。

有趣的是,這兩項努力幾乎同時到期,盡管兩個組織之間沒有協(xié)調(diào)。鑒于規(guī)范將在 2025 年上半年推出,可能會有一個審查期,在此期間,公司會在采用之前評估規(guī)范。然后將它們加工成硅至少需要一年時間,因此這些協(xié)議可能會在 2026 年底開始出現(xiàn)在數(shù)據(jù)中心。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉