英偉達(dá)遙遙領(lǐng)先?
近日,發(fā)布的最新 MLPerf Inference 基準(zhǔn)測(cè)試 (4.0) 結(jié)果并沒(méi)有令人吃驚。隨著 MLPerf 繼續(xù)跟上快速發(fā)展的 ML 技術(shù)的步伐,基準(zhǔn)套件中添加了兩個(gè)新的工作負(fù)載 - Llama 2 和 Stable Diffusion XL。Nvidia 展示了 H100 和 H200 的結(jié)果,高通的 Cloud AI 100 Ultra(預(yù)覽類(lèi)別)和 Intel/Habana 的 Gaudi 2 顯示出收益。英特爾擁有唯一的 CPU 作為加速器。
瞻博網(wǎng)絡(luò)是首次參展,展示了網(wǎng)絡(luò)的重要性。紅帽和 Supermicro 聯(lián)合提交了一份利用 OpenShift AI 的文件。云基礎(chǔ)設(shè)施提供商 Wiwynn 是另一位新提交者。
總體而言,近年來(lái)提交者數(shù)量相當(dāng)穩(wěn)定。此次共有 23 家企業(yè),其中包括 ASUSTeK、Azure、Broadcom、Cisco、CTuning、Dell、Fujitsu、Giga Computer、Google、Hewlett Packard Enterprise、Intel、Intel Habana Labs、Juniper Networks、Krai、Lenovo、NVIDIA、Oracle、Qualcomm Technologies, Inc .、廣達(dá)云科技、紅帽、Supermicro、司馬和緯穎科技。MLPerf Inference v4.0 包含來(lái)自 23 個(gè)提交組織的 8500 多個(gè)性能結(jié)果和 900 個(gè) Power 結(jié)果。
由于推理加速器的粗略排序(至少目前看來(lái)已經(jīng)確定),英偉達(dá)與競(jìng)爭(zhēng)對(duì)手之間令人震驚的條形圖缺失了。Nvidia 加速計(jì)算產(chǎn)品總監(jiān) David Salvator 發(fā)表了更有趣的言論之一,他表示推理收入目前占 Nvidia 數(shù)據(jù)中心收入的 40%。
“推理已成為我們數(shù)據(jù)中心活動(dòng)和業(yè)務(wù)的重要組成部分,”Salvator 表示,“在我們上次的財(cái)報(bào)電話會(huì)議上,我們表示它約占我們?nèi)ツ陻?shù)據(jù)中心收入的 40%。部分原因是我們看到了這種交叉,推理正在成為更占主導(dǎo)地位的工作負(fù)載。[原因]是應(yīng)用程序部署后,這些應(yīng)用程序通常會(huì) 24/7 運(yùn)行。通過(guò)訓(xùn)練,你完成了一次訓(xùn)練,基本上就完成了,至少暫時(shí)完成了。據(jù)推斷,一旦部署該應(yīng)用程序,它就會(huì)一直運(yùn)行,并開(kāi)始消耗整個(gè)人工智能工作負(fù)載的很大一部分?!?/p>

自 2018 年推出以來(lái),MLPerf 已穩(wěn)步成為加速器市場(chǎng)的固定產(chǎn)品,雖然在此過(guò)程中可能不那么令人興奮,但對(duì)于比較特定用例的不同配置的系統(tǒng)很有用。Top500 中沒(méi)有唯一的獲勝者。MLPerf 基準(zhǔn)測(cè)試組織者 MLCommons 的執(zhí)行董事 David Kanter 始終指出,要從結(jié)果中獲取價(jià)值,有必要深入挖掘數(shù)據(jù)并逐個(gè)比較系統(tǒng)。
“對(duì)我來(lái)說(shuō),基準(zhǔn)測(cè)試的目的是讓整個(gè)行業(yè)保持一致。這有助于向買(mǎi)家提供信息,幫助他們做出決策并了解系統(tǒng)(無(wú)論是本地系統(tǒng)、云系統(tǒng)還是嵌入式系統(tǒng))如何執(zhí)行相關(guān)工作負(fù)載。因此,如果您想購(gòu)買(mǎi)一個(gè)系統(tǒng)來(lái)運(yùn)行大型語(yǔ)言模型推理,您可以使用基準(zhǔn)測(cè)試來(lái)幫助指導(dǎo)您。與此同時(shí),對(duì)于正在制定解決方案的行業(yè)人士來(lái)說(shuō),這些基準(zhǔn)可以幫助我們了解如何優(yōu)化如何改進(jìn),”坎特說(shuō)。
“我們?cè)谶@里添加了兩個(gè)新的基準(zhǔn)。它們都是生成式人工智能基準(zhǔn)。第一個(gè)是 Stable Diffusion XL,它是文本到圖像的生成。我們還添加了用于問(wèn)答的 Llama 2 大型語(yǔ)言模型。現(xiàn)在,這兩者都要求我們提出服務(wù)器、服務(wù)器模式以及離線模式的延遲。我想在這里強(qiáng)調(diào)的一件事是這張圖表,顯示了隨著時(shí)間的推移,MLPerf 推理模型的參數(shù)計(jì)數(shù)是什么樣的。你可以看到,這就像一般的人工智能一樣,它很像一根曲棍球桿,放在右邊。我認(rèn)為在我們的第一輪 MLPerf Inference (v.5) 中,最大的模型大約有 2 億個(gè)參數(shù),而現(xiàn)在我們已經(jīng)達(dá)到 700 億個(gè),”他說(shuō)。
(第一個(gè) MLPerf 推理結(jié)果于 2019 年發(fā)布,其中五個(gè)基準(zhǔn)測(cè)試集中于圖像分類(lèi)、對(duì)象檢測(cè)和機(jī)器翻譯這三個(gè)任務(wù)。)
MLCommons 通過(guò)添加發(fā)布在 MLCommons 網(wǎng)站上的兩個(gè)新基準(zhǔn)來(lái)更深入地了解其決策過(guò)程。完成這項(xiàng)工作的團(tuán)隊(duì)組成由Intel、AMD、谷歌、英偉達(dá)、KRAI等多家公司,強(qiáng)化了競(jìng)爭(zhēng)對(duì)手公司之間合作的理念。



實(shí)際上,從結(jié)果中挖掘價(jià)值需要做一些工作。在這一輪中,MLPerf 結(jié)果將在不同的平臺(tái)(Tableau)上呈現(xiàn),并且至少對(duì)我來(lái)說(shuō),有效使用這個(gè)強(qiáng)大平臺(tái)有一個(gè)學(xué)習(xí)曲線。也就是說(shuō),數(shù)據(jù)就在那里。根據(jù)過(guò)去的做法,MLCommons 邀請(qǐng)基準(zhǔn)測(cè)試參與者提交有關(guān)其條目的聲明,這些聲明放在文章末尾。
Nvidia 繼續(xù)前進(jìn)
Nvidia 仍然是廣泛的人工智能加速器領(lǐng)域的王者,也是解決所有工作負(fù)載的唯一提交者。
MLCommons 通常會(huì)為媒體和分析師舉行概述預(yù)簡(jiǎn)報(bào),參與者可以對(duì)結(jié)果發(fā)表評(píng)論,但不要進(jìn)行直接的競(jìng)爭(zhēng)比較。各個(gè)公司可以自由地進(jìn)行單獨(dú)的簡(jiǎn)報(bào)來(lái)獲得競(jìng)爭(zhēng)分?jǐn)?shù)。
英偉達(dá)從不缺乏競(jìng)爭(zhēng)熱情,在其私人簡(jiǎn)報(bào)中相對(duì)謙虛,這促使一位分析師問(wèn)道:“似乎缺少一件事。您通常會(huì)展示一張幻燈片,其中包含您提交的所有不同基準(zhǔn)的條形圖,以及它們與之前的[運(yùn)行]的比較以及/或與競(jìng)爭(zhēng)對(duì)手的比較。我在這個(gè)幻燈片中沒(méi)有看到這一點(diǎn)。那是怎么回事?”
Salvator 說(shuō):“嗯,所以結(jié)果將在 ML Commons 網(wǎng)站上廣泛發(fā)布,我們決定在這一輪中重點(diǎn)關(guān)注較新的工作負(fù)載,特別是 Llama 2 工作負(fù)載 ,我們認(rèn)為它真正代表了當(dāng)前的狀態(tài)藝術(shù)的。我們確實(shí)提交了每個(gè)工作負(fù)載,并且數(shù)字就在那里。就 Ilama 2 而言,我們確實(shí)展示了英特爾/Habana 與 Gaudi2 的競(jìng)爭(zhēng)性提交……這是提交的其他主要加速器。坦率地說(shuō),我們還提交了一些其他以 CPU 為中心的結(jié)果,那些結(jié)果比這些要快得多?!?/span>
相反,Salvator 重點(diǎn)關(guān)注日益增長(zhǎng)的推理復(fù)雜性、Nvidia TensorRT-LLM編譯器的進(jìn)步以及其在提升 H100 和 H200 性能 Llama 2 方面的有效性?;?H200 的系統(tǒng)已進(jìn)入預(yù)覽類(lèi)別,因?yàn)樵谔峤粫r(shí)它們是他說(shuō),雖然尚未推出,但現(xiàn)在已經(jīng)推出,并引用聯(lián)想作為現(xiàn)已推出 H200 系統(tǒng)的供應(yīng)商之一。



Salvator 所涵蓋的大部分材料在一周前的 GTC24 會(huì)議上已被觸及。他討論了 Nvidia MGX、其使用不同機(jī)箱和熱足跡的模塊化參考設(shè)計(jì)以及 Nvidia 推理微服務(wù) ( NIM )。
當(dāng)被問(wèn)及即將推出的 Blackwell GPU、B100 和 B200 以及它們與現(xiàn)有 H100 和 H200 系統(tǒng)的直接兼容性時(shí),Salvator 表示:“我們并未將 B200 設(shè)計(jì)為與 H200 CTS 系統(tǒng)直接兼容。直接兼容方面更關(guān)注 B100,因?yàn)槲覀儞碛邢喈?dāng)大的 H100 基礎(chǔ)服務(wù)器安裝基礎(chǔ),而且我們的許多合作伙伴都知道如何構(gòu)建這些服務(wù)器。因此,能夠輕松更換 B100 基板的能力使它們能夠更快地上市。B200 將需要不同的底盤(pán)設(shè)計(jì)。它不會(huì)與 H200 系統(tǒng)直接兼容?!?/p>
英特爾/Habana 大力宣傳性能和成本
近年來(lái),英特爾已經(jīng)進(jìn)入 MLPerf 領(lǐng)域,宣傳其 Gaudi 加速器系列是 Nvidia GPU 的高性能、低成本替代品,其第五代 Xeon CPU 非常適合推理或訓(xùn)練只占較小部分的系統(tǒng)?;旌瞎ぷ髫?fù)載。
在基于最新 MLPerf 推理運(yùn)行進(jìn)行比較時(shí),英特爾展示了 Gaudi 2 與 Nvidia H100 在 Stable Diffusion XL 和 Llama 2 工作負(fù)載上的性能和成本比較。
以下是英特爾供應(yīng)商聲明的一部分:“英特爾 Gaudi 2 加速器是一款 7 納米處理器,為 MLPerf Inference 上最先進(jìn)的模型提供了可靠的性能結(jié)果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線采樣數(shù)和每秒服務(wù)器查詢數(shù)分別為 6.26 和 6.25,對(duì)于 Llama v2-70B,每秒離線令牌數(shù)和服務(wù)器令牌數(shù)為 8035.0 和 6287.5,分別。鑒于客戶對(duì) Hugging Face TGI(文本生成接口)的強(qiáng)烈需求,英特爾使用支持連續(xù)批處理和張量并行的 TGI 服務(wù)工具包提交了 Llama 結(jié)果,從而提高了實(shí)際 LLM 擴(kuò)展的效率。英特爾 Gaudi 軟件套件繼續(xù)擴(kuò)大我們最高客戶需求的法學(xué)碩士和多模式模型的覆蓋范圍?!?/p>

在英特爾單獨(dú)的預(yù)發(fā)布會(huì)上,Habana Labs 首席工程師兼高級(jí)研究員 Itay Hubara 表示:“我們非常高興能夠提交TGIK,這是一個(gè)開(kāi)源服務(wù)擁抱臉,是目前最常用的擁抱臉。服務(wù)于最高需求的社會(huì)。您可以在右側(cè)看到基于第三方評(píng)估的價(jià)格表現(xiàn)標(biāo)準(zhǔn)化。我覺(jué)得這是一個(gè)公平的比較?!?/p>
他表示,成本比較是基于系統(tǒng)成本,而不是運(yùn)營(yíng)成本,但沒(méi)有提供更多細(xì)節(jié)。
英特爾至強(qiáng)人工智能產(chǎn)品總監(jiān) Ronak Shah 補(bǔ)充道:“Gaudi 一直在跨越式發(fā)展,以實(shí)現(xiàn)我們提供易用性的目標(biāo),無(wú)論是通過(guò) pytorch 等標(biāo)準(zhǔn)框架,還是在應(yīng)用中利用 Hugging Faces TGI該提交使您能夠獲得開(kāi)箱即用的性能,并通過(guò)行業(yè)中可用的標(biāo)準(zhǔn)框架提供這些類(lèi)型的結(jié)果。”
這是英特爾第五代至強(qiáng)處理器首次出現(xiàn)在 MLPerf 中,Shah 展示了其與第四代至強(qiáng)處理器對(duì)比的結(jié)果。

“在上面的幻燈片可以看到,與第四代至強(qiáng)和之前提交的產(chǎn)品相比,我們的性能提高了 1.42 倍。令我興奮的是,我們?cè)?2023 年初推出了第四代至強(qiáng),并在 2023 年底推出了第五代,在一年之內(nèi),它是從第四代到第五代的硬件和增強(qiáng)功能的組合,以及軟件優(yōu)化能夠?qū)⑿阅芴岣?1.42 倍。令人興奮的是我們能夠?qū)崿F(xiàn)如此大的收益,并且我們能夠真正利用一些底層架構(gòu)的增強(qiáng)功能,”Shah 說(shuō)。
沙阿指出,英特爾這次有五個(gè)合作伙伴提交了申請(qǐng)?!拔覀冇形鍌€(gè)合作伙伴提交了申請(qǐng),這一事實(shí)表明他們也認(rèn)識(shí)到這就是至強(qiáng)的關(guān)鍵優(yōu)勢(shì)所在;當(dāng)你擁有混合通用工作負(fù)載或通用應(yīng)用程序并且將人工智能注入其中時(shí),就屬于這種情況?!边@五個(gè)合作伙伴是思科、戴爾、廣達(dá)、超微和 WiWynn。
總體而言,MLPerf 中提交的系統(tǒng)范圍相當(dāng)廣泛。這里列出了一些供應(yīng)商提交的聲明的摘錄(聲明的完整列表附在下面):
瞻博網(wǎng)絡(luò):“對(duì)于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò)提交了針對(duì) Llama 2 的一套測(cè)試,該模型具有 700 億參數(shù)的大語(yǔ)言模型 (LLM),該模型在瞻博網(wǎng)絡(luò)驗(yàn)證設(shè)計(jì) (JVD) 上運(yùn)行,該設(shè)計(jì)由脊葉網(wǎng)絡(luò)拓?fù)浜蛙壍纼?yōu)化設(shè)計(jì)。多節(jié)點(diǎn)數(shù)據(jù)中心設(shè)置由瞻博網(wǎng)絡(luò)人工智能優(yōu)化的以太網(wǎng)結(jié)構(gòu)提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測(cè)試和驗(yàn)證是在 Juniper AI 實(shí)驗(yàn)室的 NVIDIA A100 和 H100 集群上進(jìn)行的,具有軌內(nèi)和軌間組合。這是有史以來(lái)第一次向 MLCommons 提交多節(jié)點(diǎn)以太網(wǎng)?!?/p>
高通: “在 v4.0 輪中,高通推出了人工智能推理加速器 Cloud AI 100 Ultra,并提交了‘封閉預(yù)覽’模式評(píng)估。Cloud AI 100 Ultra 的早期預(yù)覽結(jié)果展示了其在低功耗下的卓越性能,其在 ML 基準(zhǔn)測(cè)試中的性能證明了這一點(diǎn)。與 Cloud AI 100 Pro 提交的內(nèi)容相比,所有 Cloud AI 100 Ultra 提交的內(nèi)容均表現(xiàn)出 2.5 至 3 倍的性能提升,同時(shí)每個(gè)加速器的功耗低于 150W。除了 NLP 和計(jì)算機(jī)視覺(jué)網(wǎng)絡(luò)之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預(yù)覽結(jié)果?!?/p>
紅帽和 Supermicro:“大型 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)者 Supermicro 和全球領(lǐng)先的企業(yè)開(kāi)源解決方案提供商 Red Hat Inc 合作提交了第一個(gè) Red Hat OpenShift AI MLPerf Inference v4.0。此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過(guò)使用自定義運(yùn)行時(shí)功能來(lái)支持 vLLM 等開(kāi)源 LLM 運(yùn)行時(shí)。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結(jié)果的結(jié)果,無(wú)需任何量化或模型編譯?!?/p>
Wewynn: “在邊緣類(lèi)別中,我們對(duì)配備兩個(gè) NVIDIA L40S GPU 的 ES200G2 進(jìn)行了基準(zhǔn)測(cè)試,適用于圖像識(shí)別或其他人工智能應(yīng)用等邊緣應(yīng)用。在數(shù)據(jù)中心類(lèi)別中,我們對(duì)配備英特爾第五代至強(qiáng)處理器的ES200G2進(jìn)行了基準(zhǔn)測(cè)試,該處理器可以組成服務(wù)器池來(lái)執(zhí)行各種任務(wù)。這兩項(xiàng)結(jié)果都表明該平臺(tái)能夠運(yùn)行流行的人工智能框架并取得良好的性能?!?/p>
接下來(lái)是預(yù)計(jì)在 6 月份進(jìn)行的MLPerf培訓(xùn)。
MLPERF 供應(yīng)商提交的聲明
華碩
在 MLPerf v4.0 推理基準(zhǔn)測(cè)試中追求卓越的過(guò)程中,華碩的努力超越了單純的性能和可靠性優(yōu)化,以推進(jìn)各個(gè)領(lǐng)域部署的人工智能技術(shù)。我們擁護(hù)社區(qū)參與的精神,認(rèn)識(shí)到其在促進(jìn)機(jī)器學(xué)習(xí)領(lǐng)域的協(xié)作、知識(shí)共享和集體進(jìn)步方面的關(guān)鍵作用。
性能調(diào)整:與華碩 ESC8000-E11P、英特爾第四代至強(qiáng)可擴(kuò)展處理器和 NVIDIA H100 PCIe GPU 解決方案一起,我們努力的核心是對(duì)性能優(yōu)化的不懈追求。利用 GPU 服務(wù)器強(qiáng)大的計(jì)算能力,我們開(kāi)始對(duì)基礎(chǔ)設(shè)施的各個(gè)方面進(jìn)行微調(diào)。通過(guò)細(xì)致的實(shí)驗(yàn)和創(chuàng)新技術(shù),我們?cè)谕掏铝?、延遲和效率方面取得了顯著的提高。我們的解決方案經(jīng)過(guò)精心設(shè)計(jì),可充分發(fā)揮 GPU 的潛力,在現(xiàn)實(shí)推理場(chǎng)景中提供無(wú)與倫比的速度和響應(yīng)能力。
可靠性增強(qiáng):除了 MLperf Inference v4.0 之外,我們還非常重視增強(qiáng) GPU 服務(wù)器的可靠性。認(rèn)識(shí)到穩(wěn)定性在關(guān)鍵任務(wù)應(yīng)用程序中的至關(guān)重要性,我們實(shí)施了強(qiáng)大的機(jī)制來(lái)減少停機(jī)時(shí)間、防止瓶頸并增強(qiáng)容錯(cuò)能力。嚴(yán)格的測(cè)試和驗(yàn)證程序確保我們的基礎(chǔ)設(shè)施在不同的工作負(fù)載和操作條件下始終提供可靠的性能。
社區(qū)參與:除了技術(shù)實(shí)力之外,我們對(duì) MLPerf 社區(qū)的承諾也是我們成功的基石。我們積極參與知識(shí)交流論壇,貢獻(xiàn)見(jiàn)解,并與同行合作推動(dòng)創(chuàng)新向前發(fā)展。通過(guò)分享最佳實(shí)踐、經(jīng)驗(yàn)教訓(xùn)和從我們的旅程中獲得的見(jiàn)解,我們?yōu)樯鐓^(qū)的集體智慧做出貢獻(xiàn),營(yíng)造協(xié)作和共同成長(zhǎng)的環(huán)境。
結(jié)論:在 MLPerf 4.0 推理基準(zhǔn)領(lǐng)域,我們的成就不僅僅通過(guò)性能指標(biāo)和可靠性基準(zhǔn)來(lái)衡量。它們同樣植根于我們對(duì)社區(qū)參與和協(xié)作精神的奉獻(xiàn)。隨著我們不斷突破可實(shí)現(xiàn)的界限,我們對(duì)推動(dòng)機(jī)器學(xué)習(xí)領(lǐng)域集體進(jìn)步的承諾仍然堅(jiān)定不移。在協(xié)作和共享知識(shí)的推動(dòng)下,我們共同邁向創(chuàng)新無(wú)極限的未來(lái)。
博通
作為虛擬化技術(shù)的領(lǐng)導(dǎo)者,VMware by Broadcom 為全球企業(yè)提供創(chuàng)新的數(shù)據(jù)中心管理基礎(chǔ)架構(gòu)解決方案,幫助客戶高效、安全、靈活地構(gòu)建、運(yùn)行和管理應(yīng)用程序。對(duì)于機(jī)器學(xué)習(xí) (ML) 和人工智能 (AI) 工作負(fù)載,我們的軟件解決方案與大多數(shù)硬件供應(yīng)商合作,以大規(guī)模支持這些工作負(fù)載。
Broadcom、戴爾和 NVIDIA 合作,將虛擬化的魔力引入加速器數(shù)據(jù)中心的 MLPerf Inference v4.0。除了傳統(tǒng)基準(zhǔn)測(cè)試之外,Broadcom、戴爾和 NVIDIA 還為新的穩(wěn)定擴(kuò)散(文本到圖像)基準(zhǔn)測(cè)試提交了出色的結(jié)果。我們的結(jié)果提供了接近裸機(jī)或更好的性能,并增加了數(shù)據(jù)中心管理的虛擬化優(yōu)勢(shì)。
我們?cè)谂鋫?8 個(gè)虛擬化 NVIDIA SXM H100 80GB GPU 的 Dell XE9680 和配備 2 個(gè)虛擬化 NVIDIA L40S 80GB GPU 以及 vSphere 8.02 和 NVIDIA vGPU 的 Dell R760 上運(yùn)行 MLPerf 推理工作負(fù)載。我們測(cè)試中使用的虛擬機(jī)僅分配了 120 – 224 個(gè)可用 CPU 中的 32 個(gè),以及 1T – 1.5T 可用內(nèi)存中的 128 GB。我們只使用了系統(tǒng)容量的一小部分。因此,客戶可以使用同一系統(tǒng)上的剩余 CPU 和內(nèi)存容量來(lái)運(yùn)行其他工作負(fù)載,節(jié)省 ML/AI 基礎(chǔ)設(shè)施的成本,并利用 VMware vSphere 的虛擬化優(yōu)勢(shì)來(lái)管理數(shù)據(jù)中心。我們的結(jié)果與上述裸機(jī)的比較表明,配備 NVIDIA 虛擬化 GPU 的 vSphere 8.0.2 是 AIML 工作負(fù)載的最佳選擇。
思科
各行各業(yè)的企業(yè)都在認(rèn)識(shí)到人工智能/機(jī)器學(xué)習(xí)的真正潛力。人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML) 正在為企業(yè)解決復(fù)雜問(wèn)題開(kāi)辟新途徑。
思科是 MLCommons 社區(qū)的新成員。思科與英特爾合作,成功提交了大型語(yǔ)言模型 (LLM)、圖像分類(lèi)(視覺(jué))、對(duì)象檢測(cè)(視覺(jué))和語(yǔ)音轉(zhuǎn)文本(語(yǔ)音)數(shù)據(jù)中心類(lèi)別的 MLperf v4.0 推理結(jié)果。
思科提交了配備 Intel Xeon第五代處理器的 Cisco UCS C240 M7 服務(wù)器的推理結(jié)果。配備英特爾第五代至強(qiáng)可擴(kuò)展處理器的思科 UCS C240 M7 服務(wù)器以 2RU 外形尺寸提供領(lǐng)先的性能和更高的效率,是 AI 推理的理想平臺(tái)。
作為 MLCommons 社區(qū)的新成員,思科將繼續(xù)支持社區(qū)為各種 AI 訓(xùn)練、推理和 HPC 工作負(fù)載對(duì)服務(wù)器解決方案進(jìn)行基準(zhǔn)測(cè)試的努力。在最新的MLPerf 4.0 Inference中,思科提交了在Cisco UCS C240 M7平臺(tái)上使用英特爾至強(qiáng)第五代處理器的結(jié)果,結(jié)果表明系統(tǒng)在大多數(shù)推理模型中都取得了優(yōu)異的性能。
CTuning
在本輪提交中,我們測(cè)試了第二代MLCommons CM-MLPerf 工作流程和CK 游樂(lè)場(chǎng),以在基于 Nvidia、Intel、Amazon 和 Qualcomm 的商品硬件上自動(dòng)對(duì)各種邊緣服務(wù)器、筆記本電腦和云提供商(包括 AWS 和 Cirrascale)進(jìn)行基準(zhǔn)測(cè)試( 9528 中的性能結(jié)果為 8683,988 中的功率結(jié)果為 905)。
CM-MLPerf 的目標(biāo)是提供單一且人性化的命令行、簡(jiǎn)單的 GUI和可擴(kuò)展的 Python、C++ 和網(wǎng)絡(luò)實(shí)現(xiàn)模板,以運(yùn)行來(lái)自不同供應(yīng)商的所有 MLPerf 推理基準(zhǔn)測(cè)試并以統(tǒng)一和自動(dòng)化的方式提交結(jié)果。
新版本的 CM-MLPerf 是由cTuning 基金會(huì)和cKnowledge根據(jù)上一輪提交后 MLCommons 的要求并感謝 MLCommons 成員和研究社區(qū)(ACM/IEEE MICRO'23和SuperComputing'23)的反饋而開(kāi)發(fā)的。
CM-MLPerf 工作流程首次成功實(shí)現(xiàn)了所有邊緣+數(shù)據(jù)中心工作負(fù)載(使用 llama2-7b 模型完成的 llama2 提交)以及來(lái)自 Nvidia、Intel、Qualcomm、Neural Magic 和 MLCommons 的各種實(shí)現(xiàn)的自動(dòng)化。
我們也非常自豪能夠首次使用 MLCommons CM 在云端對(duì) Qualcomm Cloud AI 100 系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,并感謝 Qualcomm 的支持。我們還感謝來(lái)自英特爾、英偉達(dá)和谷歌的同事的反饋和建議。
我們邀請(qǐng)每個(gè)人使用和增強(qiáng)MLCommons CM-MLPerf 自動(dòng)化,并參與一個(gè)新項(xiàng)目,以使用 MLPerf 和 CM作為協(xié)作工程工作,自動(dòng)共同設(shè)計(jì)高性能且經(jīng)濟(jì)高效的 AI 應(yīng)用程序和系統(tǒng)。
下圖由CM-LPerf 瀏覽器插件生成,顯示了我們提交系統(tǒng)(均使用 Nvidia RTX 4090)上邊緣模型的延遲,是提交給 MLPerf 推理的最佳延遲之一。Nvidia RTX 4090 還顯示出令人印象深刻的離線和服務(wù)器性能,如我們的數(shù)據(jù)中心結(jié)果所示。
戴爾科技
戴爾憑借最廣泛的 GenAI 解決方案脫穎而出,涵蓋從臺(tái)式機(jī)到數(shù)據(jù)中心再到云的所有內(nèi)容。該公司處于人工智能發(fā)展的最前沿,戴爾PowerEdge XE服務(wù)器系列為這一變革之旅奠定了基礎(chǔ)。
在 MLPerf 推理 v4.0 基準(zhǔn)測(cè)試領(lǐng)域,戴爾科技集團(tuán)通過(guò)提交各種模型的 281 個(gè)結(jié)果來(lái)展示其承諾,其中包括使用 Qualcomm、Broadcom 的 CPU 和加速器對(duì)新的 Llama2-70b、Stable Diffusion XL、GPT-J 進(jìn)行的測(cè)試、英偉達(dá)和英特爾。測(cè)試涵蓋了廣泛的產(chǎn)品,展示了戴爾通過(guò) PowerEdge 服務(wù)器系列滿足不同人工智能工作負(fù)載的能力。
Dell PowerEdge XE系列,特別是配備 NVIDIA Tensor Core H100 GPU 的產(chǎn)品,在大型語(yǔ)言模型、圖像分類(lèi)等領(lǐng)域展示了卓越的性能。此外,配備 NVIDIA L4 GPU 的 PowerEdge XR5610 凸顯了戴爾在系統(tǒng)效率方面的努力,優(yōu)化了邊緣工作負(fù)載的性能。
Dell PowerEdge XE 加速服務(wù)器系列在多個(gè)基準(zhǔn)測(cè)試中繼續(xù)提供巨大的性能提升。以下是一些最新亮點(diǎn):
配備 8 個(gè) NVIDIA H100 Tensor Core GPU 的 PowerEdge XE9680 繼續(xù)在大語(yǔ)言模型、文本到圖像、語(yǔ)音到文本、語(yǔ)言處理、圖像分類(lèi)和推薦方面提供戴爾最佳性能結(jié)果。
4 GPU 直接液冷 Dell PowerEdge XE9640 和風(fēng)冷 PowerEdge XE8640 在 GenAI 模型、圖像分類(lèi)、對(duì)象檢測(cè)、語(yǔ)音轉(zhuǎn)文本、語(yǔ)言處理、摘要、醫(yī)學(xué)圖像分割等方面取得了出色的結(jié)果。
Dell PowerEdge XR5610 和 NVIDIA L4 GPU 針對(duì)邊緣工作負(fù)載提供出色的每 GPU 功耗比系統(tǒng)性能
戴爾邀請(qǐng)客戶通過(guò)在其全球客戶解決方案中心進(jìn)行試駕來(lái)探索這些進(jìn)步,提供與創(chuàng)新實(shí)驗(yàn)室的協(xié)作以及訪問(wèn)卓越中心的機(jī)會(huì),以更深入地了解人工智能解決方案。
富士通
富士通提供系統(tǒng)、解決方案和專(zhuān)業(yè)知識(shí)的完美結(jié)合,以保證最大的生產(chǎn)力、效率和靈活性,從而提供信心和可靠性。自2020年以來(lái),我們一直積極參與并提交數(shù)據(jù)中心和邊緣部門(mén)的推理和訓(xùn)練輪次。
在這一輪中,我們使用兩個(gè)系統(tǒng)向數(shù)據(jù)中心封閉部門(mén)提交了參賽作品。第一個(gè)系統(tǒng)是 PRIMERGY CDI,配備安裝在外部 PCIe BOX 中的 16xL40S。第二個(gè)系統(tǒng)是GX2560M7,服務(wù)器內(nèi)部配備4xH100-SXM。我們還使用 PRIMERGY CDI 向數(shù)據(jù)中心封閉式電力部門(mén)提交了參賽作品。
通過(guò)在三個(gè)外部 PCI-BOX 中安裝多達(dá) 20 個(gè) GPU,PRIMERGY CDI 可以用作單個(gè)節(jié)點(diǎn)。此外,系統(tǒng)配置可以根據(jù)訓(xùn)練和推理工作負(fù)載的大小進(jìn)行調(diào)整。在這一輪中,我們?cè)赑RIMERGY CDI系統(tǒng)上安裝了16xL40S并運(yùn)行穩(wěn)定的擴(kuò)散和gptj。測(cè)量結(jié)果如下圖所示。我們使用配備多個(gè)L40S的系統(tǒng)確認(rèn)了如圖所示的性能。
我們的目標(biāo)是通過(guò)創(chuàng)新建立社會(huì)信任,使世界更加可持續(xù)發(fā)展。憑借推動(dòng)創(chuàng)新和專(zhuān)業(yè)知識(shí)的豐富傳統(tǒng),我們致力于為社會(huì)和尊貴客戶的發(fā)展做出貢獻(xiàn)。因此,我們將繼續(xù)滿足客戶的需求,并努力通過(guò) MLCommons 的活動(dòng)提供有吸引力的服務(wù)器系統(tǒng)。
Giga Computing
技嘉科技全資子公司,是從技嘉科技分拆出來(lái)的企業(yè)單位,設(shè)計(jì)、制造和銷(xiāo)售服務(wù)器、服務(wù)器主板、沉浸式解決方案和工作站。
作為 MLCommons 的創(chuàng)始成員之一,GigaComputing 持續(xù)支持社區(qū)為各種人工智能訓(xùn)練和推理工作負(fù)載對(duì)服務(wù)器解決方案進(jìn)行基準(zhǔn)測(cè)試的努力。繼上一次 v3.1 推理基準(zhǔn)測(cè)試之后,GigaComputing 在最新一輪的 MLPerf Inference v4.0 中提交了強(qiáng)大的 GIGABYTE G593-SD1 系統(tǒng),該系統(tǒng)配置了最新的第五代 Intel Xeon 可擴(kuò)展處理器和八個(gè) NVIDIA H100 SXM5 GPU。該系統(tǒng)具有高數(shù)據(jù)帶寬和精心優(yōu)化的數(shù)據(jù)處理配置。結(jié)果不言而喻,展示了極高的效率,同時(shí)在所有基準(zhǔn)測(cè)試任務(wù)中保持了頂級(jí)性能。我們?cè)谧钚禄鶞?zhǔn)測(cè)試中取得的優(yōu)異成績(jī)凸顯了我們對(duì)提供頂級(jí)功能和優(yōu)化的承諾。
我們千兆計(jì)算的重點(diǎn)是持續(xù)改進(jìn),我們?yōu)橄到y(tǒng)評(píng)估提供遠(yuǎn)程測(cè)試和公共基準(zhǔn)就是例證。我們致力于提高效率并開(kāi)創(chuàng)先進(jìn)的冷卻技術(shù),例如浸入式和 DLC,以應(yīng)對(duì)即將到來(lái)的功耗激增。請(qǐng)繼續(xù)關(guān)注,我們將繼續(xù)通過(guò)千兆計(jì)算突破卓越計(jì)算的界限。
谷歌云
NVIDIA GPU 與 Google Cloud 的基礎(chǔ)設(shè)施技術(shù)相結(jié)合,提供業(yè)界領(lǐng)先的規(guī)模和性能。8 月份,我們宣布A3 虛擬機(jī)現(xiàn)已全面上市;A3 由單個(gè)虛擬機(jī)中的 NVIDIA 8 H100 Tensor Core GPU 提供支持,專(zhuān)為訓(xùn)練和服務(wù)要求苛刻的新一代 AI 工作負(fù)載和法學(xué)碩士而設(shè)計(jì)。A3 能夠通過(guò)達(dá)到 26 exaflops 的 AI 性能來(lái)達(dá)到超級(jí)計(jì)算能力。
對(duì)于 MLPerf Inference v4.0 基準(zhǔn)測(cè)試,Google 提交了 20 個(gè)結(jié)果,包括使用 A3 VM 的新 Stable Diffusion XL 和 Llama 2 (70B) 結(jié)果。Stable Diffusion XL 和 Llama 2 結(jié)果與 NVIDIA 提交的材料所展示的峰值性能相差 1-4% 以內(nèi)。強(qiáng)勁的 A3 VM 結(jié)果證明了 Google Cloud 與 NVIDIA 的密切合作關(guān)系,專(zhuān)門(mén)為法學(xué)碩士和新一代人工智能構(gòu)建工作負(fù)載優(yōu)化的端到端解決方案。
惠普
慧與 (HPE) 與 NVIDIA、高通和 KRAI 合作成功提交了結(jié)果,展示了一系列適用于數(shù)據(jù)中心的計(jì)算機(jī)視覺(jué) (CV)、自然語(yǔ)言處理 (NLP)、生成人工智能 (GenAI) 的高性能推理系統(tǒng),以及大型語(yǔ)言模型(LLM)。HPE 服務(wù)器性能結(jié)果包含在數(shù)據(jù)中心封閉、數(shù)據(jù)中心開(kāi)放和數(shù)據(jù)中心網(wǎng)絡(luò)部門(mén)中。
HPE 提交了這些系統(tǒng)上的 AI 推理結(jié)果:
· HPE Cray 超級(jí)計(jì)算 (SC) XD670(配備 8 個(gè) NVIDIA H100 SXM 80GB,700W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個(gè) NVIDIA H100 PCIe 80GB、400W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個(gè) NVIDIA L40S PCIe 48GB、300W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 8 個(gè) Qualcomm Cloud AI 100 Ultra 128GB、150W TDP*)
亮點(diǎn)包括:
· 配備 NVIDIA H100 SXM 的 HPE Cray SC XD670 在 Bert 99.0 離線場(chǎng)景下展示了 NLP 的最高性能結(jié)果
· 配備 4 個(gè) NVIDIA H100 PCIe 的 HPE ProLiant DL380a 在 Llama2 70B 型號(hào)上展示了對(duì)于四個(gè)或更少 PCIe 連接 GPU 的最高性能結(jié)果。
· 配備 4 個(gè) NVIDIA L40S 的 HPE ProLiant DL380a 在用于 CV、NLP、GenAI 和 LLM 的同類(lèi) GPU 中展示了良好的性能。
· HPE 在 HPE ProLiant DL380a Gen11 服務(wù)器中使用 8 個(gè) Qualcomm Cloud AI 100 Ultra 加速器提交了第一個(gè)關(guān)于 CV 和 NLP 的 MLPerf 推理預(yù)覽結(jié)果。
非常感謝 KRAI 的合作,為 Qualcomm Cloud AI 100 Ultra 加速器實(shí)現(xiàn)了高性能和高能效。
英特爾
英特爾提交了英特爾 Gaudi 2 AI 處理器的 MLPerf Inference v4.0 結(jié)果,并首次提交了第五代至強(qiáng)可擴(kuò)展處理器。結(jié)果表明,英特爾致力于提供全系列人工智能產(chǎn)品,以滿足廣泛的客戶人工智能需求。
英特爾 Gaudi 2 加速器是一款 7 納米處理器,在 MLPerf Inference 上為最先進(jìn)的模型提供了可靠的性能結(jié)果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線采樣數(shù)和每秒服務(wù)器查詢數(shù)分別為 6.26 和 6.25,對(duì)于 LLama v2-70B,每秒離線令牌數(shù)和服務(wù)器令牌數(shù)為 8035.0 和 6287.5,分別。鑒于客戶對(duì) Hugging Face TGI(文本生成接口)的強(qiáng)烈需求,英特爾使用支持連續(xù)批處理和張量并行的 TGI 服務(wù)工具包提交了 LLama 結(jié)果,從而提高了實(shí)際 LLM 擴(kuò)展的效率。英特爾 Gaudi 軟件套件不斷擴(kuò)大對(duì)我們最高客戶需求的法學(xué)碩士和多模式模型的覆蓋范圍。
英特爾仍然是唯一提交 MLPerf 結(jié)果的 CPU 供應(yīng)商。英特爾已從 2020 年開(kāi)始提交四代至強(qiáng)產(chǎn)品的 MLPerf 結(jié)果。英特爾提交的帶有英特爾高級(jí)矩陣擴(kuò)展 (AMX) 的第五代英特爾至強(qiáng)可擴(kuò)展處理器表明 CPU 對(duì)于通用 AI 工作負(fù)載具有出色的性能。由于硬件和軟件的改進(jìn),去年在 MLPerf Inference v3.1 中,英特爾第五代至強(qiáng)的結(jié)果比第四代至強(qiáng)的結(jié)果提高了 1.42 倍。
對(duì)于具有軟件優(yōu)化(包括連續(xù)批處理)的 GPT-J,英特爾提交的 Xeon 表現(xiàn)出與 v3.1 提交相比約 1.8 倍的性能提升。同樣,由于 MergedEmbeddingBag 和利用 AMX 的其他優(yōu)化,DLRMv2 顯示了約 1.8 倍的性能提升和 99.9 的準(zhǔn)確度。
英特爾非常自豪能夠與 OEM 合作伙伴(思科、戴爾、廣達(dá)、Supermicro 和 WiWynn)合作交付他們自己的 MLPerf 提交文件。
通過(guò)持續(xù)的軟件更新和優(yōu)化,英特爾預(yù)計(jì)其加速器和 CPU 的性能和生產(chǎn)力將持續(xù)進(jìn)步。
瞻博網(wǎng)絡(luò)
對(duì)于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò)提交了一套針對(duì) Llama 2 的測(cè)試,該模型具有 700 億參數(shù)的大語(yǔ)言模型 (LLM),該模型在瞻博網(wǎng)絡(luò)驗(yàn)證設(shè)計(jì) (JVD) 上運(yùn)行,該設(shè)計(jì)由脊葉網(wǎng)絡(luò)拓?fù)浜蛙壍纼?yōu)化設(shè)計(jì)組成。多節(jié)點(diǎn)數(shù)據(jù)中心設(shè)置由瞻博網(wǎng)絡(luò)人工智能優(yōu)化的以太網(wǎng)結(jié)構(gòu)提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測(cè)試和驗(yàn)證是在 Juniper AI 實(shí)驗(yàn)室的 NVIDIA A100 和 H100 集群上進(jìn)行的,具有軌內(nèi)和軌間組合。這是有史以來(lái)第一次向 MLCommons 提交多節(jié)點(diǎn)以太網(wǎng)。
瞻博網(wǎng)絡(luò)很高興與 MLCommons 合作,加速人工智能 (AI) 創(chuàng)新,讓世界各地的公司能夠更簡(jiǎn)單、更快、更經(jīng)濟(jì)地部署 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施。LLama 等生成式 AI 突破了計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)系統(tǒng)的性能界限。訓(xùn)練這些模型是一個(gè)巨大的并行處理問(wèn)題,依賴于強(qiáng)大的網(wǎng)絡(luò)解決方案。AI 工作負(fù)載具有獨(dú)特的特征,并對(duì)網(wǎng)絡(luò)提出了新的要求,但解決此類(lèi)嚴(yán)峻挑戰(zhàn)正是瞻博網(wǎng)絡(luò) 25 年來(lái)一直在做的事情。人工智能集群基礎(chǔ)設(shè)施要從早期階段走向大眾市場(chǎng),必須利用開(kāi)放技術(shù)來(lái)發(fā)揮產(chǎn)業(yè)生態(tài)的集體力量和創(chuàng)新能力。
瞻博網(wǎng)絡(luò)致力于采用運(yùn)營(yíng)優(yōu)先的方法,利用基于意圖的網(wǎng)絡(luò)、AIOps 和 800Gb 以太網(wǎng)方面的市場(chǎng)領(lǐng)先功能,幫助客戶管理整個(gè) AI 數(shù)據(jù)中心網(wǎng)絡(luò)生命周期。以太網(wǎng)和我們的 Apstra 數(shù)據(jù)中心結(jié)構(gòu)自動(dòng)化軟件等開(kāi)放技術(shù)消除了供應(yīng)商鎖定,利用行業(yè)生態(tài)系統(tǒng)來(lái)降低成本并推動(dòng)創(chuàng)新,并支持跨 AI 訓(xùn)練、推理、存儲(chǔ)和管理網(wǎng)絡(luò)的通用網(wǎng)絡(luò)操作。此外,經(jīng)過(guò)嚴(yán)格的預(yù)先測(cè)試和驗(yàn)證的設(shè)計(jì)(例如瞻博網(wǎng)絡(luò)提交給 MLCommons 的設(shè)計(jì))對(duì)于確??蛻裟軌蜃孕胁渴鸢踩臄?shù)據(jù)中心基礎(chǔ)設(shè)施至關(guān)重要。
KRAI
KRAI 于 2020 年在“Silicon Fen”(英國(guó)劍橋)成立,是為設(shè)計(jì)超高效且經(jīng)濟(jì)高效的人工智能計(jì)算機(jī)系統(tǒng)而量身定制的優(yōu)質(zhì)基準(zhǔn)測(cè)試和優(yōu)化解決方案的供應(yīng)商。KRAI 團(tuán)隊(duì)參加了全部 9 輪 MLPerf 推理輪,自 2019 年以來(lái),在 60 多名提交者中,只有另外三名提交者實(shí)現(xiàn)了這一壯舉。
v4.0 輪融資標(biāo)志著高通和 KRAI 之間長(zhǎng)達(dá)三年的密切合作。為了慶祝這一時(shí)刻,我們專(zhuān)注于通過(guò)本輪預(yù)覽的 Cloud AI 100 Ultra 加速器取得出色的成果。特別是,配備 16 個(gè)單寬 Ultra 加速器的 GIGABYTE G293-Z43 2U 服務(wù)器在 ResNet50 上每秒提供超過(guò) 900,000 個(gè)樣本,在 RetinaNet 上每秒提供近 15,500 個(gè)樣本。每個(gè) Ultra 加速器具有 64 個(gè) AI 核心,這一成就代表著單個(gè)系統(tǒng)中線性擴(kuò)展至 1,024 個(gè) AI 核心,之前的最高成就是 288 個(gè)核心(包含 18 個(gè) Pro 加速器)。超高性能、高效和可擴(kuò)展推理的魔力/源已作為廣受好評(píng)的 KRAI 推理庫(kù)技術(shù) (KILT) 代碼庫(kù)的新公開(kāi)版本與社區(qū)共享。在這一輪中,Qualcomm、KRAI、HPE、Dell、Lenovo 和 CTuning 提交的材料中使用了 KILT。
作為 KRAI 的另一個(gè)值得驕傲的時(shí)刻,我們與 Google 合作,使用最新一代張量處理單元復(fù)制和優(yōu)化 LLM 提交的內(nèi)容。歡迎 Google Cloud 客戶使用 KRAI X 技術(shù)自動(dòng)化的工作流程重現(xiàn) TPU-v5e 結(jié)果。
我們感謝 HPE 提供對(duì)配備 8 個(gè) Cloud AI 100 標(biāo)準(zhǔn)加速器和 200GbE 網(wǎng)絡(luò)設(shè)備的 ProLiant DL385 服務(wù)器的訪問(wèn),這使得本輪中唯一的網(wǎng)絡(luò)封閉提交成為可能。至關(guān)重要的是,上一輪從 10GbE 進(jìn)行的網(wǎng)絡(luò)升級(jí)使我們能夠擴(kuò)展對(duì)帶寬要求更高的 RetinaNet 基準(zhǔn)測(cè)試,以及帶寬較少的 BERT 基準(zhǔn)測(cè)試。
聯(lián)想
聯(lián)想致力于為所有人提供更智能的技術(shù)解決方案,包括硬件、軟件等。為了實(shí)現(xiàn)這一目標(biāo),我們使用 MLPerf Inference v.4.0 進(jìn)行研究和測(cè)試,使我們能夠展示我們?cè)诨鶞?zhǔn)測(cè)試方面的領(lǐng)先成果。
通過(guò)與 MLCommons 的合作,聯(lián)想能夠每季度通過(guò) MLPerf 基準(zhǔn)測(cè)試展示這些結(jié)果。我們與 NVIDIA 和 Intel 在圖像分類(lèi)、醫(yī)學(xué)圖像分割、語(yǔ)音轉(zhuǎn)文本和自然語(yǔ)言處理等重要 AI 任務(wù)上的合作使我們?nèi)〉昧祟I(lǐng)先的成果。
我們很自豪能夠使用配備 2 個(gè) NVIDIA L4 的 ThinkSystem SE360 以及配備 2 個(gè) NVIDIA L40 邊緣服務(wù)器的 SE450 和 SE455 來(lái)完成這些任務(wù)。這些合作使我們能夠根據(jù)領(lǐng)先的基準(zhǔn)不斷為客戶改進(jìn)技術(shù)。
我們與 MLCommons 的合作關(guān)系為我們?nèi)绾闻c競(jìng)爭(zhēng)對(duì)手進(jìn)行比較提供了寶貴的見(jiàn)解,設(shè)定了客戶期望,并使我們能夠不斷增強(qiáng)我們的產(chǎn)品。通過(guò)這種合作,我們可以與行業(yè)專(zhuān)家密切合作,創(chuàng)造增長(zhǎng)并最終為我們的客戶提供更好的產(chǎn)品,這是我們的首要任務(wù)。
英偉達(dá)
我們很高興能夠在 MLPerf Inference v4.0 中展示 NVIDIA 加速計(jì)算平臺(tái)令人難以置信的推理性能。NVIDIA HGX H100 平臺(tái)集成了多達(dá) 8 個(gè)具有高速互連功能的 H100 Tensor Core GPU,借助我們的 TensorRT-LLM 軟件,與上一輪測(cè)試相比,GPT-J 測(cè)試的性能提高了近 3 倍。該推理優(yōu)化器和運(yùn)行時(shí)通過(guò)開(kāi)源模塊化 Python API 提高了易用性和可擴(kuò)展性,用于隨著法學(xué)碩士的發(fā)展定義、優(yōu)化和執(zhí)行新的架構(gòu)和增強(qiáng)功能。
我們還很高興能夠使用 NVIDIA HGX H200 AI 超級(jí)計(jì)算平臺(tái)(由最新的 H200 Tensor Core GPU 提供支持)首次提交作品。HGX H200 采用高性能定制散熱解決方案,在新的 Llama 2 70B LLM 測(cè)試中,性能比 HGX H100 高出 45%。而且,NVIDIA GH200 Grace Hopper 超級(jí)芯片將 NVIDIA Grace CPU 與 NVIDIA Hopper GPU 結(jié)合在一個(gè)多功能、易于部署的模塊中,將 H100 GPU 的卓越性能擴(kuò)展到法學(xué)碩士、文本到圖像生成 AI 和推薦人。
NVIDIA AI 平臺(tái)在整個(gè)技術(shù)堆棧中提供創(chuàng)新,端到端加速整個(gè) AI 工作流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練,再到從云端到邊緣的部署推理),并在各種 AI 模型中實(shí)現(xiàn)出色的性能。各大云和服務(wù)器制造商也提供該服務(wù),并通過(guò) NVIDIA AI Enterprise 提供生產(chǎn) AI 和企業(yè)級(jí)支持的最快路徑。
我們很高興看到 14 家 NVIDIA 合作伙伴(包括華碩、Azure、Broadcom、思科、戴爾、富士通、GigaComputing、Google、HPE、聯(lián)想、甲骨文、廣達(dá)云技術(shù)、Supermicro 和 Wiwynn)提交了出色的推理結(jié)果,并且都在本地進(jìn)行以及涵蓋 NVIDIA 數(shù)據(jù)中心 GPU 產(chǎn)品組合的云解決方案。
我們還希望贊揚(yáng) MLCommons 正在開(kāi)展的工作,將基準(zhǔn)測(cè)試最佳實(shí)踐引入計(jì)算領(lǐng)域,從而對(duì) AI 和 HPC 平臺(tái)進(jìn)行同行評(píng)審的同類(lèi)比較,以更好地了解和比較不同工作負(fù)載的產(chǎn)品性能。
甲骨文
Oracle 云基礎(chǔ)設(shè)施 (OCI) 在我們的融合應(yīng)用程序中提供人工智能基礎(chǔ)設(shè)施、生成式人工智能、人工智能服務(wù)、機(jī)器學(xué)習(xí)服務(wù)和人工智能。我們的 AI 基礎(chǔ)設(shè)施產(chǎn)品組合包括由 NVIDIA H100、NVIDIA A100 和 NVIDIA A10 GPU 提供支持的裸機(jī)實(shí)例和虛擬機(jī)。
高端 BM.GPU.H100.8 實(shí)例的推理基準(zhǔn)測(cè)試結(jié)果表明,OCI 提供的高性能至少與本地和云基礎(chǔ)設(shè)施的其他部署相匹配。這些實(shí)例為每個(gè)節(jié)點(diǎn)提供八個(gè) NVIDIA GPU。除了推理之外,對(duì)于訓(xùn)練工作負(fù)載,每個(gè)節(jié)點(diǎn)還可以使用高性能 RDMA 網(wǎng)絡(luò)對(duì)數(shù)萬(wàn)個(gè) GPU 進(jìn)行集群。
截至 2024 年 3 月,OCI 的 BM.GPU.H100.8 實(shí)例通過(guò) OCI 上的 NVIDIA GPU 提供最高可用性能。
云達(dá)科技
廣達(dá)云科技 (QCT) 是一家支持多樣化 HPC 和 AI 工作負(fù)載的全球數(shù)據(jù)中心解決方案提供商,在 MLCommons 發(fā)布的最新 MLPerf 結(jié)果中被列入 MLPerf 推理列表。
QCT參加了最新一輪的MLPerf Inference v4.0并向數(shù)據(jù)中心封閉部門(mén)提交了結(jié)果,包括針對(duì)不同系統(tǒng)配置的穩(wěn)定擴(kuò)散和llama2的新模型。
其中一項(xiàng)展示的配置采用了 QCT 的尖端平臺(tái),即新推出的帶有 NVIDIA Grace Hopper Superchip 的 QuantaGrid S74G-2U。通過(guò) NVLink C2C 互連,CPU 和 GPU 之間的一致性內(nèi)存可以改善內(nèi)存密集型 AI 推理。QCT在數(shù)據(jù)中心類(lèi)別的多項(xiàng)AI任務(wù)中取得了出色的表現(xiàn)。
QuantaGrid D54U-3U是一款專(zhuān)為AI/HPC設(shè)計(jì)的加速服務(wù)器。該 3U 系統(tǒng)支持兩個(gè)第五代英特爾至強(qiáng)可擴(kuò)展處理器,支持四個(gè)雙寬加速卡或最多八個(gè)單寬加速卡,提供針對(duì)各種 AI/HPC 應(yīng)用進(jìn)行優(yōu)化的全面而靈活的架構(gòu)。這次,QCT 分別使用四張 NVIDIA H100 PCIe 卡和四張 NVIDIA L40S PCIe 卡驗(yàn)證了結(jié)果。
另一種配置展示了 QCT 的 QuantaGrid D54X-1U 與僅 CPU 推理場(chǎng)景中的英特爾至強(qiáng)可擴(kuò)展處理器。QCT 的僅 CPU 配置的服務(wù)器經(jīng)過(guò)驗(yàn)證,能夠在采用 Intel AMX 指令集的通用 AI 工作負(fù)載中表現(xiàn)出色。
展望未來(lái),QCT 仍致力于為學(xué)術(shù)和工業(yè)用戶提供全面的硬件系統(tǒng)、解決方案和服務(wù)。該公司將繼續(xù)與 MLCommons 社區(qū)分享其 MLPerf 結(jié)果,為 MLPerf 推理和訓(xùn)練基準(zhǔn)的進(jìn)步做出貢獻(xiàn)。
高通
高通云人工智能推理加速器利用公司在高級(jí)信號(hào)處理和能效方面的專(zhuān)業(yè)知識(shí),在數(shù)據(jù)中心和邊緣環(huán)境中提供高吞吐量、低功耗的人工智能推理處理。
在v4.0輪次中,高通推出了AI推理加速器Cloud AI 100 Ultra,并提交了“封閉預(yù)覽”模式評(píng)估。Cloud AI 100 Ultra 的早期預(yù)覽結(jié)果展示了其在低功耗下的卓越性能,其在 ML 基準(zhǔn)測(cè)試中的性能證明了這一點(diǎn)。與 Cloud AI 100 Pro 提交的內(nèi)容相比,所有 Cloud AI 100 Ultra 提交的內(nèi)容均表現(xiàn)出 2.5 至 3 倍的性能提升,同時(shí)每個(gè)加速器的功耗低于 150W。除了 NLP 和計(jì)算機(jī)視覺(jué)網(wǎng)絡(luò)之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預(yù)覽結(jié)果。
在 Cloud AI 100 中,CTuning 首次使用由 8 個(gè) Cloud AI 100 標(biāo)準(zhǔn)加速器提供支持的 Amazon EC2 DL2q 云實(shí)例提交結(jié)果,實(shí)現(xiàn)了與獨(dú)立服務(wù)器相當(dāng)?shù)男阅堋Tuning 還使用由 4 個(gè) Cloud AI 100 Pro 加速器提供支持的 Cirrascale Quad AI 100 Cloud 實(shí)例提交了 MLPerf 基準(zhǔn)測(cè)試,取得了與獨(dú)立系統(tǒng)相當(dāng)?shù)慕Y(jié)果。
高通的 MLPerf Inference v4.0 結(jié)果在所有類(lèi)別的峰值離線性能和能效方面都超越了其之前的記錄。2U 數(shù)據(jù)中心服務(wù)器平臺(tái)配備 16 個(gè) Qualcomm Cloud AI 100 Ultra 加速器(150W TDP),在預(yù)覽模式下實(shí)現(xiàn)了超過(guò) 902K ResNet50 inf/秒的令人印象深刻的吞吐量。它還創(chuàng)下了新的高能效,ResNet50 達(dá)到 275 QPS/Watt,RetinaNet 達(dá)到 5.2 QPS/Watt,BERT 達(dá)到 10.2 QPS/Watt。
高通提交的這些結(jié)果是通過(guò)使用 KRAI 的 X 和 KILT 技術(shù)實(shí)現(xiàn)的。Qualcomm 和 Snapdragon 是高通公司的商標(biāo)或注冊(cè)商標(biāo)。Qualcomm Cloud AI 和 Snapdragon 是 Qualcomm Technologies, Inc. 和/或其子公司的產(chǎn)品。
紅帽+超微
大規(guī)模 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)者 Supermicro 和全球領(lǐng)先的企業(yè)開(kāi)源解決方案提供商 Red Hat Inc 合作提交了首個(gè) Red Hat OpenShift AI MLPerf Inference v4.0。紅帽 OpenShift AI 是一個(gè)靈活、可擴(kuò)展的 MLOps 平臺(tái),提供用于構(gòu)建、部署和管理支持 AI 的應(yīng)用程序的工具。
GPU A+ 服務(wù)器,AS-4125GS-TNRT具有靈活的 GPU 支持和配置選項(xiàng):具有主動(dòng)和被動(dòng) GPU,以及最多 10 個(gè)雙寬、全長(zhǎng) GPU 的雙根或單根配置。此外,雙根配置具有直接連接 8 個(gè) GPU 的功能,無(wú)需 PLX 交換機(jī),可實(shí)現(xiàn)盡可能低的延遲并提高性能,這對(duì)于我們的客戶面臨的 AI 和 HPC 工作負(fù)載的苛刻場(chǎng)景非常有利。
紅帽 OpenShift 讓您的 AI/ML 工作負(fù)載的創(chuàng)建、調(diào)度和監(jiān)控變得更輕松、更安全。OpenShift Operators 發(fā)現(xiàn)、配置和監(jiān)控您的 GPU、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備,提供易用性、靈活性和安全性。
紅帽 OpenShift AI 是一個(gè)靈活、可擴(kuò)展的 MLOps 平臺(tái),提供用于構(gòu)建、部署和管理支持 AI 的應(yīng)用程序的工具。它使用開(kāi)源技術(shù)構(gòu)建,為團(tuán)隊(duì)提供值得信賴、操作一致的功能來(lái)進(jìn)行實(shí)驗(yàn)、服務(wù)模型和交付創(chuàng)新應(yīng)用程序。紅帽 OpenShift AI(以前稱為紅帽 OpenShift Data Science)支持本地和公共云中的 AI/ML 實(shí)驗(yàn)和模型的整個(gè)生命周期。
此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過(guò)使用自定義運(yùn)行時(shí)功能來(lái)支持 vLLM 等開(kāi)源 LLM 運(yùn)行時(shí)。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結(jié)果的結(jié)果,無(wú)需任何量化或模型編譯。
SiMa
SiMa.ai 引領(lǐng)邊緣人工智能技術(shù),在性能和能源效率方面樹(shù)立了新標(biāo)準(zhǔn)。我們很高興在這份最新的 MLPerf 基準(zhǔn)測(cè)試報(bào)告中分享我們的結(jié)果,與 2023 年 8 月提交的報(bào)告相比,我們?cè)谒蓄?lèi)別中的 FPS 提高了 7% 到 16%。
在邊緣人工智能領(lǐng)域,有限的功率和苛刻的任務(wù)不斷在功率和效率之間造成緊張,我們能夠在 FPS 方面取得巨大進(jìn)步,同時(shí)仍然提高我們之前提交的 MLPerf 3.1 中所有工作負(fù)載的 FPS/W。該指標(biāo)是我們的系統(tǒng)每消耗一瓦電量可以處理多少幀的關(guān)鍵指標(biāo)。
我們的 FPS 提升,尤其是在 SingleStream 模式下超過(guò) 16%,是 MLPerf v4.0 提交中最令人印象深刻的結(jié)果之一,因?yàn)榕?1 性能的 SingleStream 是實(shí)際應(yīng)用程序中的主要工作負(fù)載。這得益于 MLA Runtime 平臺(tái)軟件在優(yōu)化端到端模型執(zhí)行方面的顯著增強(qiáng)。我們進(jìn)步的真正力量在于將這些超越基準(zhǔn)的改進(jìn)轉(zhuǎn)化為我們客戶的現(xiàn)實(shí)利益。他們體驗(yàn)到所有模型的性能顯著增強(qiáng),在廣泛的邊緣人工智能應(yīng)用中釋放了新的價(jià)值水平。
SiMa.ai 在 MLPerf 中的參與和表現(xiàn)是更廣泛增長(zhǎng)戰(zhàn)略的一部分,我們正在為當(dāng)今和下一代更快、更強(qiáng)大的解決方案鋪平道路。我們不僅僅是進(jìn)行技術(shù)升級(jí);這是一次戰(zhàn)略飛躍,鞏固了我們?cè)谶吘壢斯ぶ悄苄阅?、效率和?chuàng)新方面的領(lǐng)導(dǎo)地位。
Supermicro
美超微在人工智能基礎(chǔ)設(shè)施解決方案方面表現(xiàn)出色,在 MLPerf Inference v4.0 競(jìng)賽中展示了卓越的表現(xiàn),在數(shù)據(jù)中心推理類(lèi)別的封閉和開(kāi)放組別中提交了參賽作品。
Supermicro 的使命是為各種工作負(fù)載提供應(yīng)用優(yōu)化的系統(tǒng)。一個(gè)突出的例子是 SYS-821GE-TNHR,這是一款專(zhuān)為 NVIDIA HGX H100 8-GPU 平臺(tái)設(shè)計(jì)的可定制解決方案。該系統(tǒng)通過(guò)我們的構(gòu)建塊方法量身定制,可滿足客戶的特定要求和工作負(fù)載需求。此外,我們現(xiàn)在為最新的基于 NVIDIA HGX 的系統(tǒng)以及基于 PCIe 的系統(tǒng)提供液體冷卻選項(xiàng),使部署能夠利用更高 TDP 的 CPU 和 GPU,而無(wú)需進(jìn)行熱節(jié)流。
我們的 GPU 服務(wù)器經(jīng)過(guò)精心設(shè)計(jì),可以有效處理大型數(shù)據(jù)集和高要求的工作負(fù)載。它們可以加快存儲(chǔ)訪問(wèn)速度、減少延遲并提高存儲(chǔ)帶寬,從而提高工作效率并加快任務(wù)完成速度。利用 NVIDIA GPU 和本地 DMA 和 RDMA 等高級(jí)訪問(wèn)方法,以及通過(guò)多個(gè) NIC 和交換機(jī)的高性能網(wǎng)絡(luò),Supermicro GPU 服務(wù)器在 AI、機(jī)器學(xué)習(xí)和 HPC 任務(wù)中表現(xiàn)出色。
SYS-521GE-TNRT服務(wù)器配備L40S GPU,通過(guò)PCIe 5.0雙根交換機(jī)支持多達(dá)10個(gè)基于PCIe的GPGPU,提供卓越的處理能力。L40S GPU 配備 48GB GDDR6 顯存,理論性能高達(dá) 91.6 TFLOP,針對(duì) AI 媒體和圖形應(yīng)用進(jìn)行了優(yōu)化,對(duì)于高性能計(jì)算任務(wù)而言具有無(wú)可比擬的價(jià)值。此外,該配置還配備雙第四代英特爾至強(qiáng)可擴(kuò)展處理器、高達(dá) 8TB 的內(nèi)存容量以及帶有 24 個(gè)熱插拔 NVMe/SATA/SAS 驅(qū)動(dòng)器托架的充足存儲(chǔ)選項(xiàng),為密集型計(jì)算任務(wù)提供可擴(kuò)展性和效率。
Supermicro 為任何環(huán)境提供各種 GPU 系統(tǒng),在多個(gè) MLPerf 基準(zhǔn)測(cè)試中始終如一地提供高性能。展望未來(lái),我們?nèi)匀恢铝τ谖⒄{(diào)我們的系統(tǒng),為客戶提供優(yōu)化的體驗(yàn)和性能。
Wiwynn
Wiwynn是一家領(lǐng)先的超大規(guī)模數(shù)據(jù)中心云 IT 基礎(chǔ)設(shè)施提供商。我們主要感興趣的領(lǐng)域包括云、人工智能、5G 和邊緣計(jì)算的進(jìn)步。特殊的是,我們?yōu)榘ㄈ斯ぶ悄茉趦?nèi)的廣泛應(yīng)用生產(chǎn)高質(zhì)量的服務(wù)器。
在最新一輪的MLPerf Inference v4.0測(cè)試中,Wiwynn提交了邊緣和數(shù)據(jù)中心兩個(gè)類(lèi)別的ES200G2基準(zhǔn)測(cè)試結(jié)果。Wiwynn ES200G2是一款2U服務(wù)器,專(zhuān)為滿足電信使用的各種需求而定制,包括邊緣應(yīng)用、用于5G服務(wù)管理的推理主機(jī)和數(shù)據(jù)中心。
在邊緣類(lèi)別中,我們對(duì)配備兩個(gè) NVIDIA L40S GPU 的 ES200G2 進(jìn)行了基準(zhǔn)測(cè)試,適用于圖像識(shí)別或其他 AI 應(yīng)用等邊緣應(yīng)用。在數(shù)據(jù)中心類(lèi)別中,我們對(duì)配備英特爾第五代至強(qiáng)處理器的ES200G2進(jìn)行了基準(zhǔn)測(cè)試,該處理器可以組成服務(wù)器池來(lái)執(zhí)行各種任務(wù)。這兩項(xiàng)結(jié)果都表明該平臺(tái)能夠運(yùn)行流行的人工智能框架并取得良好的性能。
Wiwynn的企業(yè)使命是“提供從邊緣到云的最佳 TCO、工作負(fù)載和能源優(yōu)化 IT 解決方案”。Wiwynn將繼續(xù)朝著這個(gè)目標(biāo)努力,并參與社區(qū)活動(dòng)。我們對(duì)創(chuàng)新和卓越的承諾體現(xiàn)在我們參與 MLPerf Inference v4.0 等行業(yè)基準(zhǔn)測(cè)試中,我們努力展示我們產(chǎn)品的功能并為該領(lǐng)域的進(jìn)步做出貢獻(xiàn)。
來(lái)源:半導(dǎo)體行業(yè)觀察
--End--
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。