国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

新聞中心

EEPW首頁 > 智能計算 > 市場分析 > 3nm賽道,擠滿了ASIC芯片

3nm賽道,擠滿了ASIC芯片

作者: 時間:2025-03-13 來源:半導體產(chǎn)業(yè)縱橫 收藏

最近,市場關注的兩家 ASIC 企業(yè)都發(fā)布了自家的財報。

本文引用地址:http://m.ptau.cn/article/202503/468044.htm

博通 2025 財年第一季度財報顯示,營收 149.16 億美元,同比增長 25%,凈利潤 55.03 億美元,同比增長 315%。其中,第一季度與 AI 有關的收入同比增長 77% 至 41 億美元。

Marvell 預計第一財季銷售額約為 18.8 億美元,同比增長 27%。其中,AI 業(yè)務收入達 7 億美元左右,主要是亞馬遜等客戶定制 ASIC 等產(chǎn)品需求增長的帶動。

ASIC,越發(fā)豐富

今年以來,大模型的更迭越發(fā)的激烈。DeepSeek 研究團隊再放大招,公開 NSA 算法。同日,馬斯克發(fā)布 Grok 3 模型,號稱拳打 DeepSeek 腳踢 OpenAI。

DeepSeep 之風正盛,將全球科技產(chǎn)業(yè)的重心從訓練推向推理階段。由于 DeepSeek 是 MOE 模型,能夠?qū)崿F(xiàn)更低的激活比。算力、內(nèi)存、互聯(lián)原有平衡發(fā)生劇變,新算力架構機會再次進入同一起跑線。

這種條件下,定制化芯片 ASIC 似乎越來越適合 AI 時代。

ASIC 芯片的主要根據(jù)運算類型分為了 TPU、DPU 和 NPU 芯片,分別對應了不同的基礎計算功能,也有不同的優(yōu)勢。

TPU

先來看 TPU。TPU 的核心是矩陣乘法單元,它采用脈動陣列架構,這意味著數(shù)據(jù)以類似心臟跳動的方式在芯片內(nèi)流動。這種架構允許高度并行的乘法和加法操作,使得 TPU 能夠在每個時鐘周期內(nèi)處理大量的矩陣運算。

如果把 TPU 比作一個工廠,這個工廠的任務是把兩堆數(shù)字(矩陣)相乘。每個工人(脈動陣列的小格子)只需要做簡單的乘法和加法,然后把結果傳給下一個工人。這樣,整個工廠就能高效地完成任務,而且速度比普通的工廠(比如 CPU 或 GPU)快很多。

TPU 的優(yōu)勢是能夠高效處理大規(guī)模矩陣運算,支持神經(jīng)網(wǎng)絡的訓練和推理任務。所以,更加適合用在數(shù)據(jù)中心的 AI 訓練和推理任務,如自然語言處理、計算機視覺和語音識別。

DPU

其次來看 DPU。DPU 能夠處理大量的網(wǎng)絡數(shù)據(jù)包,包括接收、分類、轉(zhuǎn)發(fā)和過濾等。它通過硬件加速引擎(如網(wǎng)絡處理引擎)來加速網(wǎng)絡操作,減少 CPU 在網(wǎng)絡處理上的負載。

DPU 就像是一個快遞中心,它負責接收包裹(數(shù)據(jù)),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長處理特定的任務,比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU 就能讓整個快遞系統(tǒng)(數(shù)據(jù)中心)運行得更高效。

DPU 的優(yōu)勢是可以卸載 CPU 的部分任務,減少 CPU 的負擔。優(yōu)化了數(shù)據(jù)傳輸路徑,從而提高系統(tǒng)的整體效率。所以,它的應用場景是數(shù)據(jù)中心的網(wǎng)絡加速、存儲管理、安全處理等。

NPU

再來看 NPU。NPU 是專門為神經(jīng)網(wǎng)絡計算設計的芯片,采用「數(shù)據(jù)驅(qū)動并行計算」的架構。它能夠高效執(zhí)行大規(guī)模矩陣運算,特別是卷積神經(jīng)網(wǎng)絡(CNN)中的卷積操作。

如果把 NPU 比作一個廚房,這個廚房有很多廚師(計算單元),每個廚師都能同時做自己的菜(處理數(shù)據(jù))。比如,一個廚師負責切菜,一個廚師負責炒菜,另一個廚師負責擺盤。這樣,整個廚房就能同時處理很多道菜,效率非常高。NPU 就是這樣,通過并行處理,讓神經(jīng)網(wǎng)絡的計算變得更快。

NPU 的優(yōu)勢就是執(zhí)行 AI 任務時功耗較低,適合邊緣設備。并且,專為神經(jīng)網(wǎng)絡設計,適合處理深度學習任務。所以,NPU 的應用場景是人臉識別、語音識別、自動駕駛、智能相機等需要進行深度學習任務的領域。

簡而言之,TPU 適合深度學習、DPU 適合數(shù)據(jù)中心的數(shù)據(jù)管理、NPU 通過并行計算快速完成神經(jīng)網(wǎng)絡任務,適合各種 AI 應用。

最近,還出現(xiàn)了 LPU,一種專門為處理語言任務而設計的芯片。它的推出就是專門針對語言處理優(yōu)化的架構和指令集,能夠更高效地處理文本、語音等數(shù)據(jù),從而加速大語言模型的訓練和推理過程。

摩根士丹利預測 AI ASIC 的總可用市場將從 2024 年的 120 億美元增長到 2027 年的 300 億美元,期間英偉達的 AI GPU 存在強烈的競爭。

現(xiàn)在,在 ASIC 賽道上的玩家,已經(jīng)越來越多。

擁擠的 ASIC 賽道

3nm ASIC 芯片的賽道上擠滿了大廠。

亞馬遜一直在致力于自研芯片以降低數(shù)據(jù)中心成本。

2022 年,AWS 發(fā)布了 Trainium 1 和 Inferentia 2 芯片。當時,Trainium1 在訓練方面表現(xiàn)不是很好,更加適合 AI 推理工作。

之后,AWS 又發(fā)布了當前的 Trainium 2,采用 5nm 工藝。單個 Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 實例的能效比同類 GPU 實例高出 25%,Trn2 UltraServer 的能效比 Trn1 實例高三倍。

去年 12 月,亞馬遜宣布要推出全新 Trainium3,采用的是 3nm 工藝。與上代 Trainium2 相比,計算能力增加 2 倍,能源效率提升 40%,預計 2025 年底問世。

據(jù)了解,在 AWS 的 3nm Trainium 項目中,世芯電子(Alchip)和 Marvell 展開了激烈的競爭。

世芯電子(Alchip)是第一家宣布其 3nm 設計和生產(chǎn)生態(tài)系統(tǒng)準備就緒的 ASIC 公司,支持臺積電的 N3E 工藝。Marvell 則在 Trainium 2 項目中已經(jīng)取得了顯著進展,并有望繼續(xù)參與 Trainium 3 的設計。

當前的競爭焦點在于:后端設計服務和 CoWoS 產(chǎn)能分配上??凑l能夠在 Trainium 項目爭取到更多的份額。

之前我們提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片從 v1 到最新的 Trillium TPU。TPU 為 Gemini 2.0 的訓練和推理提供了 100% 的支持。據(jù)谷歌這邊說,Trillium 的早期客戶 AI21 Labs 認為是有顯著改進的。AI21 Labs 首席技術官 Barak Lenz 表示:「Trillium 在規(guī)模、速度和成本效益方面的進步非常顯著?!宫F(xiàn)在谷歌的 TPU v7 正在開發(fā)階段,同樣采用的是 3nm 工藝,預計量產(chǎn)時間是在 2026 年。

據(jù)產(chǎn)業(yè)鏈相關人士透露,谷歌 TPU 芯片去年的生產(chǎn)量已經(jīng)達到 280 萬到 300 萬片之間,成為全球第三大數(shù)據(jù)中心芯片設計廠商。

從合作對象來說,谷歌和博通始終是在深度合作的。谷歌從 TPU v1 開始,就和博通達成了深度合作,它與博通共同設計了迄今為止已公布的所有 TPU,而博通在這方面的營收也因谷歌水漲船高。

微軟在 ASIC 方面也在發(fā)力。Maia 200是微軟為數(shù)據(jù)中心和 AI 任務定制的高性能加速器,同樣采用 3nm 工藝,預計在 2026 年進入量產(chǎn)階段,至于現(xiàn)在 Maia 100,也是專為在 Azure 中的大規(guī)模 AI 工作負載而設計。支持大規(guī)模并行計算,特別適合自然語言處理(NLP)和生成式 AI 任務。從現(xiàn)在的信息來看,這款產(chǎn)品微軟選擇和 Marvell 合作。

LPU 與 GPU 對比

LPU 與 GPU 對比

早在今年 1 月就有消息傳出,美國推理芯片公司Groq 已經(jīng)在自己的 LPU 芯片上實機運行 DeepSeek,效率比最新的 H100 快上一個量級,達到每秒 24000token。值得關注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯達曼構建了中東地區(qū)最大的推理集群,該集群包括了 19000 個 Groq LPU。

Open AI首款 AI ASIC 芯片即將完成,會在未來幾個月內(nèi)完成其首款內(nèi)部芯片的設計,并計劃送往臺積電進行制造,以完成流片(taping out)。最新消息是,OpenAI 會在 2026 年實現(xiàn)在臺積電實現(xiàn)量產(chǎn)的目標。

ASIC 真的劃算嗎?

谷歌、AWS、Open AI 都在加大對自研 ASIC 的投入。那么,ASIC 真的劃算嗎?

先從性能上來看,ASIC 是為特定任務定制的芯片,其核心優(yōu)勢在于高性能和低功耗。在同等預算下,AWS 的 Trainium 2 可以比英偉達的 H100 GPU 更快速完成推理任務,且性價比提高了 30%~40%。Trainium3 計劃于 2025 年下半年推出,計算性能提高 2 倍,能效提高 40%。

并且,GPU 由于架構的特性,一般會在 AI 計算中保留圖形渲染、視頻編解碼等功能模塊,但在 AI 計算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達 H100 GPU 上有大約 15% 的晶體管是未在 AI 計算過程中被使用的。

從成本上來看,ASIC 在大規(guī)模量產(chǎn)時,單位成本顯著低于 GPU。ASIC 在規(guī)模量產(chǎn)的情況下可以降至 GPU 的三分之一。但一次性工程費用 NRE(Non-Recurring Engineering)非常高。

以定制一款采用 5nm 制程的 ASIC 為例,NRE 費用可以高達 1 億至 2 億美元。然而一旦能夠大規(guī)模出貨,NRE 費用就可以很大程度上被攤薄。

此前有業(yè)內(nèi)人士分析,中等復雜程度的 ASIC 盈虧平衡點在 10 萬片左右,這對于很多廠商來說已經(jīng)是遙不可及。

但對于大規(guī)模部署的云計算大廠或 AI 應用提供商,ASIC 的定制化優(yōu)勢能夠顯著降低運營成本,從而更快地實現(xiàn)盈利。

算力走向推理,ASIC 的需求只多不少

在溫哥華 NeurIPS 大會上,OpenAI 聯(lián)合創(chuàng)始人兼前首席科學家 Ilya Sutskever 曾作出「AI 預訓練時代將終結」的判斷。

巴克萊的一份報告預計,AI 推理計算需求將快速提升,預計其將占通用人工智能總計算需求的 70% 以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的 4.5 倍。

英偉達 GPU 目前在推理市場中市占率約 80%,但隨著大型科技公司定制化 ASIC 芯片不斷涌現(xiàn),這一比例有望在 2028 年下降至 50% 左右。

不過,在博通的觀察中,AI 訓練仍然是會占據(jù)主流。博通 CEO 陳福陽最近表示:「公司把推理作為一個獨立的產(chǎn)品線,推理與訓練芯片的架構非常不同。公司預計三個客戶未來需求市場總量將達 600 億~900 億美元,這個需求總量既包含了訓練,又包含了推理,但其中訓練的部分更大?!?/p>

對于第二季度來講,博通對于 ASIC 的預期仍舊保持樂觀。預計第二季度博通的 AI 半導體收入將繼續(xù)保持強勁增長勢頭,達到 44 億美元。

Marvell 在電話會議上,同樣也展示了對于 ASIC 的信心。透露其定制的ARM CPU,將在客戶的數(shù)據(jù)中心中得到更廣泛的應用。并且定制的人工智能 XPU,其表現(xiàn)也非常出色,未來將有大量的量產(chǎn)。



關鍵詞: ASIC芯片

評論


技術專區(qū)

關閉