自主造芯新突破:256TOPS算力刷新國產(chǎn)性能榜,功耗低至35W,首個存算一體智駕芯片兩年交卷
中國芯片,再添一股新勢力——
國內(nèi)首款存算一體智駕芯片,正式發(fā)布!

這款12nm芯片名叫鴻途?H30,從性能表現(xiàn)上來看,在功耗僅為35W的情況下,最高物理算力可達256TOPS。
概括來說,就是芯片性能提升了2倍以上,但功耗卻減少了超50%。
這一點,以Resnet50性能功耗為例,與國際芯片巨頭英偉達主流產(chǎn)品做對比即可一目了然。
不過有一說一,除了“國內(nèi)首款存算一體智駕芯片”之外,圍繞鴻途?H30所體現(xiàn)的“業(yè)界第一”還不僅于此。
它的問世也成為了存算一體大算力芯片在國內(nèi)的首次工程化落地。
而打造鴻途?H30背后的公司后摩智能(下文簡稱后摩),其自身也擁有著一個“業(yè)界第一”的標(biāo)簽——
國內(nèi)首家存算一體大算力AI芯片公司。
更重要的是,以上種種的成績,后摩是從自2020年底成立至今,僅僅花費2年多的時間“解鎖”。
如此速度和效能之下,也令活動現(xiàn)場掌聲不斷。
不只是一顆芯片這么簡單我們進一步再來深入了解一下這款存算一體架構(gòu)芯片。
許多了解芯片的小伙伴在看到“256TOPS”時,就會產(chǎn)生疑問:市面上不是已經(jīng)有很多能夠達到這個算力值的芯片了嗎?
我們需要注意的是,鴻途?H30亮出來的是物理算力,并非是市面上常說的稀疏虛擬算力。
這也就意味著它一舉成為了國產(chǎn)智駕芯片里物理算力最大的那一個。
更難能可貴的是,在拿下最大算力的同時,功耗正如我們剛才提到的,僅為35W。
如此看下來,芯片的能效比便是幾倍于同類的產(chǎn)品了。
除此之外,在活動現(xiàn)場,后摩對鴻途?H30更多的細節(jié)參數(shù)做了展示:
12nm工藝
支持外擴Memory,寬帶達128GB/s
支持16路FHD Encoder/Decoder
支持PCIe 4.0,x8,x4,x2,RC&EP mode
……
性能指標(biāo)方面,鴻途?H30與英偉達產(chǎn)品相比,在Resnet50 Batch=1和Batch=8上,分別達到了5.7倍和2.3倍。
計算效率方面,鴻途?H30更是拿下了11.3倍和4.6倍的成績!
那么具備如此高性能存算IP,如何能將其利用到位,便涉及到AI處理器架構(gòu)和設(shè)計的問題了。
而在活動現(xiàn)場,后摩也是將其背后的架構(gòu)設(shè)計毫無保留地展示了出來——IPU(Intelligence Processing Unit)。
從整體來看,后摩在架構(gòu)設(shè)計上的規(guī)劃采用了“三步走”的策略。
首先便是第一代IPU天樞架構(gòu),這是專門為自動駕駛所打造的IPU,而剛才我們提到的鴻途?H30正是基于此。
談到這個架構(gòu)是如何設(shè)計出來的,就不得不先提一下以往芯片的設(shè)計架構(gòu)。
例如特斯拉FSD的集中式計算,就是非常典型的通過堆積大量計算資源來提高性能。
它就像是一個四合院,院子里啥都有,主人們在院子里可以盡情溝通交流,但問題也非常明顯,就是四合院的面積就只有那么大,居住者數(shù)量就是有限的。
后來也有人提出了分布式計算的方法,把算力很大的核拆分成若干個小核;這些小核可以獨立完成小任務(wù),也可以共同完成大任務(wù)。
這種方式像是現(xiàn)代高層公寓,每層樓都有獨立的基礎(chǔ)生活功能,也可以方便復(fù)制和擴展;但問題是每層樓之間的溝通比較困難。
因此,后摩智能的天樞架構(gòu)所采用的便是二合一的思路——結(jié)合古典中式建筑和現(xiàn)代高層建筑。
簡單來說,每個芯片都包含4個IPU核;每個IPU核又有4個Tile;而每個Tile內(nèi)部還有CPU、張量引擎、特殊功能單元、矢量處理器和多通道DMA等。
這樣的架構(gòu)使得AI計算不但不用在多個處理器(例如CPU,GPU,DSP)之間分配任務(wù),甚至不用出AI核,就可以高效的完成全部端到端的計算。
這種架構(gòu)還可以說是像一個綜合辦事大樓,走進去,一站式完成各種業(yè)務(wù),大幅提高了效率。
總結(jié)來說,天樞架構(gòu)的特點之一就是多核/多硬件線程實現(xiàn)計算效率與算力靈活擴展的平衡。
除此之外,它還可以擺脫系統(tǒng)總線的桎梏,其雙環(huán)拓撲專用總線可以實現(xiàn)靈活的數(shù)據(jù)直傳。
就像在多層空中四合院之間,建了個直接入戶的電梯,可以快速做到傳輸。
至于后摩在未來要進一步研發(fā)的天璇架構(gòu)和天璣架構(gòu),則將聚焦在擴大模型應(yīng)用邊界和通用人工智能。
在現(xiàn)場,后摩也展示了搭載鴻途?H30后無人小車上路的實測。
但如果你覺得后摩僅僅是拿出來了一塊芯片,那就有點too simple了些。
在如此短促的研發(fā)時間里,它還一口氣發(fā)布了力馭?域控制器和后摩大道?軟件平臺。
力馭是后摩面向智能駕駛市場的大算力域控制器產(chǎn)品,據(jù)悉,只需要搭載單顆鴻途?H30,便可以滿足智能駕駛多種傳感器、從L2到L4所有AI計算的需求。
最后,還有一個后摩大道?軟件平臺,是為鴻途?H30芯片產(chǎn)品開發(fā)的AI軟件開發(fā)平臺。
它的作用便是可以讓客戶在使用后摩存算一體架構(gòu)產(chǎn)品時,能夠?qū)㈤_發(fā)、調(diào)試和部署應(yīng)用的效率大幅提高。
△注:后摩智能BEV模型實測以上便是后摩第一次正式亮相所給出的主要“作業(yè)”了。
通過各種數(shù)據(jù)和效果的對比展示,其在大算力國產(chǎn)智駕芯片的實力可見一斑。
但更令人驚嘆的,還應(yīng)當(dāng)屬“后摩速度”——一切都在2年多時間完成。
如何在2年時間“煉”成的?不同于美國創(chuàng)業(yè)公司從車庫、大學(xué)宿舍開始的那般浪漫與理想,后摩的創(chuàng)業(yè)起點非常出乎人們的意料——沙縣小吃。
沒錯,正是在這種享受餛飩與熱湯之際,幾個人一拍即合,決定創(chuàng)業(yè)搞AI芯片。
不過賽道鎖定在芯片,除了大環(huán)境的因素之外,也與小伙伴們每個人都向往“萬物智能”的生活相關(guān)。
例如有人家住得特別遠,若是自動駕駛成熟了,便可以邊通勤邊辦公;還有人非常顧家,希望有個機器人把家務(wù)全包了……
那么問題來了,到底什么樣的芯片才能做到無處不在、讓萬物實現(xiàn)智能?
極致的效率,毋庸置疑是非常關(guān)鍵的因素之一。
然而當(dāng)時后摩的初創(chuàng)團隊從科技發(fā)展歷史看清的一個事實是,每1000倍的效率提升將造就一個計算時代。
若是想要達到他們理想的萬物智能世界,那么算力起碼也得是現(xiàn)今芯片計算效能的1000倍。
加之摩爾定律的逐步失效,他們便將目光聚焦到了另一種打法——換架構(gòu),搞存算一體。
團隊堅定認為,這就是后摩爾時代下的破局之道:
算力得大,功耗要低,面積要小,成本還得廉。
以至于CEO吳強在現(xiàn)場這般回憶道:
我們太喜歡這個方向了,連公司名字都是從這而來——后摩智能。
(雖然也有人會打電話問是不是做摩托車的……)
不過講真,存算一體這個技術(shù)在兩三年前并沒有像現(xiàn)在這般火爆。
可以說后摩成為了最早一批嘗到紅利的公司,也順理成章地使其成了國內(nèi)第一個搞存算一體大算力AI芯片的公司。
而之所以會將第一個落地場景放到自動駕駛,用吳強的話來說就是,“自動駕駛是萬物智能美好生活的重要組成部分,人們幾乎在花1/8清醒時間在開車”。
并且自動駕駛作為“集AI技術(shù)大成者”的領(lǐng)域,能啃下這塊硬骨頭,那么再拓展到其它領(lǐng)域也就會輕松很多。
賽道、方向、技術(shù),在創(chuàng)業(yè)初期三大最重要的關(guān)鍵因素定下來之后,接下來就是進入更煎熬的研發(fā)階段了。
雖說是煎熬階段,但有一說一,對于后摩團隊來說,或許都已經(jīng)是駕輕就熟的事情,因為公司聚集了一幫芯片“老手”。
例如創(chuàng)始人吳強,博士畢業(yè)于普林斯頓大學(xué)計算機博士學(xué)位,研究方向正是高能效比計算芯片及編譯器。
畢業(yè)之后,他還先后工作于Intel、AMD、Facebook等國外知名企業(yè);值得一提的是,在AMD期間曾擔(dān)任GPGPU/OpenCL創(chuàng)始團隊核心成員。
吳強不僅擁有國外的工作經(jīng)驗,在2017年回國之后,也是在國內(nèi)AI知名獨角獸企業(yè)擔(dān)任技術(shù)副總裁和CTO等職務(wù)。
在學(xué)術(shù)方面,吳強曾獲第38屆計算機體系架構(gòu)頂會MICRO-38 唯一的一個最佳論文獎;科研成果被美國業(yè)內(nèi)雜志IEEE Micro 評選為年度最有影響的12 個科技成果之一。
△后摩智能創(chuàng)始人兼CEO,吳強再如后摩智能聯(lián)合創(chuàng)始人、芯片研發(fā)副總裁陳亮,本碩博畢業(yè)于清華大學(xué),曾任海思CPU芯片資深架構(gòu)師、地平線AI芯片首席架構(gòu)師。
在做產(chǎn)品上,后摩聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭,具有15年以上計算芯片產(chǎn)品、市場和銷售經(jīng)驗,曾任海思計算芯片產(chǎn)品總監(jiān)。
△左:陳亮;右:信曉旭而從后摩整體研發(fā)團隊構(gòu)成來看,碩、博士占比70%以上;核心成員均主導(dǎo)過多顆世界級芯片的設(shè)計量產(chǎn),類別涵蓋GPU、CPU、高性能車規(guī)級AI芯片等。
更重要的是,用吳強自己的話來說,后摩的研發(fā)團隊人員都是非常純粹的人,肯吃苦、夠努力。
如此來看,也就不難理解為什么能夠在2年多的時間里,將存算一體芯片從0到1開花結(jié)果了。
芯片的“后摩時刻”已至雖然芯片產(chǎn)品已經(jīng)發(fā)布、量產(chǎn),但最后我們還需要對一個問題做深入的探討——存算一體,是否真的是正確的方向。
要回答這個問題,我們還需先得知道芯片算力的發(fā)展出了什么問題。
無論是計算機、手機,還是智能手環(huán)等產(chǎn)品,它們內(nèi)部程序運行機制都繞不開一個著名的計算體系,馮·諾依曼體系結(jié)構(gòu)。
它的一個特點,就是計算和存儲是分離的。
若是通俗一點理解,我們可以將這個過程視為在廚房炒菜:
存儲器:相當(dāng)于廚房里的冰箱;
數(shù)據(jù):相當(dāng)于冰箱里的菜;
計算器:相當(dāng)于洗菜、切菜和炒菜。
那么要完成一道菜,就需要先從冰箱里把菜取出來,再去廚房里洗、切、炒。
那么問題來了,這些菜需要在存儲器和計算器之間瘋狂地做搬運工作,這就無形之間產(chǎn)生了巨大的時間開銷,
若是對于較低的計算量來說,馮·諾依曼體系結(jié)構(gòu)尚且還可處理,但誰能想到,在信息數(shù)據(jù)量爆炸的當(dāng)下,人們對算力的需求會變得如此之大。
舉個例子,若是用全卷積網(wǎng)絡(luò)處理一張分辨率為224x224大約5萬像素的圖片,需要的計算量為5x109次的計算。
這個任務(wù)若是放在一個CPU核心上處理,需要足足3秒鐘的時間,慢,著實太慢!
單單是這么簡單的任務(wù)尚是如此,近年來隨著AIGC熱潮的到來,大模型成為了產(chǎn)學(xué)界的香餑餑,而動輒需要對上千億參數(shù)做訓(xùn)練推理,需要的算力之大可見一斑。
即便現(xiàn)代很多芯片開始設(shè)計更復(fù)雜的多級存儲結(jié)構(gòu),例如把SRAM(靜態(tài)隨機存儲器)作為距離計算單元最近的緩存,保證最高的讀寫速度,但容量還是非常的有限。
例如在下圖英偉達GA102 GPU中,藍色方塊區(qū)域便是緩存區(qū)域,即便看上去占了不少空間,但其實容量也就6MB而已。
這在當(dāng)今主流AI任務(wù)面前,簡直是大巫見小巫了。
這,就是當(dāng)下算力發(fā)展所遇到的致命瓶頸。
而且就過去二十年的發(fā)展來看,處理器性能以每年大約55%的速度提升,但內(nèi)存性能的提升速度每年只有10%左右。
存儲速度長期滯后于計算速度,因此就導(dǎo)致了芯片性能難以滿足AI需求的情況。
不僅如此,近年來“摩爾定律即將失效”的聲音也是此起彼伏,很多人認為傳統(tǒng)的芯片無法再勝任新的大算力任務(wù)了。
雖然業(yè)界在后來提出了GPU、多核CPU等解決方案,但依舊是無法繞開馮·諾依曼體系結(jié)構(gòu)最為致命的瓶頸問題。
在如此情況之下,業(yè)界便提出了更為大膽的想法——干脆把冰箱和廚房搞到一起,讓取菜、洗菜、切菜和炒菜都在一個空間里完成——即,存算一體。
對應(yīng)到芯片設(shè)計,就意味著把分開的計算單元和SRAM單元重新設(shè)計,把乘加單元打散并插入到SRAM陣列當(dāng)中,以此形成新的存算單元。
如此一來,每個存算單元既保留了SRAM本身的規(guī)則性,便于高速讀寫;又擴充了并行計算功能,實現(xiàn)高能效計算。
以后摩發(fā)布的鴻途?H30為例,在存算一體架構(gòu)之下,便可以在每秒計算超過4x1012次。
和其它AI芯片相比,后摩存算一體的宏單元在同樣能耗下提供的算力,可以直接飆升10倍!
但其實存算一體技術(shù)早在2011年就引起學(xué)術(shù)界關(guān)注,而后在2016-2017年成為學(xué)術(shù)界熱議的話題。
到2019年逐漸開始受到工業(yè)界和資本的關(guān)注,彼時大家的討論主要集中在這項技術(shù)的可靠性上。
從2020年開始,越來越多的玩家進入這個市場,并且大公司都開始在存內(nèi)計算上發(fā)力,此時的存內(nèi)計算已成為產(chǎn)業(yè)界“不得不跟進”的技術(shù)之一,大家的討論聚焦在存內(nèi)計算未來的市場空間上。
再從市場規(guī)模角度來看,量子位在《存算一體芯片深度產(chǎn)業(yè)報告》中曾經(jīng)預(yù)測:
2030年,基于存算一體技術(shù)的大算力芯片市場規(guī)模約為67億人民幣。
由此可見,不論是從技術(shù)亦或是市場的發(fā)展和預(yù)測來看,存算一體確實是解決算力瓶頸的一大利器。
而作為率先入局的后摩智能,也給出了自己的觀點:
存算一體的價值在于,它是一種比傳統(tǒng)架構(gòu)更接近人腦的計算方式,能達到遠超傳統(tǒng)方式的高計算效率,和智能駕駛終局的需求天然吻合。
2023年,會是存算一體商業(yè)落地的元年。
至此,對于芯片算力的瓶頸,后摩智能已經(jīng)給出了自己的一套打法,并且已經(jīng)交出了一份高分作業(yè)。
站在現(xiàn)今后摩爾時代的當(dāng)下,或許芯片的“后摩時刻”已經(jīng)到來。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。