清華AI芯片報告:人才技術(shù)趨勢都在這里
深鑒科技。深鑒科技成立于 2016 年,總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習(xí)硬件研究者創(chuàng)立。深鑒科技于 2018 年 7 月被賽靈思收購。深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。到目前為止,深鑒公開發(fā)布了兩款 DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),其中,亞里士多德架構(gòu)是針對卷積神經(jīng)網(wǎng)絡(luò) CNN 而設(shè)計;笛卡爾架構(gòu)專為處理 DNN/RNN 網(wǎng)絡(luò)而設(shè)計,可對經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進(jìn)行極致高效的硬件加速。相對于 Intel XeonCPU 與 Nvidia TitanX GPU,應(yīng)用笛卡爾架構(gòu)的處理器在計算速度上分別提高 189 倍與 13 倍,具有 24,000 倍與 3,000 倍的更高能效。
本文引用地址:http://m.ptau.cn/article/201811/394833.htm靈汐科技。靈汐科技于 2018 年 1 月在北京成立,聯(lián)合創(chuàng)始人包括清華大學(xué)的世界頂尖類腦計算研究者。公司致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic) 開發(fā), 特點(diǎn)在于既能夠高效支撐現(xiàn)有流行的機(jī)器學(xué)習(xí)算法(包括 CNN, MLP, LSTM 等網(wǎng)絡(luò)架構(gòu)),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法; 使芯片具有高計算力、高多任務(wù)并行度和較低功耗等優(yōu)點(diǎn)。 軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺直接進(jìn)行神經(jīng)網(wǎng)絡(luò)的映射編譯,開發(fā)友善的用戶交互界面。 Tianjic 可用于云端計算和終端應(yīng)用場景,助力人工智能的落地和推廣。
啟英泰倫。啟英泰倫于2015年 11月在成都成立,是一家語音識別芯片研發(fā)商。啟英泰倫的 CI1006是基于 ASIC 架構(gòu)的人工智能語音識別芯片,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元,能夠完美支持 DNN 運(yùn)算架構(gòu),進(jìn)行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學(xué)習(xí)語音技術(shù)對大量數(shù)據(jù)的處理效率。
百度。百度 2017 年 8 月 Hot Chips 大會上發(fā)布了 XPU,這是一款 256 核、基于 FPGA 的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。 XPU 采用新一代 AI 處理架構(gòu),擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對百度的深度學(xué)習(xí)平臺 PaddlePaddle 做了高度的優(yōu)化和加速。據(jù)介紹, XPU 關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似 CPU 的靈活性。
華為。麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò)處理器 NPU 采用了寒武紀(jì) IP,如圖 12 所示。麒麟 970 采用了 TSMC 10nm 工藝制程,擁有 55 億個晶體管,功耗相比上一代芯片降低 20%。 CPU 架構(gòu)方面為 4 核 A73+4 核 A53 組成 8 核心,能耗同比上一代芯片得到 20%的提升; GPU 方面采用了 12 核 Mali G72 MP12GPU,在圖形處理以及能效兩項關(guān)鍵指標(biāo)方面分別提升 20%和50%; NPU 采用 HiAI移動計算架構(gòu),在 FP16 下提供的運(yùn)算性能可以達(dá)到 1.92 TFLOPs,相比四個 Cortex-A73 核心,處理同樣的 AI 任務(wù),有大約具備 50 倍能效和 25 倍性能優(yōu)勢。
英偉達(dá)(Nvidia)。英偉達(dá)創(chuàng)立于 1993 年,總部位于美國加利福尼亞州圣克拉拉市。 早在 1999 年, 英偉達(dá)發(fā)明了 GPU,重新定義了現(xiàn)代計算機(jī)圖形技術(shù),徹底改變了并行計算。深度學(xué)習(xí)對計算速度有非常苛刻的要求, 而英偉達(dá)的 GPU 芯片可以讓大量處理器并行運(yùn)算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從 Google Brain 采用 1.6 萬個 GPU 核訓(xùn)練 DNN 模型, 并在語音和圖像識別等領(lǐng)域獲得巨大成功以來, 英偉達(dá)已成為 AI 芯片市場中無可爭議的領(lǐng)導(dǎo)者。
AMD。美國 AMD 半導(dǎo)體公司專門為計算機(jī)、 通信和消費(fèi)電子行業(yè)設(shè)計和制造各種創(chuàng)新的微處理器(CPU、 GPU、 APU、 主板芯片組、 電視卡芯片等),以及提供閃存和低功率處理器解決方案, 公司成立于 1969 年。 AMD 致力為技術(shù)用戶——從企業(yè)、 政府機(jī)構(gòu)到個人消費(fèi)者——提供基于標(biāo)準(zhǔn)的、 以客戶為中心的解決方案。
2017 年 12 月 Intel 和 AMD 宣布將聯(lián)手推出一款結(jié)合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。 目前 AMD 擁有針對 AI 和機(jī)器學(xué)習(xí)的高性能 Radeon Instinc 加速卡,開放式軟件平臺 ROCm 等。
Google。Google 在 2016 年宣布獨(dú)立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。 TPU 是專門為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計的專用芯片。通過降低芯片的計算精度,減少實(shí)現(xiàn)每個計算操作所需晶體管數(shù)量的方式,讓芯片的每秒運(yùn)行的操作個數(shù)更高,這樣經(jīng)過精細(xì)調(diào)優(yōu)的機(jī)器學(xué)習(xí)模型就能在芯片上運(yùn)行得更快,進(jìn)而更快地讓用戶得到更智能的結(jié)果。 在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗,就是采用了谷歌的 TPU 系列芯片。
Google I/O-2018 開發(fā)者大會期間,正式發(fā)布了第三代人工智能學(xué)習(xí)專用處理器 TPU 3.0。TPU3.0 采用 8 位低精度計算以節(jié)省晶體管數(shù)量, 對精度影響很小但可以大幅節(jié)約功耗、加快速度,同時還有脈動陣列設(shè)計,優(yōu)化矩陣乘法與卷積運(yùn)算, 并使用更大的片上內(nèi)存,減少對系統(tǒng)內(nèi)存的依賴。 速度能加快到最高 100PFlops(每秒 1000 萬億次浮點(diǎn)計算)。
高通。在智能手機(jī)芯片市場占據(jù)絕對優(yōu)勢的高通公司,也在人工智能芯片方面積極布局。據(jù)高通提供的資料顯示,其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)” 的云知聲。而早在 2015 年 CES 上,高通就已推出了一款搭載驍龍 SoC 的飛行機(jī)器人——Snapdragon Cargo。高通認(rèn)為在工業(yè)、農(nóng)業(yè)的監(jiān)測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發(fā)揮其在計算機(jī)視覺領(lǐng)域的能力。此外,高通的驍龍 820 芯片也被應(yīng)用于 VR頭盔中。事實(shí)上,高通已經(jīng)在研發(fā)可以在本地完成深度學(xué)習(xí)的移動端設(shè)備芯片。
Nervana Systems。Nervana 創(chuàng)立于 2014 年, 公司推出的 The Nervana Engine 是一個為深度學(xué)習(xí)專門定制和優(yōu)化的 ASIC 芯片。這個方案的實(shí)現(xiàn)得益于一項叫做 High Bandwidth Memory 的新型內(nèi)存技術(shù), 這項技術(shù)同時擁有高容量和高速度,提供 32GB 的片上儲存和 8TB 每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務(wù)“in the cloud” ,他們聲稱這是世界上最快的且目前已被金融服務(wù)機(jī)構(gòu)、醫(yī)療保健提供者和政府機(jī)構(gòu)所使用的服務(wù)。 他們的新型芯片將會保證 Nervana 云平臺在未來的幾年內(nèi)仍保持最快的速度。
Movidius(被 Intel 收購)。2016 年 9 月, Intel 發(fā)表聲明收購了 Movidius。 Movidius 專注于研發(fā)高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以 DSP 架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。
該芯片已被大量應(yīng)用在 Google 3D 項目的 Tango 手機(jī)、大疆無人機(jī)、 FLIR 智能紅外攝像機(jī)、??瞪铐盗袛z像機(jī)、華睿智能工業(yè)相機(jī)等產(chǎn)品中。
IBM。IBM 很早以前就發(fā)布過 watson,投入了很多的實(shí)際應(yīng)用。除此之外,還啟動了類腦芯片的研發(fā), 即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項目 SyNapse 的最新成果。 SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而 SyNapse 正好是突觸的意思),其終極目標(biāo)是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計算機(jī)體系結(jié)構(gòu)。
ARM。ARM 推出全新芯片架構(gòu) DynamIQ,通過這項技術(shù), AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍。
ARM的新CPU架構(gòu)將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為 AI 算法設(shè)計的處理器。芯片廠商將可以為新處理器配置最多 8 個核心。同時為了能讓主流 AI 在自己的處理器上更好地運(yùn)行, ARM 還將推出一系列軟件庫。
CEVA。CEVA 是專注于 DSP 的 IP 供應(yīng)商,擁有眾多的產(chǎn)品線。其中,圖像和計算機(jī)視覺 DSP產(chǎn)品 CEVA-XM4是第一個支持深度學(xué)習(xí)的可編程 DSP,而其發(fā)布的新一代型號 CEVA-XM6,具有更優(yōu)的性能、更強(qiáng)大的計算能力以及更低的能耗。CEVA 指出,智能手機(jī)、汽車、安全和商業(yè)應(yīng)用,如無人機(jī)、自動化將是其業(yè)務(wù)開展的主要目標(biāo)。
MIT/Eyeriss。Eyeriss 事實(shí)上是 MIT 的一個項目,還不是一個公司, 從長遠(yuǎn)來看,如果進(jìn)展順利,很可能孵化出一個新的公司。Eyeriss 是一個高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建 168 個核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般 GPU 的 10 倍。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運(yùn)作過程通常會消耗大量的時間與能量):一般 GPU 內(nèi)的核心通常共享單一記憶體,但 Eyeriss 的每個核心擁有屬于自己的記憶體。
目前, Eyeriss 主要定位在人臉識別和語音識別,可應(yīng)用在智能手機(jī)、穿戴式設(shè)備、機(jī)器人、自動駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。
蘋果。在 iPhone 8 和 iPhone X 的發(fā)布會上,蘋果明確表示其中所使用的 A11 處理器集成了一個專用于機(jī)器學(xué)習(xí)的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine) ”, 每秒運(yùn)算次數(shù)最高可達(dá)6000 億次。這塊芯片將能夠改進(jìn)蘋果設(shè)備在處理需要人工智能的任務(wù)時的表現(xiàn),比如面部識別和語音識別等。
三星。2017 年,華為海思推出了麒麟 970 芯片,據(jù)知情人士透露,為了對標(biāo)華為,三星已經(jīng)研發(fā)了許多種類的人工智能芯片。 三星計劃在未來三年內(nèi)新上市的智能手機(jī)中都采用人工智能芯片,并且他們還將為人工智能設(shè)備建立新的組件業(yè)務(wù)。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。
3、技術(shù)趨勢
目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加計算) 加速陣列來實(shí)現(xiàn)對 CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運(yùn)算的加速。這一代 AI 芯片主要有如下 3 個方面的問題。
(1)深度學(xué)習(xí)計算所需數(shù)據(jù)量巨大,造成內(nèi)存帶寬成為整個系統(tǒng)的瓶頸,即所謂“memory wall” 問題。
(2)與第一個問題相關(guān), 內(nèi)存大量訪問和 MAC陣列的大量運(yùn)算,造成 AI芯片整體功耗的增加。
(3)深度學(xué)習(xí)對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學(xué)習(xí)算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。
因此可以預(yù)見下一代 AI 芯片將有如下的五個發(fā)展趨勢。
(1)、更高效的大卷積解構(gòu)/復(fù)用
在標(biāo)準(zhǔn) SIMD 的基礎(chǔ)上, CNN 由于其特殊的復(fù)用機(jī)制,可以進(jìn)一步減少總線上的數(shù)據(jù)通信。而復(fù)用這一概念,在超大型神經(jīng)網(wǎng)絡(luò)中就顯得格外重要。 如何合理地分解、 映射這些超大卷積到有效的硬件上成為了一個值得研究的方向,
(2)、更低的 Inference 計算/存儲位寬
AI 芯片最大的演進(jìn)方向之一可能就是神經(jīng)網(wǎng)絡(luò)參數(shù)/計算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)、 8 位定點(diǎn),甚至是 4 位定點(diǎn)。在理論計算領(lǐng)域, 2 位甚至 1 位參數(shù)位寬,都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域。
(3)、更多樣的存儲器定制設(shè)計
當(dāng)計算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結(jié)構(gòu)也將應(yīng)運(yùn)而生。
(4)、更稀疏的大規(guī)模向量實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)雖然大,但是,實(shí)際上有很多以零為輸入的情況, 此時稀疏計算可以高效的減少無用能效。來自哈佛大學(xué)的團(tuán)隊就該問題提出了優(yōu)化的五級流水線結(jié),在最后一級輸出了觸發(fā)信號。在 Activation層后對下一次計算的必要性進(jìn)行預(yù)先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點(diǎn),則觸發(fā) SKIP 信號,避免乘法運(yùn)算的功耗,以達(dá)到減少無用功耗的目的。
(5)、計算和存儲一體化
計算和存儲一體化(process-in-memory)技術(shù),其要點(diǎn)是通過使用新型非易失性存儲(如 ReRAM)器件,在存儲陣列里面加上神經(jīng)網(wǎng)絡(luò)計算功能,從而省去數(shù)據(jù)搬移操作,即實(shí)現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡(luò)處理,在功耗性能方面可以獲得顯著提升。
智東西認(rèn)為,近幾年,AI技術(shù)不斷取得突破性進(jìn)展。作為AI技術(shù)的重要物理基礎(chǔ),AI芯片擁有巨大的產(chǎn)業(yè)價值和戰(zhàn)略地位。但從大趨勢來看,目前尚處于AI芯片發(fā)展的初級階段,無論是科研還是產(chǎn)業(yè)應(yīng)用都有巨大的創(chuàng)新空間?,F(xiàn)在不僅英偉達(dá)、谷歌等國際巨頭相繼推出新產(chǎn)品,國內(nèi)百度、阿里等紛紛布局這一領(lǐng)域,也誕生了寒武紀(jì)等AI芯片創(chuàng)業(yè)公司。在CPU、GPU等傳統(tǒng)芯片領(lǐng)域與國際相差較多的情況下,中國AI芯片被寄望能實(shí)現(xiàn)彎道超車。
評論