谷歌首次展示新版語言模型BERT，參數(shù)達(dá)4810億個

發(fā)布人：深科技時間：2021-12-08 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，機(jī)器學(xué)習(xí)開放組織 MLCommons 發(fā)布了 MLPerf 訓(xùn)練基準(zhǔn)（v1.1）的結(jié)果。

MLPerf 訓(xùn)練是一個完整的系統(tǒng)基準(zhǔn)測試，用于測試機(jī)器學(xué)習(xí)模型、軟硬件等。上一輪 MLPerf 訓(xùn)練基準(zhǔn)（v1.0）發(fā)布于 5 個月前，與之相比，本次最佳基準(zhǔn)測試結(jié)果提高了 2.3 倍，在軟硬件和系統(tǒng)規(guī)模方面都有了實質(zhì)性的改進(jìn)。

MLPerf 訓(xùn)練基準(zhǔn)的內(nèi)容由封閉式和開放式兩個部分組成。開放式區(qū)別于封閉式的地方是，開放式的參與者可以提交各種模型，而封閉式為確保一個相對公平的競爭環(huán)境，只允許提交相同的參考模型。

值得一提的是，谷歌在本次基準(zhǔn)測試的開放式部分提交了之前從未公開過的新版 BERT 自然語言程序。

新的 BERT 程序規(guī)模比通行的 BERT 標(biāo)準(zhǔn)版本大了 3 個數(shù)量級，神經(jīng)網(wǎng)絡(luò)參數(shù)達(dá)到 4810 億個，而標(biāo)準(zhǔn)版 BERT 只有 3.4 億個參數(shù)。更多的參數(shù)通常意味著需要更多的計算能力。

據(jù)了解，為了得到更大的 BERT 模型，谷歌使用的計算機(jī)搭載了 2048 個 TPU（Tensor Processing Unit）芯片。與英偉達(dá)的 GPU 不同，TPU 是谷歌針對機(jī)器學(xué)習(xí)專門定制的芯片。此“2048-TPU 系統(tǒng)”目前可以通過谷歌云服務(wù)獲得。
谷歌表示，這一新穎的語言模型反映了 AI 規(guī)模日益增長的重要性。

谷歌還說，其能夠以 63% 的效率運行龐大的 BERT 模型，這比英偉達(dá)和微軟共同開發(fā)的 Megatron-Turing 語言模型 52% 的效率要好。該效率是通過相對于理論容量每秒執(zhí)行的浮點運算數(shù)量來衡量的。

構(gòu)建越大的 AI 深度學(xué)習(xí)程序，越需要使用更多的 GPU 芯片或新型加速器芯片。研究人員認(rèn)為，程序的準(zhǔn)確性隨著 AI 規(guī)模的增加而增加。

谷歌機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施負(fù)責(zé)人阿魯沙·塞爾萬（Aarush Selvan）說：“我們一直在確保向 MLPerf 提交的文件與自身內(nèi)部需求以及機(jī)器學(xué)習(xí)行業(yè)的需求完全一致。培訓(xùn) AI 大模型在谷歌內(nèi)部變得越來越重要。其是我們研究和生產(chǎn)的一大重點，也是我們的云客戶所關(guān)注的重點?！?br />
塞爾萬還說道，AI 大模型有著成百上千億個，甚至超過萬億的參數(shù)。在 MLPerf 競賽中有某種大型基準(zhǔn)是非常有好處的，MLCommons 應(yīng)該考慮更多的大模型來衡量大規(guī)模培訓(xùn)的表現(xiàn)，像 ResNet-50 這樣較老、較小的網(wǎng)絡(luò)“只能給我們提供一個代理”。

MLCommons 的執(zhí)行董事大衛(wèi)·坎特（David Kanter）對此表示，大模型的建立需要所有成員共同決定。他同時指出，使用小型神經(jīng)網(wǎng)絡(luò)作為測試，能夠讓更多的成員參與競爭。這有助于為整個社區(qū)生產(chǎn)更多有價值的工程產(chǎn)品，并幫助推動行業(yè)不斷向前發(fā)展。

“基準(zhǔn)的關(guān)鍵是要公平和有代表性，而且也得考慮到經(jīng)營者的承受能力，不能讓其破產(chǎn)。從理論上講，我們可以把 GPT-3 作為 MLPerf 基準(zhǔn)，但培訓(xùn) GPT-3 相當(dāng)昂貴，需要數(shù)千萬美元。”坎特補充說。據(jù)悉，GPT-3 是 OpenAI 在 2020 年推出的有著 1750 億參數(shù)的自然語言模型。

此外，MLPerf 標(biāo)準(zhǔn)測試的代碼對每個人都是開放的，任何 AI 研究人員都可以復(fù)制測試結(jié)果進(jìn)行重新驗證。

谷歌今年早些時候在高度并行化神經(jīng)網(wǎng)絡(luò)方面做了一定研究，其中概述的設(shè)計與本次展示的巨型 BERT 模型類似。該公司認(rèn)為，巨型 BERT 模型經(jīng)過訓(xùn)練，可以產(chǎn)生更具準(zhǔn)確性的結(jié)果。

在封閉式部分測試中，谷歌使用了較小的 BERT 模型。同時，為了達(dá)到與其他供應(yīng)商在封閉式部分相同的準(zhǔn)確性，谷歌還使用了較少的文本數(shù)據(jù)樣本。封閉式部分要求一個程序訓(xùn)練近 5 億個令牌序列，每個序列的長度大多為 128 個令牌。谷歌的程序只使用了大約 2000 萬個令牌序列，每個序列長度為 512 個令牌。

塞爾萬說，谷歌打算在未來繼續(xù)提交 MLPerf 的封閉式部分基準(zhǔn)?！懊髂昊蛟S將看到所有人回到封閉式賽區(qū)，雖然不能保證，但我們計劃那樣做?！彼f。
整體來看，MLPerf 訓(xùn)練基準(zhǔn)（v1.1）的結(jié)果進(jìn)一步推動了 MLCommons 的目標(biāo)，即通過比較機(jī)器學(xué)習(xí)系統(tǒng)、軟件和解決方案，提供基準(zhǔn)和指標(biāo)，使行業(yè)競爭環(huán)境更加公平。

“通過對體系結(jié)構(gòu)、系統(tǒng)規(guī)模、軟件、模型劃分等方面的優(yōu)化，”坎特說，“供應(yīng)商正設(shè)法加速神經(jīng)網(wǎng)絡(luò)的性能，其速度比摩爾定律的歷史軌跡快 11 倍?！?br />
據(jù)了解，本次的基準(zhǔn)測試共有 14 個組織參與，包括微軟 Azure、百度、戴爾、富士通、技嘉、谷歌、Graphcore、HabanaLabs、HPE、浪潮、聯(lián)想、英偉達(dá)、三星和超微，發(fā)布的同行評審結(jié)果數(shù)量超過 185 個。

MLCommons 與其合作伙伴，包括全球技術(shù)提供商、學(xué)者和研究人員，通過各種方式為整個機(jī)器學(xué)習(xí)行業(yè)構(gòu)建工具。

“回顧 2018 年的第一輪 MLPerf 訓(xùn)練，我們一些基準(zhǔn)的性能提高了 30 倍，”坎特說，“這種性能的快速增長將激發(fā)出新的機(jī)器學(xué)習(xí)創(chuàng)新，最終使社會受益?！?/span>
-End-
參考：
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/
https://mlcommons.org/en/news/mlperf-training-v11/

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

電機(jī)保護(hù)器相關(guān)文章:電機(jī)保護(hù)器原理

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

谷歌首次展示新版語言模型BERT，參數(shù)達(dá)4810億個

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

谷歌首次展示新版語言模型BERT，參數(shù)達(dá)4810億個

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

谷歌首次展示新版語言模型BERT，參數(shù)達(dá)4810億個