NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進(jìn)展（1）

發(fā)布人：MSRAsia 時(shí)間：2022-11-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

編者按：作為目前全球最負(fù)盛名的人工智能盛會(huì)之一，NeurIPS (Conference on Neural Information Processing Systems) 在每年年末都是計(jì)算機(jī)科學(xué)領(lǐng)域矚目的焦點(diǎn)。被 NeurIPS 接收的論文，代表著當(dāng)今神經(jīng)科學(xué)和人工智能研究的最高水平。今年的 NeurIPS 大會(huì)將于11月28日至12月9日舉行，本屆大會(huì)共收到10411篇有效投稿，其中2672篇獲接收，最終接收率為25.6%。相比去年，投稿數(shù)量繼續(xù)增加。
在本屆大會(huì)中，微軟亞洲研究院也有諸多論文入選，內(nèi)容主要涵蓋人工智能五大熱點(diǎn)話(huà)題：人工智能走向大一統(tǒng)、計(jì)算機(jī)理論、賦能產(chǎn)業(yè)界的人工智能、負(fù)責(zé)任的人工智能、人工智能賦能內(nèi)容與設(shè)計(jì)生成。在接下來(lái)的幾周里，我們將按話(huà)題與大家分享相關(guān)領(lǐng)域的學(xué)術(shù)最前沿！今天，讓我們先從“人工智能走向大一統(tǒng)”和“計(jì)算機(jī)理論”話(huà)題下的8篇論文精華開(kāi)始。
歡迎參與文末投****，選出你最想看的論文直播！

人工智能走向大一統(tǒng)

The Big Convergence of AI

針對(duì)強(qiáng)化學(xué)習(xí)的掩碼隱空間重建

論文鏈接：

https://www.microsoft.com/en-us/research/publication/mask-based-latent-reconstruction-for-reinforcement-learning/

視覺(jué)狀態(tài)表征的質(zhì)量對(duì)基于視覺(jué)的強(qiáng)化學(xué)習(xí)（vision-based reinforcement learning）至關(guān)重要。為了學(xué)習(xí)高效的狀態(tài)表征，微軟亞洲研究院的研究員們創(chuàng)新性地將基于掩碼的建模技術(shù)（mask-based modeling）應(yīng)用到強(qiáng)化學(xué)習(xí)中，以促進(jìn)其狀態(tài)表征學(xué)習(xí)。此前基于掩碼的建模技術(shù)已經(jīng)在 CV 和 NLP 領(lǐng)域中大放異彩，而這項(xiàng)工作是將其應(yīng)用到強(qiáng)化學(xué)習(xí)領(lǐng)域幫助策略學(xué)習(xí)的首次探索。

具體地，研究員們提出了一種簡(jiǎn)單而有效的自監(jiān)督方法，即基于掩碼的隱空間重建 (mask-based latent reconstruction，簡(jiǎn)稱(chēng)為 MLR)。MLR 通過(guò)從具有時(shí)空掩碼的視覺(jué)狀態(tài)中預(yù)測(cè)其在隱空間中的完整表征，從而使神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)狀態(tài)表征時(shí)能夠更好地利用上下文信息，編碼更多策略學(xué)習(xí)所需要的語(yǔ)義信息。大量基準(zhǔn)實(shí)驗(yàn)表明，MLR 顯著提高了強(qiáng)化學(xué)習(xí)算法的樣本效率（sample efficiency），在多個(gè)連續(xù)和離散的強(qiáng)化學(xué)習(xí)環(huán)境中取得了 SOTA 的性能。

圖1：基于掩碼的隱空間重建（MLR）的框架示意圖

基于滑動(dòng)語(yǔ)言模型的句子評(píng)分轉(zhuǎn)換器

論文鏈接：

https://www.microsoft.com/en-us/research/publication/transcormer-transformer-for-sentence-scoring-with-sliding-language-modeling/

句子評(píng)分旨在評(píng)估一個(gè)句子的最大似然估計(jì)，被廣泛應(yīng)用于許多自然語(yǔ)言任務(wù)的場(chǎng)景中，包括重排序、語(yǔ)言可接受性等。過(guò)去用于解決句子評(píng)分的工作主要以?xún)煞N經(jīng)典語(yǔ)言模型為主：因果語(yǔ)言模型（causal language modeling, CLM）和掩碼語(yǔ)言模型（masked language modeling, MLM）。然而，這些工作都存在一定的瓶頸：CLM 雖然只需要計(jì)算一次但卻只利用了單向信息；MLM 能夠利用雙向語(yǔ)義，但每次只能預(yù)測(cè)部分單詞而不得不需要多次推理。

因此，微軟亞洲研究院的研究員們提出了一種基于滑動(dòng)語(yǔ)言模型的 Transformer 模型 Transcormer，并在其中設(shè)計(jì)了一種三流自注意力機(jī)制用于維護(hù)滑動(dòng)語(yǔ)言模型。利用這樣的設(shè)計(jì)，Transcormer 可以確保模型能夠利用雙向信息進(jìn)行預(yù)測(cè)的同時(shí)，只需一次計(jì)算即可得到所有單詞的概率。滑動(dòng)語(yǔ)言模型在計(jì)算句子評(píng)分時(shí)，Transcormer 還可以避免 CLM 只能利用單向信息的缺點(diǎn)以及 MLM 需要多次計(jì)算的不足。實(shí)驗(yàn)結(jié)果表明，Transcormer 在句子評(píng)分任務(wù)上能夠取得比其他方法更好的結(jié)果。

圖2：Transcormer 結(jié)構(gòu)示意圖：左側(cè)為前向流，右側(cè)為后向流，中間為詢(xún)問(wèn)流。其中，前向流用于收集前向語(yǔ)義，后向流用于收集后向語(yǔ)義，而詢(xún)問(wèn)流用于捕獲當(dāng)前位置在其之前的前向流語(yǔ)義和其之后的后向流語(yǔ)義

周邊視覺(jué)注意力網(wǎng)絡(luò)

論文鏈接：

https://www.microsoft.com/en-us/research/publication/peripheral-vision-transformer/

人類(lèi)擁有周邊視覺(jué)這種特殊的視覺(jué)處理系統(tǒng)。具體來(lái)說(shuō)，我們的整個(gè)視野可以根據(jù)到凝視中心的距離被劃分為多個(gè)輪廓區(qū)域，而周邊視覺(jué)使我們能夠感知不同區(qū)域的各種視覺(jué)特征。受該生物學(xué)啟發(fā)，微軟亞洲研究院的研究員們開(kāi)始探索在深度神經(jīng)網(wǎng)絡(luò)中模擬周邊視覺(jué)進(jìn)行視覺(jué)識(shí)別的方法。

研究員們所設(shè)計(jì)的 PerViT 網(wǎng)絡(luò)，可以將輪廓區(qū)域通過(guò)位置編碼結(jié)合到多頭自注意力機(jī)制中，使網(wǎng)絡(luò)掌握如何將視野劃分為不同輪廓區(qū)域的方法，并能夠從不同區(qū)域中提取相應(yīng)的特征。研究員們系統(tǒng)地研究了機(jī)器感知模型的內(nèi)部工作原理，發(fā)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)感知視覺(jué)數(shù)據(jù)的方式與人類(lèi)視覺(jué)相似。在 ImageNet-1K 上對(duì) PerViT 網(wǎng)絡(luò)評(píng)估的結(jié)果顯示，PerViT 在不同模型大小上的圖像分類(lèi)性能均優(yōu)于基線，證明了該方法的有效性。

圖3：人類(lèi)周邊視覺(jué)（上）與基于注意力的神經(jīng)網(wǎng)絡(luò)（下）相結(jié)合以進(jìn)行視覺(jué)識(shí)別的示意圖

VRL3：由數(shù)據(jù)驅(qū)動(dòng)的視覺(jué)深度強(qiáng)化學(xué)習(xí)框架

論文鏈接：

https://www.microsoft.com/en-us/research/publication/vrl3-a-data-driven-framework-for-visual-deep-reinforcement-learning/

在強(qiáng)化學(xué)習(xí)，尤其是機(jī)器人系統(tǒng)的訓(xùn)練中，新數(shù)據(jù)樣本的采集往往十分昂貴。為了實(shí)現(xiàn)經(jīng)濟(jì)，高效，服務(wù)于大眾的泛用性強(qiáng)化學(xué)習(xí)和機(jī)器人技術(shù)，研究員們嘗試結(jié)合利用多種數(shù)據(jù)來(lái)源，大幅提高訓(xùn)練效率。研究員們?cè)O(shè)計(jì)了一個(gè)全新的數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)框架 VRL3。VRL3 使用了三階段的訓(xùn)練方式，整合了非強(qiáng)化學(xué)習(xí)的大規(guī)模圖像數(shù)據(jù)集，有限的人類(lèi)專(zhuān)家示范以及在線強(qiáng)化學(xué)習(xí)數(shù)據(jù)，并加以充分利用，其可在基于視覺(jué)輸入的深度強(qiáng)化學(xué)習(xí)任務(wù)尤其是模擬機(jī)器人任務(wù)上，以驚人的樣本效率進(jìn)行學(xué)習(xí)。

相比之前的最先進(jìn)方法，在極富挑戰(zhàn)性的 Adroit 機(jī)械手基準(zhǔn)測(cè)試中最難的任務(wù)上，VRL3 可極其顯著地將樣本效率提高24倍，并以10倍更快計(jì)算速度和3倍更少參數(shù)需求完成訓(xùn)練。在達(dá)到極高性能的同時(shí)，VRL3 追求大道至簡(jiǎn)的設(shè)計(jì)理念，用簡(jiǎn)單易懂的設(shè)計(jì)思路和代碼實(shí)現(xiàn)。這項(xiàng)研究向?qū)崿F(xiàn)高效、便攜、低成本可廣泛服務(wù)于大眾的強(qiáng)化學(xué)習(xí)和機(jī)器人系統(tǒng)邁出了關(guān)鍵一步。

圖4：VRL3 模型設(shè)計(jì)圖

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

單片機(jī)相關(guān)文章:單片機(jī)教程

單片機(jī)相關(guān)文章:單片機(jī)視頻教程

單片機(jī)相關(guān)文章:單片機(jī)工作原理

網(wǎng)線測(cè)試儀相關(guān)文章:網(wǎng)線測(cè)試儀原理

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專(zhuān)欄

NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進(jìn)展（1）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專(zhuān)欄

NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進(jìn)展（1）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产