国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

EEPW首頁(yè) > 博客 > AI for Science:人工智能改變化學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)范式加速化學(xué)物質(zhì)發(fā)現(xiàn)

AI for Science:人工智能改變化學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)范式加速化學(xué)物質(zhì)發(fā)現(xiàn)

發(fā)布人:機(jī)器之心 時(shí)間:2022-03-08 來(lái)源:工程師 發(fā)布文章

隨著人工智能技術(shù)興起,在化學(xué)領(lǐng)域,傳統(tǒng)的基于實(shí)驗(yàn)和物理模型的方式逐漸與基于數(shù)據(jù)的機(jī)器學(xué)習(xí)范式融合。越來(lái)越多的用于計(jì)算機(jī)處理數(shù)據(jù)表示被開發(fā)出來(lái),并不斷適應(yīng)著以生成式為主的統(tǒng)計(jì)模型。


圖片


雖然工程、金融和商業(yè)從新算法中獲益匪淺,但獲益不僅僅來(lái)自算法。幾十年來(lái),大規(guī)模計(jì)算一直是物理科學(xué)工具包中不可或缺的一部分 —— 人工智能的一些最新進(jìn)展已經(jīng)開始改變科學(xué)發(fā)現(xiàn)的產(chǎn)生方式。
物理科學(xué)領(lǐng)域的杰出成就令人興奮不已,例如使用機(jī)器學(xué)習(xí)渲染黑洞圖像或 AlphaFold 對(duì)蛋白質(zhì)折疊的貢獻(xiàn)。本文將介紹人工智能在化學(xué)領(lǐng)域的一些更突出的用途,而化學(xué)是上述蛋白質(zhì)折疊問題的母學(xué)科。
化學(xué)的主要目標(biāo)之一是了解物質(zhì)、它的性質(zhì)以及它可以經(jīng)歷的變化。比如,當(dāng)我們?cè)趯ふ倚碌某瑢?dǎo)體、疫苗或任何其他具有我們想要特性的材料時(shí),我們會(huì)求助于化學(xué)這一學(xué)科。
傳統(tǒng)上,我們認(rèn)為化學(xué)是在配有****、燒瓶和燃?xì)馊紵鞯膶?shí)驗(yàn)室中完成。但它也受益于計(jì)算和量子力學(xué)的發(fā)展,這兩者都在 20 世紀(jì)中葉開始嶄露頭角。早期的應(yīng)用包括使用計(jì)算機(jī)來(lái)幫助解決基于物理的公式計(jì)算;或者是通過將理論化學(xué)與計(jì)算機(jī)編程相結(jié)合,我們能夠模擬(盡管遠(yuǎn)非完美)化學(xué)系統(tǒng)。最終,這項(xiàng)工作發(fā)展成為現(xiàn)在稱為計(jì)算化學(xué)(computational chemistry)的子領(lǐng)域。該子領(lǐng)域在 1970 年代開始興起發(fā)展,并在 1998 年和 2013 年有人憑借該領(lǐng)域獲得諾貝爾獎(jiǎng)。
即便如此,盡管計(jì)算化學(xué)在過去幾十年中獲得了越來(lái)越多的認(rèn)可,但其重要性遠(yuǎn)沒有在實(shí)驗(yàn)室所做的實(shí)驗(yàn)重要,而實(shí)驗(yàn)才是化學(xué)發(fā)現(xiàn)的基石。
然而,隨著當(dāng)前人工智能、以數(shù)據(jù)為中心的技術(shù)和不斷增長(zhǎng)的數(shù)據(jù)量的進(jìn)步,我們可能正在目睹一種變化,計(jì)算方法不僅用于協(xié)助實(shí)驗(yàn)室實(shí)驗(yàn),還用于指導(dǎo)實(shí)驗(yàn)。
化學(xué)物質(zhì)發(fā)現(xiàn)過程
那么人工智能是如何實(shí)現(xiàn)這種轉(zhuǎn)變的呢?一個(gè)特別的發(fā)展是將機(jī)器學(xué)習(xí)應(yīng)用于材料發(fā)現(xiàn)和分子設(shè)計(jì),這是化學(xué)中的兩個(gè)核心問題
在傳統(tǒng)方法中,分子的設(shè)計(jì)大致分為四個(gè)階段,如下圖所示。需要注意的是,每個(gè)階段都可能需要數(shù)年時(shí)間和許多資源,并且不能保證成功。

圖片

化學(xué)物質(zhì)發(fā)現(xiàn)階段:發(fā)現(xiàn)(discovery)、合成、分離與測(cè)試(synthesis, isolation and testing)、驗(yàn)證(validation)以及批準(zhǔn)與市場(chǎng)營(yíng)銷(approval and marketing)。
發(fā)現(xiàn)階段依賴于幾個(gè)世紀(jì)以來(lái)發(fā)展起來(lái)的用來(lái)指導(dǎo)分子設(shè)計(jì)的理論框架。然而,在尋找「有用」的材料(例如凡士林、鐵氟龍、青霉素)時(shí),我們必須記住,其中許多來(lái)自自然界中常見的化合物。此外,這些化合物的效用往往是事后才發(fā)現(xiàn)的。與此相反,有針對(duì)性的搜索是一項(xiàng)需要更多時(shí)間和資源的工作(即使那樣,人們也可能不得不使用已知的「有用」化合物作為起點(diǎn))。為了給讀者一些概念,據(jù)估計(jì),****理活性化學(xué)空間(即分子的數(shù)量)為 1060!即使在測(cè)試和擴(kuò)展階段之前,在這樣的空間中手動(dòng)搜索也會(huì)花費(fèi)大量時(shí)間和資源。
那么人工智能是如何進(jìn)入這一切并加速化學(xué)(物質(zhì))發(fā)現(xiàn)的呢?
首先,機(jī)器學(xué)習(xí)改進(jìn)了現(xiàn)有的模擬化學(xué)環(huán)境的方法。我們已經(jīng)提到計(jì)算化學(xué)允許我們部分繞過實(shí)驗(yàn)室實(shí)驗(yàn)。然而,模擬量子力學(xué)過程的計(jì)算化學(xué)的計(jì)算在計(jì)算成本和化學(xué)模擬的準(zhǔn)確性方面都很差。計(jì)算化學(xué)的核心問題是求解復(fù)雜分子的電子薛定諤方程 —— 也就是說(shuō),給定原子核集合的位置和電子總數(shù),計(jì)算感興趣的性質(zhì)。只有單電子系統(tǒng)才有可能得到精確的解決方案,而對(duì)于其他系統(tǒng),我們必須依賴「足夠好」的近似值。此外,許多用于近似薛定諤方程的流行方法以指數(shù)方式擴(kuò)展,使得蠻力解決方案難以解決。在上個(gè)世紀(jì),人們開發(fā)了許多方法來(lái)加速計(jì)算而不犧牲太多的準(zhǔn)確性。然而,即使是一些「更便宜」的方法也可能導(dǎo)致計(jì)算瓶頸。
人工智能加速這些計(jì)算的一種方法是將它們與機(jī)器學(xué)習(xí)相結(jié)合。另一種方法通過直接將分子表證映射到所需屬性來(lái)完全繞過物理過程的建模。這兩種方法都允許化學(xué)家更有效地檢查化學(xué)數(shù)據(jù)庫(kù)的各種屬性,例如原子電荷、電離能等。
生成式化學(xué)的興起
雖然更快的計(jì)算是一種改進(jìn),但它并沒有解決我們?nèi)匀痪窒抻谝阎衔锏氖聦?shí) —— 這只是活性化學(xué)空間的一小部分。我們?nèi)匀槐仨毷謩?dòng)指定想要分析的分子。我們?nèi)绾闻まD(zhuǎn)這種范式并設(shè)計(jì)一種算法來(lái)搜索化學(xué)空間并為我們找到合適的候選物質(zhì)呢?答案可能在于將生成模型應(yīng)用于分子發(fā)現(xiàn)問題。
但在我們開始之前,有必要談?wù)勅绾我詳?shù)字方式表示化學(xué)結(jié)構(gòu)(以及哪些可以用于生成式建模)。在過去的幾十年中已經(jīng)開發(fā)了許多種表示,其中大部分屬于以下四個(gè)類別之一,分別是字符串(string)、文本文件(text )、陣列(array)和圖(graph)。

圖片

異戊烷的表示。
當(dāng)然,化學(xué)結(jié)構(gòu)可以表示為陣列。最初,分子的陣列表示用于輔助化學(xué)數(shù)據(jù)庫(kù)的搜索;然而 2000 年代初期引入了一種稱為擴(kuò)展連接指紋 (Extended connectivity fingerprint, ECFP) 的新型陣列表示。ECFP 被專門設(shè)計(jì)用于捕獲與分子活動(dòng)相關(guān)的特征, 它通常被認(rèn)為在嘗試預(yù)測(cè)分子特性方面的第一批表征之一。
化學(xué)結(jié)構(gòu)信息也可以轉(zhuǎn)儲(chǔ)到文本文件中 —— 這是量子化學(xué)計(jì)算的常見輸出。這些文本文件可以包含非常豐富的信息,但是,它們作為機(jī)器學(xué)習(xí)模型的輸入通常不是很有用。另一方面,字符串表示在其語(yǔ)法中編碼了很多信息。這使得它們特別適合生成建模,很像文本生成。
最后,基于圖的表示更加自然,它不僅允許我們?cè)诠?jié)點(diǎn)嵌入中編碼特定于原子的屬性,而且還可以捕獲邊緣嵌入中的化學(xué)鍵。此外,當(dāng)與消息傳遞相結(jié)合時(shí),圖表征允許我們解釋(和配置)來(lái)自其鄰居的節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的影響,這反映了化學(xué)結(jié)構(gòu)中原子如何相互影響。這些屬性使基于圖的表示成為深度學(xué)習(xí)模型的首選輸入表示類型。
上面的表示類型可以有自己的子類型;遺憾的是,對(duì)于任何特定問題,哪種表示最有效也沒有定論。例如,數(shù)組表示通常是屬性預(yù)測(cè)的首選,但圖表示在過去幾年中也成為了強(qiáng)有力的競(jìng)爭(zhēng)者。同樣需要注意的是,我們可以根據(jù)問題將多種類型的表示結(jié)合使用。
那么如何(以及哪些)表示可以用于探索化學(xué)空間?我們已經(jīng)提到字符串表示適用于生成建模。圖表示起初不太容易使用生成模型建模,但最近由于和變分自動(dòng)編碼器 (VAE) 的結(jié)合使它而成為強(qiáng)有力的競(jìng)爭(zhēng)者;VAE 已被證明特別有用,因?yàn)樗刮覀兡軌驌碛羞B續(xù)的、機(jī)器可讀性更高的表示。一項(xiàng)研究使用 VAE 表明字符串和圖表示都可以編碼和解碼到隱空間中,在該空間中,分子不再是離散的,而是可以解碼回離散分子表示的實(shí)值連續(xù)向量(該向量可能有效也可能無(wú)效); 不同向量之間的歐幾里得距離將對(duì)應(yīng)于化學(xué)相似性。在編碼器和****之間添加了另一個(gè)模型,去預(yù)測(cè)隱空間中任何點(diǎn)的目標(biāo)屬性。

圖片

連續(xù)隱空間中基于梯度的優(yōu)化。訓(xùn)練后的模型 f (z) 相對(duì)于隱變量 z 進(jìn)行了優(yōu)化,從而可以找到一個(gè)新的 z,使新的隱向量表示具有更高的屬性分?jǐn)?shù)。
但是,雖然生成分子本身是一項(xiàng)簡(jiǎn)單的任務(wù) —— 人們可以采用任何生成模型并將其應(yīng)用于他們想要的表示 —— 生成化學(xué)上有效并表現(xiàn)出我們想要的特性的結(jié)構(gòu)是一個(gè)更具挑戰(zhàn)性的問題。
實(shí)現(xiàn)這一目標(biāo)的最初方法涉及在現(xiàn)有數(shù)據(jù)集上預(yù)訓(xùn)練模型,然后將其用于遷移學(xué)習(xí)。通過校準(zhǔn)數(shù)據(jù)集對(duì)模型進(jìn)行調(diào)整以允許生成偏向特定屬性的結(jié)構(gòu),之后可以使用不同的算法(例如強(qiáng)化學(xué)習(xí))進(jìn)一步校準(zhǔn)。這方面的幾個(gè)例子涉及使用字符串或圖表示;然而在化學(xué)有效性方面遇到了困難,或者不能成功獲得想要的屬性。此外,依賴預(yù)訓(xùn)練數(shù)據(jù)集會(huì)限制搜索空間并引入可能不需要的偏差。
擺脫預(yù)訓(xùn)練的一種嘗試是使用馬爾可夫決策過程 (MDP) 來(lái)確?;瘜W(xué)結(jié)構(gòu)的有效性,并通過深度 Q 學(xué)習(xí)(Q-learning)來(lái)優(yōu)化 MDP 以獲得所需的屬性。該模型的一個(gè)特別優(yōu)點(diǎn)是它允許用戶可視化不同行為的好感度。下圖顯示了這個(gè)想法在實(shí)踐中是如何實(shí)現(xiàn)的;模型認(rèn)為有利的增量步驟是從起始結(jié)構(gòu)開始的,以最大化特定屬性。

圖片

(a) 可視化某些行為的偏愛程度(1 是最偏愛,0 是最不偏愛),虛線表示去除鍵,實(shí)線表示第一步中鍵的添加。(b) 為使起始分子的****物相似性定量估計(jì) (QED) 最大化而采取的步驟,其步驟以黃色顯示。
盡管還處于起步階段,但使用人工智能探索化學(xué)空間已經(jīng)顯示出巨大的前景。它為我們提供了探索化學(xué)空間的新范式,以及一種新的檢驗(yàn)理論和假設(shè)的方法。雖然經(jīng)驗(yàn)主義不像實(shí)驗(yàn)研究那樣準(zhǔn)確,但使在可預(yù)見的未來(lái),基于計(jì)算的方法仍將是一個(gè)活躍的研究領(lǐng)域,并且已經(jīng)成為任何研究團(tuán)隊(duì)的一部分。
其它使用案例以及面臨的挑戰(zhàn)
到目前為止,我們已經(jīng)討論了 AI 如何通過利用生成算法來(lái)搜索化學(xué)空間,從而幫助更快地發(fā)現(xiàn)新化學(xué)物質(zhì)。雖然這是最值得注意的用例之一,但并不僅限于此。人工智能正被應(yīng)用于化學(xué)中的許多其他問題,其中包括:

  • 實(shí)驗(yàn)室中的自動(dòng)化工作。我們可以使用機(jī)器學(xué)習(xí)技術(shù)來(lái)加速合成工作流程。一種方法使用 “自動(dòng)駕駛實(shí)驗(yàn)室” 來(lái)自動(dòng)化日常任務(wù)、優(yōu)化資源支出并節(jié)省時(shí)間。一個(gè)相對(duì)較新的,但值得注意的案例是使用機(jī)器人平臺(tái) Ada 來(lái)自動(dòng)化薄膜材料的合成、處理和特征化(請(qǐng)參閱此處的平臺(tái))。另一項(xiàng)研究展示了使用移動(dòng)機(jī)器人化學(xué)家能夠操作儀器,并在八天內(nèi)對(duì) 688 次實(shí)驗(yàn)進(jìn)行測(cè)量;

  • 化學(xué)反應(yīng)預(yù)測(cè)。我們可以使用分類模型來(lái)預(yù)測(cè)將發(fā)生的反應(yīng)類型,或者簡(jiǎn)化問題并預(yù)測(cè)某個(gè)化學(xué)反應(yīng)是否會(huì)發(fā)生。這個(gè)問題有很多不同的建模方法;

  • 化學(xué)數(shù)據(jù)挖掘。像許多其他學(xué)科一樣,化學(xué)有大量可用于研究趨勢(shì)和相關(guān)性的科學(xué)文獻(xiàn)。一個(gè)值得注意的例子是對(duì)人類基因組計(jì)劃提供的大量信息進(jìn)行數(shù)據(jù)挖掘,以識(shí)別基因組數(shù)據(jù)的趨勢(shì)。


最后,雖然新的基于數(shù)據(jù)驅(qū)動(dòng)的趨勢(shì)正在迅速發(fā)展并已經(jīng)產(chǎn)生很大的影響,但它也給我們帶來(lái)了許多新挑戰(zhàn),包括:

  • 計(jì)算和實(shí)驗(yàn)之間的差距。雖然計(jì)算方法的目標(biāo)是幫助實(shí)現(xiàn)實(shí)驗(yàn)的目標(biāo),但前者的結(jié)果并不總是可以遷移到后者。例如,在使用機(jī)器學(xué)習(xí)尋找候選分子時(shí),我們必須牢記分子在其合成途徑中很少是獨(dú)一無(wú)二的,而且通常很難知道未經(jīng)探索的化學(xué)反應(yīng)是否會(huì)在實(shí)踐中起作用。即便可以起作用,目標(biāo)化合物的收率、純度和分離也存在問題。計(jì)算工作和實(shí)驗(yàn)工作之間的差距甚至?xí)兊酶?,因?yàn)橛?jì)算方法所采用的指標(biāo)并不總是可以轉(zhuǎn)移到后者(上面提到的 QED 只是眾多例子中的一個(gè))上,而且實(shí)驗(yàn)驗(yàn)證可能不可行;

  • 需要更好的數(shù)據(jù)庫(kù)和缺乏基準(zhǔn)。由于整個(gè)化學(xué)空間是無(wú)限的,所以我們最希望有足夠大的樣本量來(lái)幫助我們進(jìn)行之后的泛化。然而,目前大多數(shù)數(shù)據(jù)庫(kù)都是為不同目的而設(shè)計(jì)的,它們通常使用不同的文件格式;其中一些缺乏提交的驗(yàn)證程序,或者它們?cè)谠O(shè)計(jì)時(shí)沒有考慮到人工智能的任務(wù)。此外,我們擁有的大多數(shù)數(shù)據(jù)庫(kù)的化學(xué)數(shù)據(jù)范圍有限 —— 它們只包含某些類型的分子。最后,大多數(shù)涉及使用人工智能進(jìn)行化學(xué)預(yù)測(cè)的任務(wù)都缺乏一個(gè)基準(zhǔn)平臺(tái),這使得許多不同研究的比較變得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有內(nèi)容作為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) (CASP) 競(jìng)賽的關(guān)鍵評(píng)估的一部分,這表明需要有組織的努力來(lái)簡(jiǎn)化和改進(jìn)涉及化學(xué)預(yù)測(cè)的其他任務(wù)。


總結(jié)
隨著我們繼續(xù)進(jìn)入數(shù)字時(shí)代,新算法和更強(qiáng)大的硬件將繼續(xù)揭開以前難以解決的問題背后的面紗。人工智能與化學(xué)發(fā)現(xiàn)的整合仍處于起步階段 —— 但聽到 “數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)” 這個(gè)詞已經(jīng)很平常了。許多公司 —— 無(wú)論是制****巨頭還是年輕的初創(chuàng)公司 —— 已經(jīng)采用了上述許多技術(shù),并為化學(xué)帶來(lái)了更高的自動(dòng)化、效率和可重復(fù)性。人工智能使我們能夠以前所未有的規(guī)模開展科學(xué),在過去幾年中,這產(chǎn)生了許多舉措并吸引了資金,這些資金將繼續(xù)引領(lǐng)我們進(jìn)一步進(jìn)入自主科學(xué)發(fā)現(xiàn)的時(shí)代。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電度表相關(guān)文章:電度表原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉