新聞中心
最近,在化學(xué)行業(yè)涌現(xiàn)了許多激動(dòng)人心的機(jī)器學(xué)習(xí) (ML) 應(yīng)用,特別是在解決化學(xué)檢索問(wèn)題方面,從藥物發(fā)現(xiàn)和電池設(shè)計(jì)到尋找更好的 OLED 和催化劑,層出不窮。歷史上,化學(xué)家一直使用薛定諤方程式的數(shù)值逼近(例如密度泛函理論 (DFT))來(lái)進(jìn)行此類(lèi)化學(xué)檢索。

然而,計(jì)算這些近似值的開(kāi)銷(xiāo)限制了檢索的規(guī)模。為了實(shí)現(xiàn)更大規(guī)模的檢索,幾個(gè)研究小組建立了機(jī)器學(xué)習(xí)模型,使用 DFT 生成的訓(xùn)練數(shù)據(jù)(例如 Rupp et al. 和 Behler and Parrinello)預(yù)測(cè)化學(xué)性質(zhì)。在開(kāi)展前述工作之前,我們一直使用各種現(xiàn)代機(jī)器學(xué)習(xí)方法來(lái)開(kāi)發(fā) QM9 基準(zhǔn)庫(kù),這是一組公開(kāi)的分子庫(kù),其中提供了根據(jù) DFT 理論計(jì)算得出的各種分子的電子、熱力學(xué)和振動(dòng)特性。
我們最近發(fā)布了兩篇論文,介紹了我們?cè)诖祟I(lǐng)域的研究成果,這些成果源自 Google Brain 團(tuán)隊(duì)、Google Accelerated Science 團(tuán)隊(duì)、DeepMind 和巴塞爾大學(xué)的密切合作。***篇論文介紹了一種新的分子影像制作方法以及一種評(píng)估開(kāi)發(fā) QM9 基準(zhǔn)庫(kù)所用的各種機(jī)器學(xué)習(xí)方法的系統(tǒng)化評(píng)估方法。在對(duì)此基準(zhǔn)庫(kù)嘗試過(guò)許多現(xiàn)有方法之后,我們?cè)铝τ诟倪M(jìn)最有希望的深度神經(jīng)網(wǎng)絡(luò)模型。
其結(jié)果是,我們發(fā)表了第二篇論文“量子化學(xué)的神經(jīng)消息傳遞”(Neural Message Passing for Quantum Chemistry),其中介紹了一個(gè)稱(chēng)為消息傳遞神經(jīng)網(wǎng)絡(luò) (Message Passing Neural Networks, MPNN) 的模型系列,其定義足夠抽象,能夠包含許多之前圖形對(duì)稱(chēng)性保持不變的神經(jīng)網(wǎng)絡(luò)模型。我們?cè)?MPNN 模型系列中開(kāi)發(fā)出新的模型,其表現(xiàn)大大優(yōu)于 QM9 基準(zhǔn)庫(kù)的所有基準(zhǔn)方法,在某些指標(biāo)上提升了將近 4 倍。
從機(jī)器學(xué)習(xí)的角度來(lái)看,分子數(shù)據(jù)如此有趣的原因之一是:一個(gè)分子的自然表示形式是以原子作為節(jié)點(diǎn),以化學(xué)鍵作為邊繪制而成的分子結(jié)構(gòu)圖。利用數(shù)據(jù)中的內(nèi)在對(duì)稱(chēng)性的模型往往更具普遍性,腦回神經(jīng)網(wǎng)絡(luò)之所以能在圖片處理方面取得成功,部分是因?yàn)樗鼈兡軌蛭瘴覀冎瓣P(guān)于圖像數(shù)據(jù)不變性的知識(shí)(例如,一只狗的照片移到左邊后仍然是一只狗的照片)。對(duì)于處理圖形數(shù)據(jù)的機(jī)器學(xué)習(xí)模型來(lái)說(shuō),圖形對(duì)稱(chēng)性不變是一個(gè)特別有用的特性,這方面也有許多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而,盡管取得了這些進(jìn)展,但仍有大量工作要做。我們希望為化學(xué)(和其他)應(yīng)用找到這些模型中的***模型并找出文獻(xiàn)中建議的不同模型之間的關(guān)聯(lián)。
我們的 MPNN 為預(yù)測(cè) QM9 中所有 13 種化學(xué)性質(zhì)建立了新的模型標(biāo)桿。對(duì)于這組特別的分子,我們的模型可以足夠準(zhǔn)確地預(yù)測(cè)出其中 11 種性質(zhì),這些預(yù)測(cè)對(duì)化學(xué)家而言很可能非常有用,并且,我們的速度比使用 DFT 模擬預(yù)測(cè)最多要快 30 萬(wàn)倍。然而,在 MPNN 能夠?qū)瘜W(xué)家產(chǎn)生真正的實(shí)用價(jià)值之前,我們還有大量工作要做。特別是,使用 MPNN 分析的分子類(lèi)型還遠(yuǎn)遠(yuǎn)不夠,必須比 QM9 中現(xiàn)有的分子類(lèi)型還要多得多(例如,分子量更大或者有更多類(lèi)型的重原子的分子)。當(dāng)然,即便是采用真實(shí)的訓(xùn)練集,即便推廣到大相迥異的分子,也仍然不夠。要克服這兩大挑戰(zhàn),就需要在普遍化(這也是機(jī)器學(xué)習(xí)研究的核心)等問(wèn)題上取得突破。
預(yù)測(cè)分子特性是一個(gè)非常重要的問(wèn)題,一方面,先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)有助于推動(dòng)該課題的研究,另一方面,該課題也為學(xué)習(xí)算法提出了一些有趣的基本研究挑戰(zhàn)。最終,此類(lèi)預(yù)測(cè)可以幫助設(shè)計(jì)造福人類(lèi)的新藥物和新材料。
【本文是專(zhuān)欄機(jī)構(gòu)“谷歌開(kāi)發(fā)者”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者(微信公眾號(hào):Google_Developers)】
新聞標(biāo)題:使用機(jī)器學(xué)習(xí)預(yù)測(cè)分子性質(zhì)
文章位置:http://fisionsoft.com.cn/article/cdgsgjc.html


咨詢(xún)
建站咨詢(xún)
