蛋白質(zhì)是生命的基礎(chǔ),也是許多新型材料的靈感來源。然而,自然界中已知的蛋白質(zhì)只是冰山一角,還有無數(shù)未被發(fā)現(xiàn)的蛋白質(zhì)等待探索。如何快速有效地設(shè)計(jì)出具有特定結(jié)構(gòu)和功能的新型蛋白質(zhì),是一個(gè)巨大的挑戰(zhàn)。
為了解決這個(gè)問題,麻省理工學(xué)院(MIT)的研究人員利用人工智能技術(shù),開發(fā)了一種能夠生成超越自然界的新型蛋白質(zhì)的方法。他們創(chuàng)建了一種基于機(jī)器學(xué)習(xí)的算法,可以根據(jù)預(yù)設(shè)的結(jié)構(gòu)目標(biāo),預(yù)測(cè)出能夠形成相應(yīng)蛋白質(zhì)的氨基酸序列。這些序列既有一定的與已知蛋白質(zhì)相似的程度,又有一定的創(chuàng)新性和獨(dú)特性。這些蛋白質(zhì)可用于制造具有特定機(jī)械性能(如剛度或彈性)的材料,從而取代作為原料的石油或陶瓷,會(huì)大大減少碳足跡。
這項(xiàng)研究將于近期發(fā)表在最新一期《化學(xué)》雜志上,該研究的高級(jí)作者是 MIT 工程學(xué)院教授、土木與環(huán)境工程系和機(jī)械工程系教授、MIT-IBM 沃森人工智能實(shí)驗(yàn)室成員馬庫斯 布勒(Markus Buehler)。他表示,這種方法可以為各種應(yīng)用領(lǐng)域提供新的解決方案,比如生物醫(yī)學(xué)、材料科學(xué)、食品保鮮等。他說:“在超越自然界的蛋白質(zhì)方面,這是一個(gè)巨大的設(shè)計(jì)空間,不能用人工的方法來解決。我們需要理解生命的語言,如何用 DNA 編碼氨基酸,以及它們?nèi)绾谓M合成蛋白質(zhì)結(jié)構(gòu)。在深度學(xué)習(xí)出現(xiàn)之前,這是不可能做到的!
該研究的合作者還有布勒實(shí)驗(yàn)室的博士后研究員倪博(Bo Ni)和塔夫茨大學(xué)(Tufts University)生物工程系教授、工程學(xué)院院長(zhǎng)大衛(wèi) 卡普蘭(David Kaplan)。
利用新型機(jī)器學(xué)習(xí)模型
蛋白質(zhì)是由氨基酸串聯(lián)而成的長(zhǎng)鏈,這些鏈會(huì)折疊成三維的形狀。氨基酸的順序決定了蛋白質(zhì)的結(jié)構(gòu)特征,而結(jié)構(gòu)特征又影響了蛋白質(zhì)的力學(xué)性能。雖然科學(xué)家們已經(jīng)發(fā)現(xiàn)了數(shù)千種經(jīng)過自然選擇形成的蛋白質(zhì),但他們估計(jì)還有很多氨基酸序列沒有被發(fā)現(xiàn)。
為了加速蛋白質(zhì)發(fā)現(xiàn)的過程,科學(xué)家們最近設(shè)計(jì)了一些深度學(xué)習(xí)模型,可以根據(jù)給定的氨基酸序列預(yù)測(cè)出相應(yīng)的蛋白質(zhì)三維結(jié)構(gòu)。然而,反過來,根據(jù)給定的結(jié)構(gòu)目標(biāo)預(yù)測(cè)出相應(yīng)的氨基酸序列,卻是一個(gè)更復(fù)雜的問題。
布勒和他的同事們能夠應(yīng)對(duì)這個(gè)難題,是因?yàn)樗麄兝昧艘环N新型的機(jī)器學(xué)習(xí)模型,叫做基于注意力的擴(kuò)散模型(IT之家注:attention-based diffusion model)。布勒解釋說,基于注意力的模型對(duì)于蛋白質(zhì)設(shè)計(jì)非常重要,因?yàn)樗鼈兛梢詫W(xué)習(xí)和捕捉長(zhǎng)距離的關(guān)系。這在蛋白質(zhì)中很常見,因?yàn)橐粋(gè)很長(zhǎng)的氨基酸序列中的一個(gè)突變,可能會(huì)對(duì)整個(gè)設(shè)計(jì)產(chǎn)生很大的影響。
擴(kuò)散模型的學(xué)習(xí)過程是通過給訓(xùn)練數(shù)據(jù)添加“噪聲”,然后再去除“噪聲”來恢復(fù)原始數(shù)據(jù)。這些模型能夠生成高質(zhì)量和逼真的數(shù)據(jù),而且可以根據(jù)特定的設(shè)計(jì)目標(biāo)進(jìn)行調(diào)節(jié)。因此,它們比其他模型更適合滿足設(shè)計(jì)要求。
利用這種架構(gòu),研究人員開發(fā)了兩種機(jī)器學(xué)習(xí)模型,能夠預(yù)測(cè)出滿足特定結(jié)構(gòu)目標(biāo)的氨基酸序列。布勒說,在生物醫(yī)學(xué)領(lǐng)域,擁有一個(gè)完全未知的蛋白質(zhì)可能會(huì)帶來問題,因?yàn)樗男再|(zhì)不太清楚。但是,在一些應(yīng)用中,可能需要設(shè)計(jì)出一種與自然界中存在的蛋白質(zhì)具有相似特性但不同功能的新型蛋白質(zhì)。通過使用他們開發(fā)的模型,可以生成一系列的蛋白質(zhì),并通過調(diào)整一些參數(shù)來控制它們的設(shè)計(jì),從而實(shí)現(xiàn)定制化的需求。
蛋白質(zhì)中不同的氨基酸折疊模式,稱為二級(jí)結(jié)構(gòu),會(huì)導(dǎo)致不同的力學(xué)性能。比如,具有 α-螺旋結(jié)構(gòu)的蛋白質(zhì)往往具有彈性,而具有 β-折疊結(jié)構(gòu)的蛋白質(zhì)通常比較剛性。在一個(gè)蛋白質(zhì)中同時(shí)結(jié)合 α-螺旋和 β-折疊結(jié)構(gòu),可以創(chuàng)造出既有彈性又有強(qiáng)度的材料,就像絲綢一樣。
研究人員創(chuàng)建了兩種模型,一種是在整體結(jié)構(gòu)層面上工作的,另一種是在氨基酸層面上工作的。兩種模型都可以組合氨基酸來生成蛋白質(zhì)。在第一種模型中,用戶只需要輸入想要的不同結(jié)構(gòu)的百分比,比如 40% 的 α-螺旋和 60% 的 β-折疊,模型就會(huì)生成滿足這些要求的序列。在第二種模型中,用戶不僅要指定百分比,還要指定氨基酸結(jié)構(gòu)的順序,從而對(duì)最終產(chǎn)品有更大的控制力。
為了驗(yàn)證生成的蛋白質(zhì)是否符合預(yù)期的規(guī)格,研究人員將開發(fā)的模型與一個(gè)可以預(yù)測(cè)蛋白質(zhì)折疊情況的算法相連。他們用這個(gè)算法來確定生成蛋白質(zhì)的三維結(jié)構(gòu),然后計(jì)算出相應(yīng)的力學(xué)性能,并與預(yù)設(shè)的設(shè)計(jì)要求進(jìn)行比較。這使得他們能夠驗(yàn)證設(shè)計(jì)的蛋白質(zhì)是否滿足期望的規(guī)格。
創(chuàng)新而可靠的設(shè)計(jì)
為了評(píng)估他們的模型的有效性,研究人員將新生成的蛋白質(zhì)與具有相似結(jié)構(gòu)特性的已知蛋白質(zhì)進(jìn)行了比較。他們發(fā)現(xiàn),許多生成的蛋白質(zhì)與已知的氨基酸序列有大約 50% 到 60% 的重合度,表明它們是可合成的。此外,模型還產(chǎn)生了完全新的序列,顯示了它們?cè)O(shè)計(jì)新型蛋白質(zhì)的能力。
布勒說,生成和已知蛋白質(zhì)之間的相似度程度表明,設(shè)計(jì)的蛋白質(zhì)很可能是現(xiàn)實(shí)的,也是可合成的。為了驗(yàn)證設(shè)計(jì)蛋白質(zhì)的可靠性,研究人員試圖用一些物理上不可能的設(shè)計(jì)目標(biāo)來欺騙模型。然而,模型并沒有產(chǎn)生不太可能的蛋白質(zhì),而是生成了最接近可行解決方案的蛋白質(zhì)。這個(gè)結(jié)果表明,模型是健壯的,即使給出不切實(shí)際的設(shè)計(jì)規(guī)范,也能找到最接近可行的解決方案。
倪博指出,機(jī)器學(xué)習(xí)算法能夠發(fā)現(xiàn)自然界中隱藏的關(guān)系。這種能力給研究人員提供了信心,認(rèn)為生成的蛋白質(zhì)很可能是現(xiàn)實(shí)的,也是可合成的。
在下一步中,研究人員打算通過在實(shí)驗(yàn)室中合成它們來驗(yàn)證一些新設(shè)計(jì)的蛋白質(zhì)。此外,他們還計(jì)劃進(jìn)一步改進(jìn)和完善他們的模型,使它們能夠設(shè)計(jì)出滿足更多條件的氨基酸序列,比如特定的生物功能。
最終目標(biāo)是開發(fā)一個(gè)多功能的平臺(tái),可以生成各種各樣的蛋白質(zhì)設(shè)計(jì),用于各種應(yīng)用領(lǐng)域,包括生物醫(yī)學(xué)和材料科學(xué)。布勒強(qiáng)調(diào)說,這些應(yīng)用領(lǐng)域需要超越自然界所提供的解決方案,比如可持續(xù)性、醫(yī)藥、食品、健康和材料設(shè)計(jì)等。因此,新開發(fā)的設(shè)計(jì)工具可以在解決這些問題中發(fā)揮重要作用。