終于有人用 AIGC「干正事」了—— 設(shè)計(jì)蛋白質(zhì)
生物學(xué)家的夢(mèng)想:定制化生成蛋白質(zhì)。
作者 | 凌梓郡編輯 | 鄭玄
AIGC 的能力驚艷了所有人,背后的技術(shù)——擴(kuò)散模型,也啟發(fā)了生物學(xué)家。而當(dāng)生物學(xué)家將這項(xiàng)技術(shù)「為己所用」,就帶來(lái)了技術(shù)升級(jí):更準(zhǔn)確地設(shè)計(jì)全新的、從來(lái)不存在的蛋白質(zhì)。結(jié)果比目前已經(jīng)存在的模型都更加優(yōu)秀。無(wú)論是 Open AI 的 DALL-E,還是開源的 Stable Diffusion,能生成以假亂真繪畫,背后的關(guān)鍵技術(shù)都離不開擴(kuò)散模型。
2022 年,人們獲得了一項(xiàng)前所未有的繪畫超級(jí)工具。普通人只要用語(yǔ)言給出描述、或者幾個(gè)關(guān)鍵詞,就可以用 AI 程序生成一張媲美專業(yè)畫師的作品。擁有了這樣工具的人,即使沒有學(xué)過(guò)繪畫、不會(huì)操作任何設(shè)計(jì)軟件,也像是擁有了神筆的馬良。而一些專業(yè)的視覺設(shè)計(jì)從業(yè)人員,也開始嘗試用新的工具輔助工作。這一波 AI 繪畫的火熱,再一次證明了 AI 圖像技術(shù)的發(fā)展。不是幾年前的識(shí)別是人還是車、是貓還是狗,而是直接生成。
AI 生成的圖像|來(lái)源:網(wǎng)絡(luò)
而技術(shù)帶來(lái)的想象遠(yuǎn)不止理解語(yǔ)言、生成圖像,也能給科學(xué)家提供強(qiáng)大的工具。也許你還記得去年夏天的 AI 刷屏,DeepMind 推出的 AlphaFold2 解決了困擾生物學(xué)家五十多年的難題——蛋白質(zhì)預(yù)測(cè)。隨著這一話題的熱度攀升,人們逐漸意識(shí)到了 AI 的另一種強(qiáng)大力量。曾經(jīng)需要科學(xué)家在實(shí)驗(yàn)室里花費(fèi)數(shù)月甚至數(shù)年,才能夠測(cè)得某個(gè)蛋白質(zhì)的結(jié)構(gòu),如今輸入一串氨基酸序列,就可以得到預(yù)測(cè)的結(jié)構(gòu)。
DeepMind 的創(chuàng)始人兼 CEO Demis Hassabis 說(shuō),「我認(rèn)為,未來(lái)十年我們會(huì)看到更多這樣的事情ーー人工智能真正有助于真正加速一些科學(xué)突破ーー我們希望成為更多科學(xué)突破的一部分。我們認(rèn)為這只是個(gè)開始。」
科技突破往往發(fā)生在交叉領(lǐng)域,蛋白質(zhì)預(yù)測(cè)突破背后,一個(gè)關(guān)鍵便是源自自然語(yǔ)言處理的技術(shù) Transformer,應(yīng)用在了生物領(lǐng)域。這樣的模式正繼續(xù)發(fā)生:源自AI 繪畫領(lǐng)域的擴(kuò)散模型,正在加速蛋白質(zhì)設(shè)計(jì)。
蛋白質(zhì)設(shè)計(jì)可以做的事情太多了。這項(xiàng)能力讓人類得以生產(chǎn)分子級(jí)別的「機(jī)器」,它們可以是新的藥物、疫苗、新的納米材料、為特殊反應(yīng)定制的酶……甚至可以作為污染處理方案,分解環(huán)境中的有毒分子。
01
從預(yù)測(cè)到設(shè)計(jì)
蛋白質(zhì)執(zhí)行著生命的各項(xiàng)功能,也是生命系統(tǒng)中最重要的「分子元件」。比如,當(dāng)新冠病毒感染人體時(shí),在微觀層面,首先是兩種蛋白的結(jié)合。病毒表面的刺突蛋白(S 蛋白)結(jié)合了人體內(nèi)細(xì)胞上的另一種蛋白——ACE2。
新冠病毒電鏡掃描 3D 圖,粉色的部分為刺突蛋白|來(lái)源:Nanographics
決定一個(gè)蛋白質(zhì)擁有怎樣功能的,是它的結(jié)構(gòu)。「氨基酸序列——結(jié)構(gòu)——功能」三者間的對(duì)應(yīng)關(guān)系,是理解一個(gè)蛋白質(zhì)的密碼。最難的是「氨基酸序列——結(jié)構(gòu)」之間的關(guān)系,因?yàn)橐粭l氨基酸長(zhǎng)鏈條折疊成什么樣,有無(wú)數(shù)種可能性。究竟如何折疊,受到氨基酸之間化學(xué)反應(yīng)、蛋白質(zhì)所處環(huán)境等各種因素的影響。科學(xué)家目前掌握了蛋白質(zhì)折疊的基本原理:蛋白質(zhì)會(huì)折疊到能量最低的狀態(tài),然后保持結(jié)構(gòu)穩(wěn)定。AlphaFold2 則用更優(yōu)的模型+暴力計(jì)算,一舉超越了之前所有的計(jì)算方法。
蛋白質(zhì)設(shè)計(jì),是結(jié)構(gòu)預(yù)測(cè)的逆向問(wèn)題。兩者像是「序列——結(jié)構(gòu)」這道題的正反求解。已知序列、求解三維結(jié)構(gòu),是結(jié)構(gòu)預(yù)測(cè);設(shè)定某個(gè)三維結(jié)構(gòu)、求解序列,便是蛋白質(zhì)設(shè)計(jì)。
人類想設(shè)計(jì)蛋白質(zhì),歸根到底是想讓這種強(qiáng)大的生物元件來(lái)為自己服務(wù)。我們可以先設(shè)想一個(gè)需要的功能,然后看什么樣的結(jié)構(gòu)來(lái)實(shí)現(xiàn)功能。最初的要求可能是:瞄準(zhǔn)某個(gè)靶點(diǎn)的藥物分子、在細(xì)胞膜表面專門運(yùn)送某種物質(zhì)的蛋白……科學(xué)家最想擁有的「魔法」是,去設(shè)計(jì)一個(gè)自然界原來(lái)并不存在的蛋白質(zhì)。
蛋白質(zhì)設(shè)計(jì)領(lǐng)域的領(lǐng)軍人物大衛(wèi)·貝克(David Baker)將這個(gè)正在發(fā)生的進(jìn)程稱為「蛋白質(zhì)設(shè)計(jì)革命」,「這場(chǎng)革命與人類歷史上發(fā)生過(guò)的其它科技革命類似,我們將可以用新的方式來(lái)操控世界……通過(guò)『蛋白質(zhì)設(shè)計(jì)革命』,我們將學(xué)會(huì)用前所未有的方式,來(lái)操控生物分子。」他目前是華盛頓大學(xué)的計(jì)算生物科學(xué)家,在 AlphaFold2 模型推出之前,他帶領(lǐng)團(tuán)隊(duì)推出的預(yù)測(cè)蛋白質(zhì)方式是學(xué)界的主流模型。
David Baker | 來(lái)源:華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所
如今,他的實(shí)驗(yàn)室也走在蛋白質(zhì)設(shè)計(jì)的前沿。12 月初實(shí)驗(yàn)室發(fā)布了最新的模型 RF diffusion(射頻擴(kuò)散),這個(gè)模型將 AI 繪畫領(lǐng)域的擴(kuò)散模型創(chuàng)新地融入蛋白質(zhì)設(shè)計(jì)中。
另一個(gè)團(tuán)隊(duì)也發(fā)布了類似的成果,波士頓的蛋白質(zhì)設(shè)計(jì)公司 Generate BioBiomedicines,發(fā)布了一個(gè)蛋白質(zhì)設(shè)計(jì)程序 Chroma。這兩項(xiàng)最新的研究成果,都可以對(duì)性能、結(jié)構(gòu)先做一些設(shè)定,再依據(jù)這些設(shè)定來(lái)生成全新的蛋白質(zhì)。
來(lái)自貝克團(tuán)隊(duì)的一位成員說(shuō),「我們生成的蛋白質(zhì)與現(xiàn)有的蛋白質(zhì)完全沒有相似性。」Generate Biomedicines 的 CTO 則形容,「我們可以在幾分鐘內(nèi)發(fā)現(xiàn)花費(fèi)了數(shù)百萬(wàn)年的進(jìn)化是什么」。除了根據(jù)條件來(lái)重新設(shè)計(jì),兩個(gè)團(tuán)隊(duì)的最新模型還可以生成蛋白質(zhì)片段,將片段與已經(jīng)存在的結(jié)構(gòu)匹配。
這次研究中出現(xiàn)了讓大衛(wèi)·貝克非常驚喜的結(jié)果——生成了一種附著在甲狀腺旁激素上的蛋白質(zhì)。「它憑空想出了這種蛋白質(zhì)設(shè)計(jì)」。這種蛋白質(zhì)的功能是控制血液中的鈣水平。在設(shè)計(jì)時(shí),科學(xué)家只是告訴模型荷爾蒙的信息,然后讓它生成一種與之結(jié)合的蛋白質(zhì)。接下來(lái),在實(shí)驗(yàn)室測(cè)試這種蛋白的時(shí)候,他們發(fā)現(xiàn),新設(shè)計(jì)出的蛋白和激素緊密連接,甚至超出了現(xiàn)有的藥物。
David Baker 實(shí)驗(yàn)室設(shè)計(jì)的環(huán)狀蛋白質(zhì)|來(lái)源:華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所
02
設(shè)計(jì)蛋白質(zhì)的「魔法」
如果說(shuō)提出對(duì)圖畫的描述,讓 AI 幫你作畫已經(jīng)超出想象;提出一個(gè)對(duì)蛋白質(zhì)的要求,讓 AI 幫你設(shè)計(jì)出這樣一個(gè)分子,更像是一種超級(jí)能力。大自然花了上億年形成蛋白質(zhì)進(jìn)化規(guī)律,人類雖然不能完全翻譯這些規(guī)律,卻可以發(fā)明強(qiáng)大的工具,并對(duì)它發(fā)出指令:「生產(chǎn)一個(gè)可以與 X 結(jié)合的分子」。
擴(kuò)散模型已經(jīng)在 AI 繪畫顯示了威力。最基礎(chǔ)的直覺原理來(lái)源于物理學(xué)。在環(huán)境中,氣體分子會(huì)高濃度區(qū)域擴(kuò)散到低濃度區(qū)域,這個(gè)過(guò)程,也類似噪聲逐步擴(kuò)散、最終導(dǎo)致信息丟失。
將這個(gè)原理運(yùn)用在圖像生成,便是將「噪聲逐步擴(kuò)散、最終信息丟失」的過(guò)程逆向運(yùn)作。先生成一張充滿大量噪聲的圖片,再基于 AI 能力,一邊猜測(cè)哪些對(duì)于最終的圖像而言是「噪點(diǎn)」,將其去除,那么剩下的便是所需的「信息」。通過(guò)迭代,在噪聲中反復(fù)提取出「信息」,最終生成被指定的圖片。
為什么擴(kuò)散模型用于蛋白質(zhì)設(shè)計(jì),會(huì)有更強(qiáng)大的結(jié)果呢?極客公園咨詢了兩位計(jì)算機(jī)生物學(xué)領(lǐng)域的學(xué)者。他們表示,目前會(huì)有一些依據(jù)模型特點(diǎn)的推測(cè),但還很難說(shuō)清楚。不過(guò)目前的研究結(jié)果,已經(jīng)證明了擴(kuò)散模型的潛力。Baker 實(shí)驗(yàn)室表示:射頻擴(kuò)散方法在許多問(wèn)題上優(yōu)于現(xiàn)有的蛋白質(zhì)設(shè)計(jì)方法。
比如用來(lái)設(shè)計(jì)皮摩爾級(jí)別的結(jié)合劑(1 摩爾=10^12 皮摩爾)。Barker 實(shí)驗(yàn)室的科學(xué)家 Joseph Watson 難掩興奮地在 Twitter 上分享結(jié)果:我們?cè)O(shè)計(jì)了五種醫(yī)學(xué)相關(guān)分子的粘合劑。這些結(jié)合蛋白通過(guò)了最嚴(yán)格的計(jì)算機(jī)測(cè)試,現(xiàn)在正在實(shí)驗(yàn)室測(cè)試它們。將來(lái),可能只需要幾秒鐘就可以為任何目標(biāo)設(shè)計(jì)出高親和力的結(jié)合蛋白。
五種粘合劑|來(lái)源:Joseph Watson
而在 Generate Biomedicines 的最新成果中,具有對(duì)稱結(jié)構(gòu)的蛋白質(zhì)分子表現(xiàn)優(yōu)異。
Baker 曾經(jīng)說(shuō),「有時(shí)候我自己也會(huì)覺得這像是魔法。我喜歡做這些魔法般的事情。」只不過(guò)為了取得這些「魔法」,他們經(jīng)歷的失敗、復(fù)雜的研究過(guò)程,很少為外界所知。
還有許多結(jié)果等待驗(yàn)證。設(shè)計(jì)出的蛋白是不是能夠如所設(shè)想的具有特定功能?這需要合成出蛋白質(zhì),進(jìn)行實(shí)驗(yàn)驗(yàn)證。目前 Baker 實(shí)驗(yàn)室正在鑒定一種能與新冠病毒相關(guān)的蛋白。這種蛋白具有對(duì)稱的結(jié)構(gòu),能夠與病毒上三個(gè)對(duì)稱的刺突蛋白結(jié)合。
今年 6 月份,一款新冠病毒疫苗在韓國(guó)獲批上市。這是科學(xué)家運(yùn)用之前的蛋白設(shè)計(jì)能力研發(fā)出的疫苗。這款名為 GPB510 的疫苗,是一個(gè)人工設(shè)計(jì)的蛋白質(zhì)納米顆粒,上面布滿了新冠病毒的刺突蛋白片段。(下圖中的紅色部分),這些片段能夠激發(fā)人體產(chǎn)生抗體。
不斷發(fā)展的工具,會(huì)給人類帶來(lái)更多不同功能的蛋白質(zhì);如今,正來(lái)到了不斷突破的加速期。
*頭圖來(lái)源:enerate BioBiomedicines
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
本文來(lái)自微信公眾號(hào)“極客公園”(ID:geekpark),作者:凌梓郡,36氪經(jīng)授權(quán)發(fā)布。
