預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)只是開始 AI或?yàn)樯茖W(xué)領(lǐng)域帶來巨變
58%
過去半個(gè)多世紀(jì),人類一共解析了5萬多個(gè)人源蛋白質(zhì)的結(jié)構(gòu),人類蛋白質(zhì)組里大約17%的氨基酸已有結(jié)構(gòu)信息,而AlphaFold2預(yù)測(cè)的結(jié)構(gòu)將這一數(shù)字從17%提高到58%。它帶來的在生命科學(xué)各分支領(lǐng)域的革命,將在今后幾年到十幾年中逐漸顯現(xiàn)出來。
◎記者 崔 爽
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生物學(xué)的重要“圣杯”,也是人工智能落子生命科學(xué)領(lǐng)域最炙手可熱的研究之一。
近日,我國(guó)自研深度學(xué)習(xí)蛋白質(zhì)折疊預(yù)測(cè)平臺(tái)TRFold傳來好消息,其基于2020年第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)蛋白質(zhì)測(cè)試集的成績(jī)僅次于“阿爾法折疊的迭代版”(AlphaFold2),排名全球第二,這是國(guó)內(nèi)目前所有公開蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型中的最好成績(jī),我國(guó)計(jì)算生物學(xué)領(lǐng)域的表現(xiàn)躋身全球第一梯隊(duì)。
從2018年AlphaFold第一次代表人工智能“參戰(zhàn)”,到AlphaFold2用機(jī)器學(xué)習(xí)方法取得媲美結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的精測(cè)精度,計(jì)算生物學(xué)給蛋白質(zhì)預(yù)測(cè)這一世紀(jì)難題帶來了顛覆性的解法。人工智能會(huì)給生命科學(xué)領(lǐng)域帶來怎樣的巨變?蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)生物學(xué)里懸而未決的終極難題之一,會(huì)被人工智能徹底解決嗎?
深度學(xué)習(xí)可在計(jì)算生物學(xué)領(lǐng)域廣泛應(yīng)用
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生命科學(xué)領(lǐng)域一個(gè)由來已久、令人著迷的問題,同時(shí)又以難度大、成本高、進(jìn)展有限著稱。但這個(gè)人們本以為需要一個(gè)世紀(jì)慢慢探索的問題近年來卻取得了重大突破:2020年CASP14競(jìng)賽中,谷歌公司旗下的DeepMind公司研發(fā)的AlphaFold2取得了總分(GDT)92.4/100的成績(jī),也就是說,計(jì)算生物學(xué)幾乎獲得了與實(shí)驗(yàn)室方法精確度相當(dāng)?shù)牡鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)結(jié)果。
這個(gè)里程碑事件令結(jié)構(gòu)生物學(xué)家們感慨,自己用價(jià)值1000萬美元的電鏡努力了好幾年得出的結(jié)果,Alphafold2竟然一下就算出來了!耙牢抑,這是人工智能對(duì)科學(xué)領(lǐng)域最大的一次貢獻(xiàn),也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一!鄙镂锢韺W(xué)家、西湖大學(xué)校長(zhǎng)施一公不吝贊美。
為什么要預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)?
天壤蛋白質(zhì)折疊項(xiàng)目負(fù)責(zé)人苗洪江對(duì)科技日?qǐng)?bào)記者解釋,“研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,理解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與非蛋白質(zhì)之間的相互作用,對(duì)于生物學(xué)、醫(yī)學(xué)和藥學(xué)等都非常重要”。
傳統(tǒng)觀測(cè)蛋白質(zhì)結(jié)構(gòu)的方法主要有3種,即核磁共振、X射線、冷凍電鏡,但這些方法往往依賴大量試錯(cuò)和昂貴的設(shè)備,每種結(jié)構(gòu)的研究都要花費(fèi)數(shù)年時(shí)間。而人工智能應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的最新成果,即AlphaFold2,能在幾天甚至幾分鐘預(yù)測(cè)出以前要花費(fèi)數(shù)十年才能得到的具有高置信度的蛋白質(zhì)結(jié)構(gòu)。
“剛開始大家還在開玩笑,說Deepmind是不是通過什么方法盜取了真實(shí)實(shí)驗(yàn)結(jié)果,直到大家看到文章和開源代碼才敢相信這件事情真的發(fā)生了!泵绾榻ρ,這側(cè)面證明AlphaFold2預(yù)測(cè)結(jié)果之震撼,“這開啟了人工智能在計(jì)算生物學(xué)廣泛應(yīng)用的大門,讓整個(gè)領(lǐng)域的人看到了深度學(xué)習(xí)在這個(gè)領(lǐng)域可以廣泛應(yīng)用,這實(shí)打?qū)嵉碾p盲實(shí)驗(yàn)結(jié)果就是證明!
AI預(yù)測(cè)結(jié)果和實(shí)驗(yàn)室水平相當(dāng)
1994年,美國(guó)科學(xué)家約翰·莫爾特(JohnMoult)發(fā)起國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,每?jī)赡昱e辦一屆,競(jìng)賽的舉辦正是為了吸引計(jì)算機(jī)科學(xué)、生物物理學(xué)等不同領(lǐng)域的專家參與到蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)這一極具挑戰(zhàn)性的生物信息學(xué)問題中來。2018年,人工智能正式參與蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè),AlphaFold首次大顯身手,在98名參賽隊(duì)伍中排名第一。兩年后,AlphaFold2帶來真正的突破,它用機(jī)器學(xué)習(xí)方法對(duì)幾乎所有的蛋白質(zhì)都預(yù)測(cè)出了正確的結(jié)構(gòu),其中有大約2/3的蛋白質(zhì)預(yù)測(cè)精度達(dá)到了結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的測(cè)量精度。
事實(shí)上,過去半個(gè)多世紀(jì),人類一共解析了5萬多個(gè)人源蛋白質(zhì)的結(jié)構(gòu),人類蛋白質(zhì)組里大約17%的氨基酸已有結(jié)構(gòu)信息,而AlphaFold2預(yù)測(cè)的結(jié)構(gòu)將這一數(shù)字從17%提高到58%,因?yàn)闊o固定結(jié)構(gòu)的氨基酸比例很大,58%的結(jié)構(gòu)預(yù)測(cè)已經(jīng)接近極限了。它帶來的在生命科學(xué)各分支領(lǐng)域的革命,將在今后幾年到十幾年中逐漸顯現(xiàn)出來。
施一公在接受媒體采訪時(shí)曾談到,人類蛋白質(zhì)組里能夠被預(yù)測(cè)的以單個(gè)蛋白為單位的空間三維結(jié)構(gòu),已經(jīng)基本都被AlphaFold2預(yù)測(cè)了?傮w而言,預(yù)測(cè)結(jié)果可信、也比較準(zhǔn)確。對(duì)結(jié)構(gòu)生物學(xué)來說,這是一個(gè)顛覆性突破。此前人類尚未被解析的一些結(jié)構(gòu),現(xiàn)在基本上都已經(jīng)被預(yù)測(cè)。
對(duì)生物化學(xué)、細(xì)胞生物學(xué)、遺傳發(fā)育、神經(jīng)生物學(xué)、微生物學(xué)、病理藥理等一大批生命學(xué)科和研究領(lǐng)域來說,這會(huì)大大改進(jìn)人們對(duì)于生命過程的理解。比如,遺傳學(xué)家也許積累了大量數(shù)據(jù),但如果不知道蛋白質(zhì)結(jié)構(gòu),就沒法研究某個(gè)突變對(duì)于蛋白功能的影響,F(xiàn)在不同了,通過AlphaFold2的結(jié)構(gòu)預(yù)測(cè)就能查看人類遺傳病中的每一個(gè)突變?cè)谙嚓P(guān)蛋白結(jié)構(gòu)里的具體位置,進(jìn)而有可能推測(cè)出蛋白功能如何受到影響。
再比如,DeepMind預(yù)測(cè)出來的蛋白結(jié)構(gòu),包括了眾多G蛋白偶聯(lián)受體和關(guān)鍵酶在內(nèi)的一大批結(jié)構(gòu)未知的藥物靶點(diǎn)蛋白,而且預(yù)測(cè)的結(jié)構(gòu)足夠準(zhǔn)確。這對(duì)于制藥界來說太重要了,等于提供了可靠的藥物設(shè)計(jì)和藥物優(yōu)化的重要基礎(chǔ)。
單個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)只是起點(diǎn)
今年7月,DeepMind公開了AlphaFold2的源代碼,并在《自然》上發(fā)表論文闡述了AlphaFold2的技術(shù)細(xì)節(jié)。
“這次開源在生物學(xué)界掀起了巨大的波瀾,意味著生物學(xué)家終于擺脫了先進(jìn)設(shè)備的掣肘——此前這些昂貴的先進(jìn)設(shè)備只有經(jīng)費(fèi)充足的大學(xué)或研究機(jī)構(gòu)才有條件配置,而此后,小型團(tuán)隊(duì)或者個(gè)人研究者也有了參與蛋白質(zhì)研究的可能!碧烊绖(chuàng)始人、上海交通大學(xué)計(jì)算機(jī)系原副教授薛貴榮說。
苗洪江認(rèn)為,目前的單個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)只是一個(gè)起點(diǎn),更加精準(zhǔn)的側(cè)鏈優(yōu)化、蛋白質(zhì)的動(dòng)態(tài)分析、蛋白質(zhì)與其配體(如小分子、DNA、RNA、多肽、蛋白質(zhì)等)的相互作用等一系列的問題還沒有解決,接下來的工作重點(diǎn)將是利用目前的全蛋白質(zhì)組協(xié)同進(jìn)化分析,建立起蛋白質(zhì)與蛋白質(zhì)之間相互作用的精準(zhǔn)鏈路。
有了算法模型只是開始,向前走依然困難很多,薛貴榮坦言:“算力是很大的制約因素,比如AlphaFold2做了大量的數(shù)據(jù)蒸餾工作,他們的算法模型是基于30%的真實(shí)數(shù)據(jù)和70%的蒸餾數(shù)據(jù)一起訓(xùn)練的,背后是巨大的算力支持!
充足的算力可以讓蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從單一結(jié)構(gòu)向相互作用、從兩兩研究向規(guī);、從微觀結(jié)構(gòu)向宏觀系統(tǒng)前進(jìn),“生物界有很多蛋白結(jié)構(gòu),比如基因測(cè)序大概已經(jīng)測(cè)了幾十億條序列。但我們只知道序列,不知道結(jié)構(gòu),這就是很大的信息缺失問題!毖F榮說,“蛋白質(zhì)通常以復(fù)合物的形式成對(duì)或成組地承擔(dān)生命所需的種種功能。然而許多蛋白質(zhì)復(fù)合物的結(jié)構(gòu)仍然是謎,蛋白質(zhì)之間的相互作用也尚未被識(shí)別。我們需要有充足的算力去支撐整個(gè)體系,進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)設(shè)計(jì),研究蛋白質(zhì)相互作用,藥物研發(fā)等漫長(zhǎng)而富有挑戰(zhàn)的工作,尋找精準(zhǔn)的疾病治療新方法!
同時(shí),在數(shù)據(jù)來源和應(yīng)用方面,也需要藥廠、醫(yī)院等進(jìn)行協(xié)同和聯(lián)動(dòng)!拔磥砀嗟尼t(yī)藥企業(yè)、機(jī)構(gòu),以及人工智能公司,要一起把這個(gè)行業(yè)做大,現(xiàn)在只是個(gè)開始。”薛貴榮說。
(責(zé)任編輯:歐云海)