0
| 本文作者: 喬燕薇 | 2022-08-03 17:39 |
AlphaFold蛋白質結構數據庫向公眾免費開放一年后,上周,它再次刷新了我們對它的期待:已預測出超過100萬個物種的2.14億個蛋白質結構,幾乎涵蓋了地球上所有已知蛋白質。
此次數據庫更新的蛋白質三維結構涵蓋了涵蓋了植物、細菌、動物和其他微生物等多類別,并且能通過谷歌云公共數據集下載。
在可預測的2.14億蛋白質結構中,約35%的結構已達到了實驗手段獲取的結構精度,80%的結構可靠性足以用于多項后續分析。
而且,以上數據將繼續免費向公眾開放,DeepMind的CEO Hassabis博士說,“這是我們送給人類的禮物。”
AlphaFold 2橫空出世時的熱烈場景重現,再次在國內外的社交媒體上引發熱議。
作為“圈內人”的生命科學領域研究者們,又是如何看待AlphaFold此次取得的成果?
美國密蘇里大學哥倫比亞分校Shumaker講座教授許東向雷峰網(公眾號:雷峰網)《醫健AI掘金志》介紹,DeepMind此次發布的成果中,依舊沿用此前的AlphaFold工具,在技術上并無大的創新。
但其預測出的2.14億個蛋白質結構將起到非常大的作用,借助這些蛋白質結構,生物學領域的諸多問題可以從全新的角度進行解答。
許東教授是AAAS和AIMBE會士,曾因為蛋白結構預測的工作獲得2001年美國“最杰出研究與開發100人獎勵(國際2001R&D 100 Award)”。
從1997年開始,許東教授就開始了蛋白質結構預測這方面的研究。
“我們過去做蛋白質結構預測只能通過序列對比的方式進行,那時候大部分蛋白質的結構都還沒有發現,預測的準確率也不高。AlphaFold出現以后蛋白質結構預測的相關研究都可以再上一個新臺階。”
通過挖掘已發現的兩億多蛋白質結構數據觀察蛋白質整體折疊的分布規律,可以更清晰地認識蛋白質的進化、功能和分布。
但是,這兩億多的蛋白質結構數據可以全部應用于研究中嗎?
深圳灣實驗室系統與物理生物學研究所副所長周耀旗教授,同樣進行了多年蛋白質結構預測的研究。
在AlphaFold出現之前,他和他的團隊就發展了神經網絡回歸預測蛋白質真實二面角的方法,為端對端的蛋白質結構預測提供了基礎。
周耀旗指出了此次公布的海量數據背后隱存的問題:AlphaFold蛋白質結構數據庫中的數據雖然龐大,但其中部分蛋白質由于同源序列較少,AlphaFold并不能準確地進行預測,仍需補充更多的進化信息。
此外,有些蛋白質本身結構不穩定,需要靠與其它分子結合來穩定化,其結構也難以準確預測。
“AlphaFold使用信任度量pLDDT描述各個氨基酸在結構內的可信度,當pLDDT指標過低時,蛋白質結構就是不可用的。”
許東也指出,此次AlphaFold預測出的蛋白質結構中有部分結果結構不穩定,不能應用于研究中;
此外,當兩個結構在序列上變化較小時,例如蛋白質中一兩個氨基酸發生變異的情況,AlphaFold無法區分其差異。
中國科學院深圳理工大學(籌)計算機科學與控制工程學院院長潘毅教授也有類似的顧慮。
計算機背景出身的他表示,“人工智能有一個學習的過程,要通過大量的訓練來提升其準確性。如果AlphaFold預測的蛋白質結構是不常見的結構,AI無法通過已有的知識學習到這個結構,預測時就容易產生偏差。”
潘毅向《醫健AI掘金志》介紹,AI是一個能夠利用現有的知識預測將來的工具,如果連現有的知識都是缺失狀態,自然無法預測新結構。
“除非把世界上所有的蛋白質結構都預測并驗證過了,否則是不可能達到100%的準確率。”
雖然對部分蛋白質結構的預測不完全準確,但AlphaFold蛋白質結構數據庫在開放數據的同時也提供了相應結構預測的準確度報告,為使用者提供參考。
數量龐大的蛋白質結構為生命科學研究帶來的影響仍是毋庸置疑,尤其是在結構生物學的領域。
“已預測出的蛋白質結構,可以更好地幫助研究者解析人體蛋白質的功能,”加拿大蒙特利爾大學MILA實驗室教授唐建表示,“但是對藥物研發的影響有限。”
唐建如今正集中精力研究圖表示學習在新藥研發中的應用。
對于AlphaFold給制藥行業帶來的作用,潘毅的看法卻更為積極。
他告訴《醫健AI掘金志》,AlphaFold預測出的蛋白質結構對生物制藥將有很大的幫助,尤其是在小分子篩選的工作上。
自2020年回國后,潘毅的研究逐漸從理論轉向應用,藥物研發也是其研究的重點落地方向之一。
他認為,這些已經預測完成的蛋白質結構將為生命科學領域內的研究者們節省頗多精力與資金,可以直接從數據庫中查找相應的結構進行研究,不必再自行解析。
總結而言,AlphaFold蛋白質結構數據庫中的結構雖然有不足之處,不能全部將其應用于研究中,但數量龐大的蛋白質結構對生命科學各個領域的研究,仍有著不可忽略的意義。
雖然誕生只有只有短短四年的時間,但AlphaFold在蛋白質結構預測上的影響幾乎翻天覆地。
2016年,DeepMind公司開發的AlphaGo擊敗韓國傳奇圍棋選手李世石后,其先進性與潛力受到認可,DeepMind決定成立團隊開始研究“蛋白質折疊問題”。
2018年12月2日,AlphaFold橫空出世,在第13屆國際蛋白質結構預測競賽(CASP13)上預測出了43種蛋白質中25種蛋白質的最精確結構,力壓其他參賽者取得第一名 (在條目A7D下),其研究團隊再次擴大,開始研究創新的新系統。
兩年后的2020年11月30日,DeepMind率AlphaFold2再次參賽,在CASP14上一舉奪魁,預測結構達到原子精度,中值誤差 (RMSD_95) 小于1埃,比次優系統準確3倍,可與實驗方法媲美。
CASP的組織者曾表示,AlphaFold2破解了有著50年歷史的“蛋白質折疊問題”的重大難題。
2021年7月15日,DeepMind通過一篇Nature論文開源了其基于深度學習神經網絡的AlphaFold2模型;
一周后的7月22日,DeepMind再次發表Nature論文,推出AlphaFold蛋白質結構數據庫,向公眾免費開放人類蛋白質組以及另外20種模式生物的總共超過350000種結構,并且對98.5%的人類蛋白質結構進行了準確預測。
在此之前,科學界解析的蛋白質結構僅僅覆蓋了人類蛋白序列17%的氨基酸。
時隔一年,AlphaFold再次引起轟動,它對生物信息學領域的研究歷程又將會產生多大的影響?雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。