0
| 本文作者: 劉海濤 | 2021-05-24 10:43 |
近日,由百圖生科與播禾創新主辦,《醫健AI掘金志》協辦的 “首屆中國生物計算大會” 在蘇州閉幕。
作為主論壇報告的開場嘉賓,北京大數據研究院院長鄂維南,以《機器學習與科學計算》為題,在大會做了開場報告。
鄂維南表示,從50年代開始,科學計算領域發展了差分方法、有限元方法、譜方法等基本方法來處理基礎的物理模型,并且在工程和技術上得到了廣泛應用。但依然還有很多問題沒有解決。
例如:材料的性質與設計;分子、藥物的性質及設計;基于基本原理的控制論方法;燃燒問題(內燃機的模擬、設計與控制)。
這些因素也導致理論研究場景與實際問題距離甚遠。
鄂維南認為,解決這些問題的新的出路就是機器學習和物理模型的結合。以經典的物理模型提供數據,在此基礎上通過機器學習產生更有效且同樣可靠的模型。
以今天的生物計算為例,藥物設計最重要的環節之一就是自由能計算。如果沒有自由能計算,基于基本原理的設計藥物可能就是一句空話。
為此,鄂維南的團隊用上述方法研發了高維空間的高效采樣方法RiD和自由能計算的有效方案。
最后,鄂維南發表了自己對AI和科學計算的展望:“談到人工智能,大家馬上想到的可能是自動駕駛、人臉識別等場景。但接下來,傳統的科學領域將成為人工智能的主戰場。AI for Science 將帶動生物、化學、材料、工程等領域進入新的發展模式。”
以下為鄂維南院士的演講內容,雷鋒網做了不改變原意的編輯和整理:
鄂維南:在討論生物計算之前,首先談一談科學計算。
我是在2015年,開始利用深度學習做生物數據分析的,當時開發出一種被作稱為DeFine的軟件。自那時起,我們就發現了生物計算的潛力,AI從數據分析,到科學模型,都開始創造新的機會。
今天,科學計算主要涉及兩大主題:物理模型和數據處理。
首先,過去大家一直強調數學、計算機、統計學,但卻忽略了物理學。
事實上,科學計算的主要模型都是基于物理學,例如牛頓方程、空氣動力學、彈性力學、電磁場理論、量子力學等等。
雖然還有觀點認為,納米、生物會衍生出新的科學模型,但就目前情況而言,新的科學模型,都基本源于這些物理模型。但在過去的很多年里,科學計算模型,一直無法滿足解決實際問題的算力需求,為此,絕大多數科學家的工作都是簡化模型。即使一小部分物理學家找到基本原理,也無法將其應用于實際。
這種現象一直延續到上世紀50年代,電子計算機出現后才得以根本改變。
隨后,科學計算領域陸續發展出差分方法、有限元方法、譜方法等一些系列科學計算方法,讓人類首次實現利用基本原理來解決實際問題的夢想。像橋梁設計、大樓設計、飛機設計都已經利用科學計算,實現了基本的目標。從數學角度而言,這里需要的所有函數都是用多項式逼近的方式處理的。
這一下解決了結構力學、航空航天、天氣預報、石油勘探與開采等多個工科問題,組成了現代工業和技術賴以生存的基礎。但電子計算機并沒有一下解決所有問題,像生物計算就沒有實現利用基本原理進行藥物設計的需求。
其中的本質原因在于,藥物設計目前還沒有完全找到基本原理,但生物設計又是非常經驗化的學科,其中涵蓋材料、反應等多個問題,這些因素導致理論研究場景與實際問題相距甚遠。
那為什么會出現這種情況?我認為根本原因,就在于維數災難,即內在變量太多導致維數增加,復雜度也呈指數級增加。例如,大家熟知的薛定諤方程,其中的波函數自由度是電子個數的三倍。而模擬實際問題所需要處理的電子數往往是百萬千萬。
其次,生物計算的數據處理,生物計算在處理的數據種類上,就包含了DNA和基因組學、蛋白組學、圖像等多種數據。
從任務角度來看,數據處理主要包括三個步驟:
第一imaging——反演,通過實驗儀器和數據反演出內在結構;
第二image processing,如何去掉圖像中的多種噪音,并完成圖像分割、修補等步驟;
第三image recognition——圖像識別。
這和前兩大任務有較大區別。例如,在一系列圖像中,分別存在狗和貓圖像,那如何分辨出究竟是狗還是貓,就涉及到圖像識別問題。
圖像識別的本質就是在圖像空間找到一個函數,并告知圖像內容,其中圖像間維度信息大概有3000多維。而且以前處理的都是單張照片,現在處理則是帶有變量的函數,二者有本質區別。
其實,數學一直都是非常保守的領域,我自己就從未想過,數據會完成圖像識別這樣的任務。
這其中最大的變量,應該就是深度學習,從事計算機的人在經過多年努力后,終于找到深度學習這一工具,使圖像識別得到有效解決。
例如AlphaGo,從圖像識別到圖像生成再到AlphaGo,這三個過程從數學角度而言就是高維問題。第一個問題是解決高維函數逼近,第二是高維概率密度,第三是解決高維超大空間Bellman方程。
深度學習解決問題的本質,就是提供了一個高維函數的逼近方法。而科學計算最大的影響就是將數學計算方法和物理數據這兩類方法結合起來。
過去大家一直都將模型和數據割裂開來,兩者結合之后,就可以從模型得到數據,而后從數據得到更有效的模型。
另外,從分子動力學角度而言,藥物設計作為分子動力學最主要的應用場景,涵蓋了基因組學、蛋白組學等多個維度信息。而且,分子動力學也是基本藥物設計最不可或缺的工具,其中主要的困難點就是算原子之間的相互作用,這些都要通過解電子問題實現,需要遵循量子力學原理。
1985年,出現了一個劃時代的工作,即通過量子力學計算原子之間相互作用力,使分子動力學成為可靠工具,但因為這種方法效率有限,一般只能處理幾百個原子。所以,人們只能通過猜測方法來解決實際問題,但通過猜測設計藥品并不可行。
于是通過機器學習,以經典的物理模型提供數據,在此基礎上通過機器學習產生更有效且同樣可靠的模型的方法,開始被大規模使用。各種小分子、大分子藥物和復雜材料都可以達到與量子力學同樣的精度,且比量子力學更有效得多的體系。
通過機器學習方法+高性能計算得出了結果,首次將機器學習和科學計算、高性能計算結合在一起,并帶來幾個數量級的展現。
除了分子動力學以外,我們團隊也發展出一系列新方法,為藥物研發提供幫助。
例如,具有量子化學精度的密度泛函模型DeePKS。過去密度泛函主要是針對于量子力學,在大分子方面還有諸多的限制,DeePKS主要是希望像量子力學一樣,能夠做到滿足小分子,以及一部分相對小一點的大分子的需求。
除此之外,我們還研發了高維空間的高效采樣方法RiD和自由能計算的有效方案。在藥物設計當中,最重要的工具就是自由能計算,如果無法實現自由能計算,那藥物設計就是一句空話。RiD的主要作用就是通過強化學習方法,做一些粗粒化分子動力學運算。
前幾天,我們還發布了開源社區DeepModeling的社區宣言,希望將大家的力量整合到一起、推動事情向前發展。DeepModeling這個概念最早源自開源社區,即將深度學習與物理模型相結合。
最后,講一下對AI和科學計算的展望。
談到人工智能,大家馬上想到的可能是自動駕駛、人臉識別等場景。但接下來,傳統的科學領域將成為人工智能的主戰場。AI for Science 將帶動生物、化學、材料、工程等領域進入新的發展模式。另外還有新一代科學軟件的落地問題,過去我們的科學軟件、工業軟件都有卡脖子問題。但隨著這些新模式出現,會推動新一代科學軟件加速落地,為我們的科學軟件建設提供絕佳的機會。
此外,科學研究也將從“小農作坊”轉變到“安卓”模式。過去各大科學實驗室普遍都是自給自足的小農作坊,在大平臺出現之后,大家可以對應開發出自己感興趣的應用、平臺和科研,并衍生出巨大的科研社區。 雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。