0
| 本文作者: 劉海濤 | 2021-07-29 12:21 |
盤點互聯網的前十年,電子商務絕對是那個時代最耀眼的產業,也更是各個互聯網企業的首次集體站隊。
彼時,卓越亞馬遜、eBay等平臺在海外的巨大成功,以及新物流市場的全面起步,讓電子商務成為國內最大的紅利市場。
而當初京東、淘寶、蘇寧的那次集體站隊,不僅創造出了BATJ的巨頭格局,甚至當初的規則還影響著現今的互聯網商業模式。
如今,AI新藥研發的美好前景,也開始觸發巨頭和新創業們的再次集體下注。
在這一切還沒塵埃落定之前,少年版本的AI新藥研發真的會如己所愿成為新的造富時代,還就只是一場虛假的泡沫神話。
近日,雷鋒網《醫健AI掘金志》以“AI制藥·下一個現象級賽道”為主題,邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云,五家先鋒企業,舉辦了一場云峰會分享。
作為此次論壇的演講嘉賓,燧坤智能CEO曾亥年,以《人工智能重塑生物醫藥研發的現狀與展望》為題,進行了演講。
曾亥年表示:如今人工智能應用已經拓展至各個行業,例如圍棋、計算機圖像、醫學影像、安防領域等等,而在新藥研發領域,通過阿斯利康、AlphaFold2等藥企和AI公司的推動,也漸漸成為共同追捧的熱點。
但AI+制藥在創造巨大前景的同時也存在許多挑戰。
例如,美國著名藥化學家Derek Lowe,近日就對于AI制藥企業Exscientia和住友集團合作研發的針對強迫癥的創新藥——DSP-1181發難。
首先,Derek 認為這個分子雖然是 AI輔助研發出來的藥物,但不一定能夠解決靶點本身和臨床生物學不清晰的問題,而且新分子發現也并不是藥物研發的限速步驟。
其次,Derek 表示,已經有大量類似小分子被發現,所以把小分子用在OCD適應癥領域的想法并不是新的創新。
最后,AI并沒有解決臨床失敗率大于90%的問題。
以下是演講全部內容,《醫健AI掘金志》做了不改變原意的整理和編輯:
大家好,我是燧坤智能的CEO曾亥年,教育背景包括生物學和化學。
本科在復旦大學學習生命科學,之后在美國有兩段學習經歷:分別主修植物化學,涵蓋分析化學和分子生物學,另一段學習經歷是美國FDA注冊法規。
回國之后做過一段時間BD & licensing,然后做過兩年時間創新生物藥投資,也算是生物藥行業一個從業者。
2019年我加入燧坤智能,成為燧坤智能CEO。
今天很榮幸能夠用一個小時,在這里聊一下人工智能如何重塑生物醫藥行業,用具體案例講述行業現狀和面臨的挑戰,并且和大家一起展望行業的未來。
首先有個聲明,今天所講的東西很多來自于網上,不代表公司立場,更多的是站在一個全局角度,探討人工智能和生物醫藥兩者結合的現狀。

大家應該還記得,2018年電影《我不是藥神》在國內上映。看過這部電影的人基本上都會哭。
電影主要講述的是這樣一個故事:由于新藥研發的前期投入很大,成功率很低,因此批準上市新藥的定價往往非常高,這就造成國內許多重癥病患,無論是吃藥還是不吃藥,都是一個難以取舍的抉擇。
如果吃藥,很有可能就會吃得傾家蕩產;如果不吃藥,就基本上是放棄生命選擇死亡了。這是一個非常悲傷的故事。
這部電影對于醫藥行業算是反面的教材。醫藥行業就是以病人為中心,以臨床需求的滿足為中心,去解決病患無藥可用、用不上藥和用不起藥的問題,也就是可及性和可負擔性的問題。
所以,在今天給大家分享的主題下面,我寫了一小行字:讓藥神被AI取代。

今天的分享分成四個部分:
第一部分是背景,將一些概念厘清;
第二部分是現狀,通過案例講述人工智能具體應用以及面臨的挑戰;
第三部分是展望,說說未來人工智能如何改變整個生物醫藥研發;
第四部分是公司的情況。
這張圖我相信大家都有看過,映射《我不是藥神》里著重凸顯藥價過高的問題,主要源于新藥研發三個大問題:失敗率高、投入高、耗時長。

我在剛入行的時候,在美國問過一個新藥研發科學家,“為什么藥物研發那么難?”
他肯定覺得很奇怪,作為一個行業里的人,怎么連這個問題都不知道?但是他直接就回答我,說“如果你有答案,一個解決方案,那么你的解決方案至少值百萬美元。”
這里面的失敗率,我們寫的是90%,其實遠遠不止90%。因為做任何一款新藥,能從臨床前推到臨床,也就是推到人體實驗,基本上都是要萬里挑一,甚至有可能是百萬里挑一。
這樣的一個失敗率遠超90%,投入成本還要考慮到大量研發失敗的藥物,這些成本也要攤薄在一個成功上市的藥物上,所以整個投入費用非常高。
還有耗時,耗時大家好像沒有什么概念,大約是9~15年時間,而任何一個藥物上市,專利只有20年時間。
這意味著在上市之后,藥物能夠在市場上獨家做銷售時間非常短。
這也是為什么藥物,尤其是一些非常罕見的急重癥新藥上市之初就會面臨藥價非常高的市場現狀。
這是一個必然,企業必須在短暫的專利保護期內將前期研發投入全部收回,此外還必須有一定盈利。
正因為存在這三個問題,整個行業一直在追求全新技術手段解決難點。
其中有一個技術手段行業逐漸重視起來,人工智能,其實分兩大塊:
一塊可以理解成是簡單的、以規則為基礎,去制定相應的或者開發相應的模型;
另外可以用幾個關鍵詞籠統定義(連接主義、大數據、機器學習等等。)

大家想象一下,這相當于教一個小朋友,給他看幾張貓、狗照片,然后讓他試圖理解什么是貓,什么是狗,接下來,他很有可能就判斷出什么是貓,什么是狗。
這樣的學習能力,就是基于數據判斷學習,這樣的學習也是狹義人工智能定義。
但大家記住核心還是基于大數據的機器學習模型,基于大數據的人工智能模型。
廣義AI有一套基于CADD工具,也有一套基于機器學習的工具,這兩套工具在不同維度區別非常大。

對于AI來講,它是基于大數據的機器學習,進一步做相應特征提取、模式識別。然后這些識別結果可以應用在不同的、全新靶點或分子形態。
因此,我們需要有大量訓練數據集建立這樣一個模型。
而CADD不太一樣,這套理論更像人工智能這一寬泛概念中,基于規則的,尤其是基于物理學規則,如量子力學規則、牛頓力學等規則的模型,這樣模型更多運用在計算自由能、勢能等物理參數上。
并且,CADD不是一個龐大訓練數據集,而是在特定靶點或化合物上有相應數據,如蛋白質靶點結構相關數據,像共晶數據,然后再基于CADD模型搭建構效關系就會更加準確一些。
AI和CADD在算力方面要求也不太一樣,AI對于算力要求其實相對比較低的,但通量比較高。
同時因為AI訓練數據一開始就是幾十萬到幾百萬條,所以精度相對較高。例如計算百萬級別小分子,基本就是幾個小時,最多也就是幾天時間。
而CADD需要的計算算力往往與計算精度成正比,精度越高,算力要求也就越高。
例如計算一個自由能擾動,或者用量子力學計算,需要12個小時甚至幾十天時間才能完成。所以CADD和AI機器學習在算力要求方面的差別還非常大。
另外還有兩個關鍵差異:
一是迭代優化,AI可以隨著計算數據量不斷提高,甚至這些數據不需要同一個靶點,只要隨著數據不斷增加,模型精度就會得到不斷提升。
而CADD通常情況可以直接從頭做計算,但從頭計算對預算要求也很高。
另外,如果不做從頭計算,CADD就需要一些已有實驗數據、已有共晶結構,甚至大量結構信息和親和力數據信息給到軟件,不然構建出的模型就不會準確。
這里就有一個悖論,在大量數據情況下,商業價值就會相對較低。
第二是應用場景,由于人工智能模型、機器學習模型基于數據驅動,所以一般能夠做大量基于生物學預測,如選擇性、毒性預測和成藥性等,所以人工智能模型、機器學習模型應用潛力更大。
而CADD更多還是基于計算化學模型,所以在生物體內幾乎沒有什么應用場景,這是AI和CADD在算法路徑上的不同點。

回過頭來看,人工智能已經在很多領域里有了非常多應用。大家可以看到有圍棋、計算機圖像、影像識別、安防領域的廣泛應用。

在新藥研發領域,這個應用也非常明確,就是通過大量數據做特征提取以及模式識別。
所以人工智能在生物醫藥領域中,在新藥研發各個環節都可以有大量應用,無論是藥物早期發現、靶點發現,還有臨床前研究、臨床實驗如何挑選合適病人,以及藥物上市之后如何拓展相應適應癥、拓展藥物全新靶點都有巨大應用價值。
講完了背景,接下來我想跟大家介紹幾個案例,也就是具體現狀。

第一個是阿斯利康。
今年3月,阿斯利康在他們的open day里提到小分子新藥研發管線中,目前有超過50%項目使用了一部分 AI工具。
由于阿斯利康應用不同AI以及數據科學工具,所以他們公司在新藥研發領域里整體成功率顯著高于行業平均水平。
行業里面平均需要用三年時間,而阿斯利康只需要用一年時間;行業里平均需要合成幾千個小分子化合物,但阿斯利康只要合成1/3到1/5數量的小分子,成功率遠高于行業平均水平。
另外,阿斯利康也和AI公司開展廣泛合作,比如和BenevolentAI合作,通過疾病知識圖譜發現新靶點,再基于新靶點尋找候選藥物。
同時,阿斯利康也有兩個不同的AI工具,一個是REINVENT,做虛擬篩選;另外一個是AiZynth,做逆合成路線設計。
現在已經有越來越多藥企嘗試和AI公司,在不同領域開展合作,除了小分子領域,大分子領域里也有藥企向AI公司拋出橄欖枝,尤其是新冠疫苗。

其中Moderna就利用了AI和machine learning高效開發新冠疫苗,應用主要有三塊:
第一,評估病毒逃逸,即對于免疫逃逸或者疫苗逃逸;
第二,通過人工智能模型在設計疫苗時針對密碼子進行優化,即codon optimization;
第三,對mRNA結構做優化,可以達到兩個效果,一個是mRNA二級結構相對穩定,更利于翻譯;另外翻譯時候能夠提高蛋白質產量,使得免疫誘導和免疫激活處于最強水平。

除了剛才提到兩個案例,去年還有一篇非常重磅的文章,介紹MIT的James Collins課題組成果:通過人工智能發現全新抗生素。
這項成果有一定運氣成分,他們所構建的模型其實是基于一個非常小的樣本,只有2000多個化合物,而且僅僅針對大腸桿菌。
他們就是在這樣一個小樣本數據中構建模型,再放到6000多個化合物庫做虛擬篩選,最后在前99個分子中找與傳統抗生素非常不一樣的分子。
他們最后找到一個分子,也就是Halicin,這個分子與其他抗生素確實長得不一樣
大家可以關注到它與其他抗寄生蟲或抗真菌類藥物比較接近,如甲硝唑。
完成虛擬篩選之后,進行大腸桿菌抑菌實驗,發現它的抑菌效果還不錯,再拿這個分子針對其他耐藥革蘭氏陰性致病菌做相應抑菌試驗,發現也有抗菌活性。
因為從一開始建立機器學習模型的時候,并沒有考慮抗生素結構本身,而是考慮抗生素結構相關性,正是因為沒有考慮到這個機制,所以他們找到了 Halicin。
這是一個完全不一樣的抑菌機制:通過破壞細菌細胞膜上維持電化學梯度能力來殺死細菌,也就是這個分子把細菌質子泵能力給破壞,導致細菌沒有辦法產生能量,進而導致死亡,所以對于耐藥致病菌也有一定效果。
這也證明機器學習模型、人工智能模型在新藥研發中,哪怕是在數據量不夠情況下,依然有希望找到非常好的候選藥物。
下面兩個案例在網上存在較大爭議。

這篇文章是2019年6月份發表于Nature Biotechnology上的。
當時這篇文章在業界很轟動,因為國內傳播這個文章時,用到標題是“AI在21天/46天獲得先導化合物”。
這樣一個標題讓傳統藥化界為之一震:居然能夠那么快速度拿到先導化合物?
但美國非常有名的藥化學家Derek Lowe,也是生物醫藥行業評論家,卻提到了幾個觀點:
第一,這個分子還需要進一步做優化,換言之這只是一個先導化合物,并不是PCC。
第二,這樣一個分子其實和藥化學家看一眼就能想到分子改造非常接近,他這里寫的叫“too obvious”,這還有另外一個內涵(就是專利里很可能已經覆蓋掉這個分子,所以并沒有專利空間。)
第三,對應上述提到的“too obvious”,他只是把一個羰基變成一個異惡唑。
我覺得這個變化不同人可以有不同的觀點,但不管怎樣,至少看上去結構整體相似度還比較接近。
所以Derek Lowe就認為,整個流程并沒有能夠真正證明,AI確實能夠把這個流程應用在不同領域里面,從而找到一個最好的化合物。
這其實還有一個問題,整個流程里用到大量針對DDR1靶點的小分子配體,大概有幾百個到幾千個。
大量數據構建一個模型,最多做出來的也就是一個me too、me better,連fast follow可能都不算,更不用說first in class。
那這個流程是不是真的能夠應用全新的、數據量非常少的靶點上做相應藥物發現,或者快速找到先導化合物,這其實是非常存疑,這也是這篇文章有爭議的地方。
還有一個是關于行業里面炙手可熱的一家企業(Exscientia),這家公司一直有大量新聞報道,最近這段時間也有一個藥物啟動臨床實驗,和住友一起合作研發針對強迫癥的藥——DSP-1181。

Derek Lowe對此也發表評論:
第一,他認為這個分子雖然是AI輔助研發的藥物,但不一定真的能夠解決掉靶點本身,或者生物學不清晰問題,并且他認為新分子發現也并不是藥物研發的限速步驟。
第二,Derek表示已經有大量類似小分子被發現,所以把這些小分子用在OCD適應癥的領域想法并不是全新。
第三,Derek認為AI并沒有解決臨床失敗率大于90%的問題。
我覺得Derek可能混淆了AI在藥物研發中起到一個主要作用,相信AI更多地是被用來判斷這個分子是不是適合OCD適應癥,以及適應癥對應的靶點。
它本身不能解決靶點和適應癥之間生物學問題,或者臨床失敗率高問題,AI更多地還是站在靶點、小分子之間關系去解決第一步—即藥物發現。
所以在這個疑惑上,我覺得Derek可能對于AI期望太高,勉為其難。
接下來簡單談談逆合成。
從前兩年一直到今天,整個業界已經有越來越多人關注逆合成,國內好幾家公司在用不同逆合成工具。

但大家對于逆合成普遍判斷都是對于已有、明確有具體反應路徑的分子,逆合成效果非常好。
因為它相當于計算機記住了所有反應路徑,以及這些反應路徑每一個原料、底物、價格、反應的得率。
所以當給到一個它見過的分子,逆合成路徑推薦是非常快速。
但我們經常遇見都新分子,像現在的新藥研發,無論是做fast-follow,還是first in class,為了有自己的專利空間,設計出來的一定是全新分子,甚至之前從來沒有人報道過。
而這樣一個分子合成路徑一定是新的,此時計算機再做推薦就會存在一定問題。
所以我們得到的反饋是,大家認為從逆合成角度,現在能起到作用還相對有限,但我們相信在不久將來,逆合成預測一定會做得越來越好。
現在單步反應已經做得很不錯,在未來多步反應一定也會做得越來越好,而且能夠把不同維度信息全都整合進來,包括原材料成本和可及性等相關信息。
我這里還想講的是關于hERG預測。
我們拿過自己的數據做相應實驗,最后得到的結論就是,目前主流的hERG相關模型準確率都不太高,相關性基本在0.1~0.2之間。
為什么會出現這個問題呢?
這與一開始模型建模有很大關系,也就是訓練數據集雖然是對的,但模型總體的框架思路,并沒有真正做好相應特征提取和模式識別,導致計算機基于這樣一個數據集“學歪了”,或者有一定bias,后面預測就會出現大量問題。
我相信隨著對于hERG本身生物學認知的提升,以及更多訓練數據集,模型最終的整體相關性會得到不斷提高。

還有一個案例和肝臟毒性相關,就是藥物誘導肝臟毒性 drug induced liver injury。
熟悉藥物誘導肝臟損傷會知道,在做動物模型、細胞模型,還是做酶動力學實驗時觀測點完全不一樣。
但建模時候到底用什么樣數據,用什么樣算法框架分析學習數據,其實需要不同算法模型團隊,需要基于自己判斷認知去做相應模型。

這里很容易把不同數據混到一起,導致模型什么都沒有學到,或者對將特定數據類型建立一種模型,但預測卻是另一個類型。
例如,想做生化實驗數據模型,但我想預測細胞水平數據,這樣很有可能會南轅北轍。
所以在這個領域中,算法模型、機器學習模型、人工智能模型一定要根據具體數據集、具體問題做相應調整。
還有抗原選擇預測,我們在新冠期間針對新冠病毒做過大量MHC I表位結合預測,其中幾個地方需要大家關注:
第一,人類其實有不同MHC表位,這些不同MHC表位在每個人發生率是不同的。
所以我們輸血時候要分血型,如果是器官移植則還要看亞型,不同MHC或HLA型對應表位親和力越好,或者表位被呈遞展示出來可能性越好,其實會很不一樣。
舉個例子,有一段表位在兩個不同亞型人種親和力不同,相差10倍也就意味抗原設計時候要考慮生物學本質問題,不能簡單認為某一特定HLA亞型最優表位,直接做抗原選擇。

除此之外,還要更多考慮本身表位生成是否符合自然法則,以及當表位生成之后,怎么設計整個抗原,應該把不同表位串起來,還是直接就用一個完整S蛋白。
還有一個點RBD排序并非最高,我看一個文獻,寫到RBD起始氨基酸是300多到500多,并沒有出現在前10名。
現在有很多疫苗用到的都是RBD表位,那是不是我們應該用一些其他表位,或者其他抗原去設計新冠疫苗,尤其考慮到有效激發細胞免疫。
這也是從人工智能角度,反過來可以給予我們生物學角度在疫苗設計上的反思。
另外通過密碼子優化增加蛋白質表達量,還要考慮問題就更多,例如密碼子優化模型在某一個蛋白質能做到最優同時,在其他蛋白質是否也能通用。
另外,影響蛋白質翻譯因素也有很多,這些是不是都已經考慮進來,還是只考慮了一部分。
在做蛋白質的密碼子優化時,還考慮產量、蛋白質穩定性的關系,這些都是人工智能模型構建過程中需要解決的問題。

AI在整個生物醫藥領域應用中,大家可以聽到很多概念,包括探索更廣泛化合物空間、從大量數據里學到很多規律再反哺不同領域,以及應用在全新靶點或全新分子角度再提高效率等等。

其實真正判斷人工智能模型應用價值角度有很多,下圖右側是簡單羅列一些,當然,這些都是基于自己的一些觀察,不一定完全正確。
我們相信短期人工智能跟生物藥結合,更多還是人腦和機器,或者human Intelligence和artificial Intelligence之間的協作互動。

這個圖大家看到過很多次是DMTA的流程,從開始設計(Design),然后把實驗做出來(Make),再做測試(Test),再做分析(Analysis),最后反過來的一個循環。
人工智能在建模時候遠比大家想象要復雜,很多人可能以為人工智能建模,就是我有很多數據,再建了一個模型,然后就很容易到達終點。
其實不是這樣,真實大數據分析是反反復復、起起落落,有很多問題,很有可能建出來的模型既沒有學到合適特征也沒有學到應有模式,預測出來全是瞎猜,甚至可能比丟硬幣準確率還要低。
這個時候就需要大家回過頭來看一下,究竟是什么地方出了問題,是最早的需求出了問題?還是數據本身出了問題?數據清洗出了問題,還是最后對于整個數據的建模錯了、框架、算法選擇錯了?抑或是特征工程用錯了?或者整體判斷標準和判斷依據錯了?
所以建模過程非常復雜,這也是為什么在短期內我們依然需要Human Intelligence和artificial Intelligence一起來協作,才能最終達到生物醫藥研發上效率提升。

AI和生物科技在新藥研發領域里面的深度融合內容基本上這個表里都框進來了,大部分聚焦在候選分子的發現或者優化上。
這些優化已經不僅局限于小分子,可以是多肽、表位抗體抗原選擇、疫苗,也可以是生物大分子藥物。
除了這一塊,臨床前大量研究也可以跟人工智能相結合。
臨床實驗中,AI可以去找到相應生物標志物,包括對一些病人分析以便我們找到對應病人,進而找到相應診斷方法,最后能夠使得臨床實驗成功率得以提高,病人受益更多,不良反應更小。
還有藥物再利用,單用也好,做聯合療法也好,也包括最簡單直接快速利用人工智能算法、模型、腳本、爬蟲做信息聚集和綜合,構建知識圖譜,最后還能匯總起來給到科學家快速做判斷,這就是計算機一直以來的關鍵作用。

中長期來看,人工智能是全面整合到或者說是賦能生物醫藥的各個階段的:
第一,能夠通過人工智能提升疾病認知,包括衰老認知,包括與干細胞相關、再生醫學相關。
第二,能夠拓展疾病治療創新平臺,和不同、全新的一些therapeutic modality合作,不僅僅是小分子,可以是多肽、大分子,多肽+小分子、單抗的大分子,各種各樣的核酸類藥物。

這里有一個小例子,AI在腫瘤治療領域的應用。
從一開始靶點發現,到藥物發現,最后確定聯合療法,哪些病人哪些藥物是最有用,以及如何確定給藥劑量,整個流程都是可以用到人工智能、機器學習模型去起到相應輔助賦能、提升效率作用。
最后介紹一下我們公司的情況。

我們還是一個初創型企業,于2018年9月份在圖靈人工智能研究院幫助下孵化成立,公司注冊在南京。
現在在北京有自己人工智能算法研發中心,在上海有新藥研發中心和商務中心,整個技術團隊擁有可以從0~1建模能力。
因此,我們過往無論是學術上還是研發上,其實都有大量優良track record,可以做大量模型從0~1的從頭開發。
我們自己也有很多軟件著作,包括已經申請了的好幾個模型的專利。小分子全球PCT專利已經提交兩個,后續也在寫幾個新小分子專利。

我們和其它 AI公司不太一樣在于,我們不聚焦計算化學或者物理化學上,我們更多聚焦在多領域。
例如剛才提到的小分子、多肽大分子等,我們都有相應模型可以覆蓋到,而且我們也有能力為 CRO、為新藥研發做相應模型建立。

我們現在合作單位已經超過20家,自主研發項目超過8個。
整個新藥研發的流程是非常漫長的,都是串聯的過程,我們現在在做的事情其實是在降本增效,通過人工智能平臺和不同合作方合作,賦能創新生物醫藥的研發。
我們相信未來非常短時間里,也許是3~5年就能夠重塑整個生物醫藥的研發流程,通過這樣一個生物醫藥研發流程重塑再造。
我們可以真正提升新藥研發效率,從而實現(讓藥神被AI)。
Q1、AI公司的數據來源一般從哪里來?
曾亥年:一般情況下大家都是幾個來源:
①公開數據。公開數據現在已經有很多了,但有幾個注意事項:
一個是公開數據的質量很有可能是有一定問題的;
第二,公開數據其實會有大量的數據缺失,甚至會有一些隱藏的標簽,而這些標簽會導致建模的時候出現一個虛高的模型準確率。我們曾經有用過某一個數據庫里面的某一個類型的數據,我們覺得這個數據是蠻好的,但是用完之后,模型建完發現結果異常契合,這里面一定是有隱藏標簽的,這并不是一個真正的那么好的預測結果。所以像這種公開數據,大家一定要當心;
②自己實驗數據;
③我們通過合作方會去做的一些數據。其實像我們公司還會關注專利里面的一些數據,然后這些專利的數據我們自己有一整套高通量、大批量的自動化提取數據的工具,所以這些數據也可以拿來作為訓練數據。
Q2:AI的靶點發現怎么做?
曾亥年:新靶點發現是很難的,新靶點發現,尤其現在一般情況下,我認為分兩種,一種是靶點本身是一個信號通路里,但信號通路可能以前大家不關心。
但通過大量數據組學分析之后,找到這個靶點,還有從腫瘤角度,可能嘗試更多尋找突變靶點,這也是從多組學數據尋找。
Q3:似乎部分藥企也有自己AI建模的能力(剛才提到阿斯利康50%的流程都用到AI),那藥企愿意為面向燧坤這樣的AI+制藥付費嗎?藥企是不是更傾向自己建模?
曾亥年:我們有碰到過不同的兩種公司,一種公司是愿意花錢的,而且他不僅是愿意建模,也愿意通過建模得到一系列asset,還愿意分享一部分ownership。
但也有企業不愿意做這方面付費,所以這在商業環境里面永遠是有區別的。
如果大家關注大藥企,尤其是歐美藥企和AI公司合作,基本都上都是付費,而且金額都不少。
Q4:NLP的summarization可以實現到什么程度呢?AI可以總結提煉上萬篇論文的精髓,然后給一個問題的解決方案嗎?
曾亥年:其實可以實現很細,例如可以做到藥物分子靶點、適應癥、不良反應、藥物互相作用,甚至用具體哪一個assay來做相應數據分析實驗驗證。
用什么樣細胞模型,用什么樣動物模型, NLP可以整理到非常細,當然這取決于每一個團隊本身能力。
NLP只是一個大概念,不是隨便去網上扒NLP工具,就能把這些東西都做好,這中間還是有大量訓練過程。
Q5:跟生信相比做多組學分析的區別在哪里?
曾亥年:生信是很有可能可以找到成千上萬個不同關鍵點,就我們統一都叫biomarker,這些biomarker如果都去分析的話,時間精力會很多。
從計算機角度,從AI角度,它可以基于一系列biomarker找出他認為最重要的幾個關鍵生物標志物,然后再通過這些生物標志物,或者說是靶點、某些信號分子、一些factors再去做進一步分析。
而且當組學數據足夠多的時候,生信分析起來是很痛苦的,計算機機器學習模型會更快一些。
Q6:真實世界數據研究在 Ai藥物研發中的價值和局限性?
曾亥年:今天沒有講真實世界數據,其實真實世界數據在整個藥物研發中起的作用非常大。
我們曾經做過和蘇大附屬兒童醫院合作的項目,主要是兒童急性T細胞白血病用藥預后。
標準療法中會使用一些激素藥物,但是會有一部分小朋友其實沒有響應,如果用藥前能夠判斷是否有響應,在臨床上會很有幫助,這是一種類型的應用場景。
還有一種類型在臨床上面匯總大量真實世界研究數據之后,很有可能找到最適合某一個特定藥物一群病人,或者對病人去做分類,然后找到對應biomarker,最后這個biomarker可以作為一個伴隨診斷的工具。
還有一種可能性是通過大量組學數據,反過來再去找老藥新用機會,這個其實是一個特別復雜的問題,需要和生物學家,臨床醫生一起討論。
Q7:數據來自文獻,數據的可靠度如何解決?
曾亥年:通常情況下,如果我們都用是IC50的數據,盡管他用的測試方法可能不完全一樣,但我們默認只要都是biochemical assay,不是cell-base的assay,應該都是基于酶動力學、基于酶活去做的相應的一個測試,這個數據還可以通用。
但這可能存在不同批次之間所得數據也可能會不一樣問題。
所以這個問題其實是從建模角度確實是一個挑戰,好在通常情況下 biological variance不會那么大,背景噪音從大數據角度也可以忍受。
Q8:deepepMHC是已經發表的嗎?
曾亥年:MHC模型大家如果關心的話,可以查到蠻多團隊開源模型,但我站在生物藥行業角度,這些MHC模型還有各種各樣問題,其實在剛才的幻燈片里面有簡單提到過。
Q9:Alpha fold價值多大?
曾亥年:我不想在這里引起很大的一個爭議。但很早以前,我們其實在不同的場合討論過這個問題,Alpha fold2是不是 AI或者計算生物學里面的一個奇點事件。
其實站在我的認知范圍內,我認為是一個奇點事件,但這里有一個問題,其實有很多蛋白質不是因為沒有結構做不出藥來,而是因為即使有了結構,我依然做不出藥來。
所以Alpha fold奇點事件確實對于無論是新藥研發也好,還是生物醫藥生命科學領域的研究也好,都是有非常大幫助。
但他們要做的工作還很多,比如第一個,現在能做到還原成為一個snapshot,就是我給你一段序列,你告訴我蛋白質應該長什么樣子,三維結構應該是什么樣子,對應其實是一個晶體衍射結構,或者是一個冷凍電鏡結構,這還僅僅是一個snapshot,一個固定靜態的結構。
其實真正要關心的是蛋白質的動態結構,或者說是蛋白質和其他的小分子,以及配體,包括多肽,其他的蛋白質復合物里面的component,它們之間的互相作用,這是一個動態的過程。
這個過程其實需要技術,包括計算,還要比現在Alpha fold2更進一步,所以留給我們后來要做的事情還有很多。
Alpha fold2是有價值的,但是這個價值,這個拐點事件后面要走的路其實還很長。
Q10:PPT提到藥物臨床失敗率高達90%,但是恒瑞等公司臨床成功率接近100%,請問是什么原因?為什么差別這么大?
曾亥年:其實國內臨床成功率高主要原因是大家基本上都是做fast-follow,做fast-follow的成功率是比較高,而做first in class成功率是很低的。
Q11:未來AI制藥主要商業模式還是里程碑嗎?還是更多會變成自己做管線?
曾亥年:這個沒有非黑即白商業模式。CADD元老級公司薛定諤商業模式最早時候是賣軟件,后面除了賣軟件也去換一個小公司 startup的股權。
大家都調侃說可能嫌這個股權拿太少了,所以他們就改自己做pipeline了。
所以您看一個公司30年的公司從最早賣軟件到最后自己做pipeline,其實這中間也沒有什么對錯,包括我在PPT里面有提到 Exscientia。
那家公司其實是一個純 CRO企業,很有可能他們以后也會自己去做管線。我覺得沒有一個非黑即白的商業模式在里面。
凡是要跟生物藥結合,
平臺可以非常棒,但最終你一定要做到具體drug candidate,無論是小分子、大分子、多肽,但你一定要做到一個candidate,然后要把 candidate推到臨床,真正解決臨床上的問題,才是有意義的。
Q12:90年代硅谷曾經流行過一輪IT+BT?
曾亥年:有位老師提了90年代硅谷曾經流行過IT+BT。其實CADD最早時候誕生于80年代末,90年代初。
30年時間,CADD發展到現在有很大突破和飛躍,但我認為沒有達到當時整個行業對它的一個預期,因為CADD第二個D是design,不是discovery,是computer aided drug design。
如果大家在藥企里面待過,其實也知道做CADD的人在藥企里面其實是往往依附于藥化部門或者data science部門,這很尷尬。
現在因為CADD和AI深度融合之后,隨著IT+BT整個發展方向和趨勢,我相信會帶來很多不一樣的東西,因為 machine learning能夠做到很多原先CADD做不到的東西。
所以在這一塊,我們整個 AI+生物制藥行業里面小伙伴們應該都有這樣信心,真正去做一些事情。
最后,感謝大家參與這次的交流。雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。