1
| 本文作者: 張馳 | 2016-12-08 17:06 |

圖片來自asianscientist
12月7日下午,江湖傳言不輕易出面且連股東也請不動的碳云智能首席科學家李英睿,出現在了松禾資本的年會,并在演講中講了碳云在做的事以及精準醫(yī)學。
李英睿是碳云智能聯合創(chuàng)始人兼首席科學家,曾任華大科技CEO和華大基因首席科學家。2016年,他入選福布斯30位30歲以下亞洲人物榜生命科學榜。
本文由雷鋒網根據他的演講內容整理而來。
公眾對精準醫(yī)學的熟悉,得益于美國總統奧巴馬的推廣。雷鋒網曾報道,2015年1月底,奧巴馬在2015年國情咨文演講中宣布精準醫(yī)療計劃(Precision Medicine Initiative),它致力于治愈癌癥和糖尿病等疾病,讓所有人獲得健康個性化信息。此后,這些詞紅遍了太平洋東西兩岸。
不過李英睿認為,從數據分析的角度看,只要走的是循證醫(yī)學的路徑,就可以被認為是精準醫(yī)學,因為循證醫(yī)學從醫(yī)意識就是“準確”,最開始就是基于數據的決策。我們現在提出精準,是因為可以從病人處得到更多的可測量特征。
隨著技術的進步,我們對人類的測量越來越多。通常的醫(yī)學關注醫(yī)學影像,還有身體的各種體征,以及醫(yī)生對病人的觀測。而現在的數據時代,我們能夠掌握的比原來要多很多,有移動互聯網數據,社交數據,還有各種動態(tài)分子信息和蛋白質、代謝等信息,以及身體各個部位的信息。
現在已經有可能形成關于人全局的數據化生命,從靜態(tài)到動態(tài)數據,再到我們自己的行為和社交數據等,這就是所謂數字化生命。

那這些數據會給醫(yī)學或者健康帶來什么呢?
李英睿認為,過去我們是對現象的描述,醫(yī)療中做的決策是基于某種局部數據。我們通常去的是分診,分診是專科,它通過局部數據來考慮問題。另外還有做決策,絕大部分是多因子線性決策,還是對癥下藥為主。過往也更多偏向于診斷和治療,即患者的狀態(tài)出現了問題,那要對你進行判斷、診斷,然后進行治療。
但是現在與未來的傾向不是會是這樣。我們現在觀察到的很多東西不是去研究基因的問題,而是基因組的問題,我們不再是研究蛋白的問題,而是蛋白組的問題。很多決策是非線性的決策,而且是以個體為中心的邏輯組織。通過這種的辦法,有可能去涵蓋預防、預警和預后的情況,這是很大的變化。
新近可測量的全局數據,包括基因組、皮膚、口腔、腸道、生殖道元基因組,還有血、尿、唾液代謝組和蛋白質組,以及可穿戴設備及電子病歷等。這些趨勢都是在最近5-10年出現的,它帶來的好處是,目前業(yè)已實現孕前攜帶者篩查,胚胎單細胞分析,產前基因組檢測,進行性遺傳缺陷早診,益生菌和益生元干預等。
實現精準醫(yī)學,還面臨諸多困難,李英睿指出主要包括以下幾個。
生物數據本身發(fā)展比較快,超摩爾定律發(fā)展的全局數據、頻繁采樣、實時計算,對計算、存儲和網絡基礎設施的要求比較高,這本身就是很難的事情。
另外,大規(guī)模全局的系統比對,要求高度的數據共享和知識互聯。而數據共享不完全是數據問題,還是格局問題,本身是垂直行業(yè)要去思考的問題。在目前為止,絕大部分醫(yī)療行業(yè)所謂的大數據,只是數據的樣本大。
個體數據的多樣性和豐富度需要實現數據可視化,知識表述和協同決策網絡。而對機器學習技術的誤解亟待澄清,并構建人類與人工智能的協作框架,人工智能不是用來取代人類,而是協助人類的。
多層次非線性系統復雜度呈指數級上升,但可解釋度下降。深度學習就像一個黑匣子,這個問題仍舊存在。
而且,時至今日各種新型數據的用法,依然是傳統的局部數據使用。另外就是,精準醫(yī)學中的生物信息學仍然處理的是分類問題,并沒有涉及真正意義的復雜網絡推理和預測問題。
由于這些問題的存在,目前數據在科研上的運用做得很快,但是在臨床上還有很多問題需要去解決。搞大數據實際上是搞不過搞數據入口的,掌握了數據入口,才是真正掌握了大數據的要素。

精準醫(yī)學之外,李英睿認為,醫(yī)學只是健康的一部分,而真正的健康不僅在于改善我們的醫(yī)學能力,更在于我們進行健康管理的意識和能力。他表示,美國的路徑已經表示,開發(fā)再多的藥,對壽命的提升還是非常有限的。未來的藥物能夠適用的人越來越少,但成本越來越高,永遠不會把費用控制下來。
所以,健康管理的真正表現,是全面智能管理。今天所謂的醫(yī)療部分其實只是精準的診療,但要管理的還有遺傳風險,要關注一個人的生活方式及其存在的環(huán)境。只有清楚的知道一個人遺傳的變化,知道其健康生活的方式,知道其生活的環(huán)境,再加上醫(yī)療的保障,這個時候才能實現全面的健康管理。
個體化生命管理主要體現在下面幾個主要的問題:
第一個是要預測生命狀態(tài)的未來演變趨勢;
第二個是預測干預措施及其組合方案,對生命狀態(tài)未來演變趨勢的影響;
第三個是給定生命狀態(tài)的未來目標,求極大化該目標事先概率的可行干預方案。
他指出,生命管理不止于醫(yī)學。隨著年齡的增長,我們某天去醫(yī)院做體檢的時候,是突然有了疾病的狀態(tài)。但是疾病一定不是一天之內發(fā)生的,而是以前積累的。但今天的邏輯是,你之前都是好的,只是突然有一天你來檢驗做預測的時候就得病了,這不是特別的合理。
我們今天要關注的問題是,在大數據的情況下,當生命在往疾病狀態(tài)變化的時候,我們可不可以預測到這種趨勢,知道這種趨勢的時候,又可不可以提前進行干預,可不可以讓生命往更健康的趨勢去管理。這就是真正的生命管理要做到的事,而今天我們討論的精準醫(yī)療,是在已經達到醫(yī)療狀況的時候,怎么對生命進行挽救。
這個里面又有不少技術問題,生命管理又有很多生物信息方面的難點,主要包括:
需觀測和分析的數據維度異質;
數據源多而分散,數據流碎片化;
數據特征難以預期;
知識發(fā)現方向開放而難以預期;
時間、空間的變量進一步復雜了問題;
以及大規(guī)模實時在線計算。

有怎么樣的方法能夠解決這樣的問題呢?李英睿指出,面對這個問題,可以思考這樣的問題:為什么人類在面對新的問題的時候都可以找到解決方法,人類是基于什么想法來考慮問題的?
人類能夠在看到一個結果的時候,可以判斷這樣一個數據的特征應該用什么樣的算法來看,通過比較邏輯的方向,在這些數據里面去找到新的規(guī)律,去解釋、分類和識別。
從存儲到計算到展現,碳云智能不是去回答具體的問題,能做的事情是建立一個接近于智能的計算框架,當它碰到這些問題的時候,能夠發(fā)現問題然后解決問題。
具體而言,碳云智能的方法是,一方面把多種異構的數據進行元數據的處理,對于元數據框架,不管是什么樣的數據一定要抽過來,做一個基本調整,把它變成可計算的元數據再進行計算。第二就是算法接口化分層化。
演講的最后,李英睿還認為,在數字化生命管理中,真正的挑戰(zhàn)并不來自于科技的不足,而是來自于人類普遍不尊重和愛惜自己的生命。這個才是他覺得健康方面真正的挑戰(zhàn),技術問題反而是簡單的問題。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。