1

圖像識別技術已經可以認出人臉,也能用于自動駕駛中,那它用于醫學影像,識別病變中又如何呢?在《國內人工智能+醫學影像公司大盤點》一文中,雷鋒網介紹了國內將深度學習等人工智能技術用于醫學影像的眾多公司,它可以削減讀片時間,降低誤診的概率,推薦治療方案,協助醫生診斷。
本期硬創公開課,雷鋒網請到其中一家公司DeepCare的創始人兼CTO丁鵬博士,為我們講講人工智能應用于醫學影像的那些事兒。
丁鵬,DeepCare創始人兼CTO,博士畢業于美國達特茅斯學院(Dartmouth College),從事算法研發工作8年;在計算機視覺和深度學習技術方面有長時間的科研經歷,且有工業級算法開發經驗;對人工智能技術產業化有深刻的見解,在如何將人工智能技術與醫學影像結合,開發商業產品方面,也是國內首屈一指的專家。

以下內容來自丁鵬在雷鋒網硬創公開課的分享:
雷鋒網:可以簡單介紹一下DeepCare所關注的領域嗎?
我們主要的方向是醫學影像。醫學影像是一個很大的方向,從細胞病理學到組織病理學到影像科,都屬于這一范圍。我們經過調研,確定做的是病理方向。原因是,病理醫生是“醫生中的醫生”,地位非常重要,是確定有沒有重大疾病(如癌癥)的最后一道防線,而國內的病理醫生又是奇缺的,存在很大的供需矛盾。
我們的定位是,為病理醫生提供服務,提升他們的工作效率,幫助他們看片。一個方面是“查”,一個方面是“判”。查主要是指針對病理科的搜索、數據管理系統等,如以圖搜圖。二是判,指幫助病理醫生看片子。目前主要是做乳腺和肺癌。
雷鋒網:總體上看,把計算機視覺等人工智能技術用在醫療上,在國內目前的發展,處于什么樣的階段?
對于這個問題,要先看看深度學習等新技術,用在傳統行業上(比如醫生看病)的意義有哪些。無論在發達國家還是發展中國家,優質醫療資源的供需始終是一對矛盾,因為巨大的人口壓力,這個問題在中國尤為突出。這也是為什么在協和醫院門口是看到那么多外地人到北京看病,又掛不上專家號只能買黃牛票。
另一方面來說,醫學影像是醫生看病,及決策的最大的信息入口。而醫生理解這些影像的本質,即是醫生大腦經過長期的過程被大量數據訓練出來的結果。一個客觀事實是,高中低年資的醫生在看同一張片子時候,得出的結論會有天壤之別,這也是為什么我們要去協和找“老大夫”看病的事實依據。
這是因為看病的效果和從醫的年限高度相關,而從醫的時間長短不同意味著所接受的信息量不同。那么如果一臺機器學習了比人類醫生多得多的案例或者圖片,會不會超越人類呢?答案一定是肯定得。這也是應用深度學習技術訓練計算機“看懂”醫學影像的意義所在。
對于發展狀況,我看來,無論在中國還是美國,在算法和數據上看,這一領域的發展都是在早期。它已經走出了實驗室,但離商業化還有很長的路要走。
算法開發上,通用物體檢測識別的算法又一個巨大的人群在做,但是在醫學影像領域由于數據的可獲得性差很多,所以研究的人和前者相比并不是特別多。但是越來越多的學者和研究機構看好這個方向,開始加大投入進來。
高質量的標注數據方面,在這個方面中國與美國相比很有可能會“彎道超車”,因為我們都知道在美國拿醫療數據是個非常困難的事情,無論是科研還是商用;但是在中國因為體制的原因和政府對于技術創新的重視,會讓這個問題變得更容易一些。
雷鋒網:根據你們的經驗將人工智能用于醫療,會面臨哪些主要困難和阻礙?
人工智能或者說深度學習相對來說是一個新技術,一個新的技術與老的行業相結合的時候往往會誕生出新的方向。目前的人工智能技術無論與哪一個行業結合,都必須聚焦到一個“場景”上來,比如說“醫生讀片”就是一個場景。在這個場景上應用新技術,特別是對于二三線城市中受訓練較少的醫生,不僅會提高醫生判定的準確性,更會提高醫生的工作效率,換句話說,釋放了醫生的生產力。
要完成這個事情,需要有兩個必要條件。第一,適應于具體問題的算法;第二,高質量的標注數據。算法開發是一個難點,但相對比較容易搞定。高質量的小批量標注數據我們也已經獲得,但是如何進行大批量數據的標注,以及標注質量控制確實是一個比較困難的問題。這涉及到最核心的資源,即高質量醫生的時間與效率。除了時間,更重要的是如何做質量管控,比如同樣一張圖,標準及答案是什么,誰定義答案,由幾個醫生來標注,標注的是幾個階段,是盲標還是非盲標。這些都是要考慮的。
這個問題業界目前還沒有給出一個清晰標準的答案,正在積極探索。
雷鋒網:在技術選擇上,醫學影像與其它圖像識別是否會存在差異?
這是必然的。自然世界里的圖像與人體內的圖像有著天然的巨大差異,因此針對于不同問題我們使用的算法也是不一樣的,絕對不可能一刀切。我之前做過一種醫學影像,它的病變的位置(做的是分割問題)有從十幾個像素到幾千個像素,為了檢測小的病變點,如果downsampling次數太多,可能無法deconvelotion回來。
雷鋒網:主要會用到哪些技術和算法呢?
在CV上有三個最基本問題:分類,檢測和分割。我們處理的問題中也用的這三種方法,在病理上主要是做細胞層面上的,比如分類,細胞的分割,在細胞病理學上的檢測工作等。
雷鋒網:深度學習等技術是否適合所有類別的醫學影像,是否有些更為合適?
將深度學習技術應用在計算機圖像上的時候,有一個衡量問題難易程度的“標準”,即這個問題(圖像)讓人來理解的話是否可以做到。從我的經驗來看,一個人普通人(比如我自己)經過簡單的訓練(比如一個小時左右)之后就可以在化驗血液的圖片中找到紅細胞、白細胞等等;但是我需要經過很多次高強度的訓練之后,才有可能在肺部組織病理切片中看出,哪里是癌細胞以及它們對應的亞型是什么。
從這個角度來看,我們做的理解組織病理切片的問題,應該是屬于醫學影像中非常難的問題之一。對醫生難,因此對機器也不容易,但正是它的困難才帶來了無與倫比的價值,所以病理科醫生在被稱為“醫生中的醫生”。病理科相當于,如果判斷一個人是否有癌癥,影像科所得的影像都不能據此下最后的結論,而病理醫生可以下結論。
有幾個數字,國內病理科醫生在冊的有1萬多人,但經過我們的訪談,認為國內需要大約6、7萬的人才能滿足需求。但病理醫生的培養周期特別長,北京某著名醫生的病理科主任曾跟我說過,他們醫院45歲以下的病理科醫生會診時沒有發言權。因為細胞本身的差異非常大,醫生也就要經過大量的訓練才行。
由于體制的原因,病理科醫生不直接面對患者,收入水平較低。幾家特甲醫院也需要花大價錢尋找病理醫生。這種供需矛盾也帶來了巨大的機會,這不僅是商業上的,也是有社會意義的。
雷鋒網:數據對人工智能來說很重要,那醫學影像的數據來源及獲取渠道有哪些?
數據的來源的主體還是醫院,不過目前越來越多的第三方病理中心也是我們獲取數據的渠道之一。
雷鋒網:數據建設是一個難點嗎?標注上是否會有更多困難?
數據標注甚至比數據獲取更重要。之前我們做過一個非常有意義的研究,找來了40張乳腺癌的病理切片,分別讓中國的高年資和中低年資的醫生標注,并和美國醫生標注的“真值”做比較,結果是我們看到了恐怖的差異:在這40張片子上,高級醫生和普通醫生的水平差距在30個百分點。這個實驗充分說明了找到領域內最厲害的醫生進行標注是多么的至關重要。
雷鋒網:圖像識別是否可以同時識別出多個部位的疾病?這里的難點又在哪?
醫學影像是醫生看病一個最大的信息入口。一張病理切片大概是1-3個G不等,比一個高清電影還大,其中蘊含的信息也是海量的。因此可以說,從一種重大疾病(比如癌癥)的篩查,到隨診,再到最后的判定,醫學影像都在其中起到最重要的作用。
對于識別多個部位的疾病,現在是可以查出多種疾病來的,同時,針對某一種病做到知名醫生的水平仍舊不容易。看病是一個過程,目前來看,算法的開發還是針對某一種器官,某一種病。如上所述,整個行業是在早期階段,目前的做法是個個擊破,比如肺部的病變就有很多種,現在的做法是分開進行。合并也是有方法的,比如有檢測多種病的算法,挨個都試試,看效果如何。
但目前來說,能做好一種病的分析就很不容易。比如肺小結節在CT中的檢測,8mm以上的結節已經有團隊可以做到99%的檢測水平,但5mm左右的檢測仍非常難。所以,在評測這些算法時,也要有一個公正的方法。
雷鋒網:醫學影像與病例病史等資料的整合,從而做出綜合的智能分析,現在處于怎么樣的階段了?
在我看來,病例方面關于文本的處理是走在影像的前面。目前我了解,這兩個方面仍在獨立進行,都不容易做好。回到數據源上來,在病例本身上,不同醫院,甚至一家醫院不同科室的醫生,寫病例的方式也不一樣,它不是一個結構化的數據來源。
醫生寫病例時,是一種總結的方式,而不是一種連續的方式。比如,醫生與病人交流時,它像一個分類器一樣,問一個問題,然后得到病人的回答,然后再往下問,如果能抽象出來,就像一個樹狀分類器。但病例只寫了一個分類器的結果,其中判斷的過程并沒有在病例中體現出來。
如果能讓病例信息更全面,更結構化,這種信息才能真正利用起來。這也是我們選影像切入的原因,因為影像是更結構化的信息,以病理科為例,95%的判斷仍是影像中細胞本身的判斷。總體來說,影像與病例這種多模態的信息的融合是一個方向,但兩者都是在早期階段。
雷鋒網:圖像識別類公司一般有提供API,或自己做硬件,以及做整套方案等區分,在醫學影像上,會更適合哪一類嗎?你們的選擇是怎么樣的?
這是一個產品形態問題。我覺得無論是云端產品,還是前端硬件的方式都是可以的,主要看客戶(比如醫院)的需求,以及自身的網絡限制,需要具體問題具體分析。
第三方影像中心有很多,他們的做法是將數據連到云端。但病理可能是另外一種情況,一張圖可能是1-3GB,這樣會受到醫院帶寬的限制,這種情況下可能是一種前端產品。以血液檢測科為例,有國外的機器自身帶有智能分析算法,做到了前端,最后需要的是醫生確認。
商業路徑選擇要根據不同影像的特點來選擇產品形態。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。