
作者 | 陳彩嫻
早在2019年8月,倫敦癌癥研究所就在 NPJ Breast Cancer 雜志上發表了一篇文章,稱他們將 AI 應用于分析乳腺癌的基因序列與分子數據,最終成功識別出 5 種新的乳腺癌亞型,還能辨識出哪些女性對乳腺癌有較好的免疫力。
鏈接:https://www.nature.com/articles/s41523-019-0116-8這項研究吸引了越來越多科研者加入將 AI 用于輔助乳腺癌發現或治療的隊伍。去年1月,谷歌的健康團隊又聯合 DeepMind 在 Nature 上發表了一項將 AI 用于檢測乳腺癌的研究成果。他們開發了一個針對乳腺癌的 AI 篩查系統,可以對乳腺癌 X 射線造影數據進行大規模分析與處理,也引起了廣泛關注。
鏈接:https://www.nature.com/articles/s41586-019-1799-6當時,這項研究的報道稱,通過與 6 位美國放射科醫生的篩查過程相比,他們所開發的 AI 系統表現優于所有醫生,AI 系統的自動識別面積比一般放射科醫生要高出 11.5%。蕓蕓大眾一看,立即拍腿贊嘆:AI 真了不起!AI 是不是很快就要超越、甚至取代放射科醫生?近日,《英國醫學雜志》(The BMJ)刊登了一篇來自英國華威大學醫療科學部門研究人員(以下簡稱“該團隊”)的研究工作。該團隊對近年 AI 技術用于乳腺癌篩查的工作進行了檢索,希望檢驗 AI 技術用于乳房 X 光攝像識別的準確度。該團隊得出的研究結論是:目前的研究證據還不足以判斷 AI 在乳腺癌篩查項目中的準確性,也尚不清楚 AI 在臨床醫學的哪個環節最有用。但可以肯定的是,AI 系統目前尚無法取代超過兩位放射科醫生合作探討的結果。乳腺癌是奪走全球女性健康與生命的主要原因之一。2015 年,全球約有 240 萬女性被診斷出患有乳腺癌,523,000 名女性因此死亡。乳腺癌在早期時發現會更容易治療,因此許多國家都推出了乳腺癌的篩查計劃。乳腺癌篩查需要一名或兩名放射科醫生檢查女性的乳房 X 光照片,以尋找癥狀出現前的癌癥跡象,從而降低乳腺癌的發病率與死亡率。在篩查的過程中,乳腺癌的發現率為 0.6% 至 0.8%。值得注意的是,15% 至 35% 的乳腺癌會因為篩查誤差或不易見癥狀而沒有被發現。有些被漏診的癌癥,在癥狀上被稱為“間期癌”(interval cancer)。2019 年,全球有 3.8% 研究 Scopus 數據庫的同行評審文章與 AI 相關。許多研究稱,在乳腺癌篩查的圖像識別上,AI 比經驗豐富的放射科醫生表現更優,并能彌補現有人類醫生篩查的缺陷。比如,AI 算法不會“疲勞”,也不會摻入主觀診斷,所以能幫助發現更多乳腺癌病例,減少放射科醫生的工作量,甚至完全取代放射科醫生。但是,華威大學的研究指出,AI 也可能會加劇篩查的危害。比方說,如果 AI 在乳房圖像篩查中檢測到更多微鈣化(由較低級別的原位導管癌引起),那么它可能會改變乳腺癌的疾病譜。在這種情況下,AI 可能會增加過度診斷與過度治療的概率。尸檢研究表明,大約 4% 的女性是帶著乳腺癌死亡,但死因并不是乳腺癌,所以數據存儲了許多不重要的臨床疾病,包括可能被 AI 檢測到的偶發原位癌。疾病譜與乳房 X 線圖像的特征有關(例如,原位導管癌通常與微鈣化有關)。因此,AI 系統基于訓練的案例,以及 AI 系統的結構,可能會對檢測到的疾病譜產生重大影響。 目前的許多人工智能系統是不可解釋的,是一個“黑匣子”,與人類決策者的思路可解釋形成鮮明對比。AI 算法無法理解圖像的上下文、收集模式與含義,可能產生“抄捷徑”的問題。此前,DeGrave 等人在“AI for radiographic COVID-19 detection selects shortcuts over signal”(2020年)一文中便展示了一些深度學習系統如何通過混雜因子而不是病理來檢測新冠病毒,從而導致系統的泛化性極差。這項工作對 2010 年 1 月 1 日至 2021 年 5 月 17 日期間 Medline、Embase、Web of Science 與 Cochrane Database of Systematic Reviews(CENTRAL) 等英文文獻數據庫進行了系統檢索。檢索的主題包含 4 個:乳腺癌(breast cancer)、人工智能(artificial intelligence)、乳房 X 線照相術(mammography)和測試精度(test accuracy)或隨機對照試驗(randomised controlled trials)。
回顧常規乳腺癌篩查中所用的 AI 圖像分析系統,華威大學的研究團隊確定了 12 項評估商用或內部卷積神經網絡 AI 系統的研究,包含了對 131,822 名女性的篩查數據,是第一個對 AI 輔助乳腺癌發現的準確性進行檢測的研究工作。其中, 9 項研究將 AI 系統與放射科醫生進行了對比。
三項回顧性研究將 AI 系統與原始放射科醫生的臨床決策作了比較,研究對象包含 79,910 名女性,其中 1878 名女性在篩查后的12個月內檢測到癌癥或間期癌。在研究所評估的 36 個 AI 系統中,有 34 個(94%)的準確率低于單一的放射科醫生;如果與兩位以上的放射科醫生討論對比,那么 36 個 AI 系統的檢測準確率都比不上人類醫生。瑞典篩查計劃的 DREAM 挑戰覆蓋了 68,008 名女性,發現表現最佳的 AI 系統也比不上人類放射科醫生(88% vs. 96.7%);當 AI 的閾值分別設置為第一讀者敏感性與讀者敏感性的共識時,AI 的表現也與人類原創的共識決策相差甚遠(81% vs. 98.5%)。八個表現最佳的 AI 系統的集成方法特性也比不上第一的放射科醫生(92.5% vs. 96.7%)。瑞典一個更廣泛的研究使用了三個商用 AI 系統,設置的閾值與原創放射科醫生的特性相當。該研究發現,與第一的放射科醫生相比,一個商用 AI 系統的靈敏度更高((81.9% vs. 77.4%),其余兩個商用 AI 系統的靈敏度較差(67%,67.4%)。而與人類的創新共識決策相比(85%),三個商用 AI 系統的表現都更差。而在五項范圍較小(1086 位女性、520 種癌癥)、風險較高且臨床需求較小的研究中,所評估的 5 個 AI 系統(獨立替代放射科醫生或閱讀輔助)在閱讀實驗室測試集時的準確率都高于單一的放射科醫生。在三項研究中,用于分類的 AI 技術可以分別篩選出 53%、45% 和 50% 處于低風險的女性,而放射科醫生僅能檢測到 10%、4% 和 0% 的癌癥。六項范圍最小的研究(總共覆蓋了 4,183 名女性)發現,AI 比單一的放射科醫生更準確。在這六項研究中,有五項研究里,放射科醫生是在實驗室環境中檢查 932 名女性的乳房 X 光圖像,這種方法不能推廣到臨床實踐中。而美國的一項篩查研究則發現,AI 系統在靈敏性(56% v 48%)與獨特性(84% v 81%)方面的表現超過單一的放射科醫生。此外,兩項豐富的測試集多案例多閱讀器實驗室研究報告稱,AI 在實驗室環境的閱讀中要優于單個放射科的平均表現。在輔助閱讀上,有三項研究將 AI 作為閱讀輔助工具,發現放射科醫生在實驗室環境中閱讀豐富測試集的準確性無法泛化到臨床實踐上。三項研究均顯示,有 AI 技術輔助的放射科醫生在平均靈敏度上均高于獨立閱讀。在豐富的測試集多讀者多案例實驗室研究中,一個獨立的內部 AI 模型(DeepHealth Inc.)能夠檢測到更多的浸潤性癌癥(多 12.7%)和更多的原位導管癌(多 16.3 %)。AI 模型的性能在病變類型、癌癥大小和乳房密度上也更佳。研究團隊得出的結論是:目前的研究證據還不足以判斷 AI 在乳腺癌篩查項目中的準確性,也尚不清楚 AI 對臨床醫學的哪些方面最有用。但可以肯定的是,AI 系統目前尚無法取代兩位以上放射科醫生的合作探討。
大多數研究都集中在以圖像識別和解釋為核心的篩查過程中。最近發表的工作還研究了如何將人工智能和深度學習用于糖尿病視網膜病變篩查。除了傳統的篩查計劃,深度學習在醫學中的應用也越來越廣泛,并被考慮用于黑色素瘤、眼科疾病(年齡增長所引起的黃斑變性和青光眼)的診斷,以及對組織學、放射學和心電圖圖像的解釋。
該團隊認為,如果用 AI 協助放射科醫生重新設計乳腺癌篩查流程,而不是與放射科醫生競爭、取代放射科醫生,也許是一種更有潛力的研究方式。比如,我們可以用 AI 技術預先篩選簡單的常規乳房 X 光照片,以及對遺漏病例進行補充篩選。同樣地,在糖尿病眼部篩查中,越來越多的證據表明, AI 可以篩選出哪些是需要人類審核員查看的圖像,哪些是可以直接返回給女性的圖像。參考鏈接:
1、https//www.bmj.com/content/374/bmj.n1872
2、https://www.cn-healthcare.com/article/20200103/content-528274.html

雷鋒網雷鋒網雷鋒網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。