0
| 本文作者: 李雨晨 | 2019-05-17 09:44 |
在一些特定的病種上,AI的表現大有超越醫生之勢。然而,很多醫療AI產品還在研發和試驗訓練階段。在實際的比較試驗中,尚未使用大規模未經過濾的臨床數據評估醫學AI在疾病診斷和治療決策中的有效性。 大家就有疑問,AI在投入真實臨床應用的情況到底會如何?
雷鋒網了解到,近日,中山大學中山眼科中心劉奕志和林浩添眼科人工智能團隊牽頭完成了最新的臨床多中心隨機對照研究,用來比較CC-Cruiser和傳統眼科診所的醫生之間的臨床差異。這篇論文以封面文章的形式發表在全球權威醫學期刊《柳葉刀》子刊EClinicalMedicine(ECM)最新一期(2019 Mar)上。
CC-Cruiser是由中山大學中山眼科中心(ZOC)醫學人工智能團隊利用深度學習建立的“先天性白內障人工智能診斷決策平臺”,該協作云平臺支持個體醫院之間的患者數據共享,用于數據集成和患者篩查。CC-Cruiser采用的訓練數據集包括410例兒童白內障眼圖和476例正常眼睛圖像,這些圖像來自中國罕見疾病專科護理中心的中國衛生部兒童白內障項目(CCPMOH)
背景:CC-Cruiser是一種用于診斷兒童白內障并提供風險分層和治療建議的人工智能平臺。之前在特定數據集上驗證了CC-Cruiser的高精度。本研究的目的是比較CC-Cruiser和眼科醫生在實際臨床環境中的診斷效果和治療決策能力。
方法:這項多中心隨機對照試驗在中國不同地區的五個眼科門診進行。未確診白內障或既往眼科手術史的兒童患者(年齡≤14歲)隨機(1:1)接受CC-Cruiser或眼科醫師(具有5年以上兒科眼科臨床經驗)的診斷和治療建議。提供金標準的專家與進行裂隙燈拍攝和數據分析的研究人員不知道分組情況。
主要結果參照白內障專家標準對兒童白內障的診斷。次要結果包括疾病嚴重程度和治療確定的評估,診斷所需的時間以及患者滿意度,其由平均評分確定。該試驗已注冊ClinicalTrials.gov (NCT03240848)。
調查結果:2017年8月9日至2018年5月25日期間,350名參與者(700只眼)被CC-Cruiser(350只眼)或眼科醫生(350只眼)隨機分配診斷。CC-Cruiser的白內障診斷和治療確定的準確率分別為87.4%和70.8%,分別顯著低于眼科醫師的99.1%和96.7%(p<0.001,OR = 0.06 [95% CI 0.02-0.19];p<0.001,OR = 0.08 [95%CI 0.03-0.25]。CC-Cruiser診斷的平均時間是2.79分鐘,顯著小于眼科醫師的8.53分鐘(p<0.001,平均差異5.74 [95%CI 5.43-6.05])。患者對CC-Cruiser提供的整體醫療服務質量表示滿意,CC-Cruise在白內障診斷方面具有節省時間的特點。
解釋:與眼科醫師相比,CC-Cruiser在診斷兒童白內障和做出治療決策方面不太準確。但是,CC-Cruiser提供的醫療服務所需時間更少,取得了高水平的病人滿意度。CC-Cruiser有能力在其目前的臨床實踐中協助人類醫生。
這是一個在五個中國眼科診所進行的大型、多中心、平行組、隨機對照試驗。我們的研究遵循了綜合報告試驗標準(CONSORT)指南。該試驗的主要研究中心是中山大學中山眼科中心。另外四家診所分別為深圳市眼科醫院、武漢市中心醫院、福建醫科大學第二附屬醫院、開封眼科醫院。我們選擇了來自不同地區的這些合作醫院,以代表中國各地醫療保健環境的多樣性。
研究人員根據這些醫院眼科診所的納入標準招募參與者。參與者如果年齡小于14歲,有或沒有眼部癥狀,并且先前沒有眼科手術史,則有資格參加該研究。所有參與者都需要進行裂隙燈攝影(slit-lamp photography),必要時使用水合氯醛(chloral hydrate)等鎮靜劑。 已經明確診斷為白內障,其他眼部正常或眼外傷的患者被排除在外。
在開始時獲得每個參與兒童的至少一名監護人的書面知情同意,并且在整個研究期間遵循赫爾辛基宣言(Declaration of Helsinki)中的原則。 該研究方案得到了ZOC倫理委員會和所有合作中心機構審查委員會的批準,包括深圳市眼科醫院,武漢市中心醫院,福建醫科大學第二附屬醫院和開封眼科醫院。 該試驗在Clinical Trials.gov(NCT03240848)注冊。
2.2 隨機化和盲法
參與者被隨機(1:1)接受CC-Cruiser或眼科醫師的診斷,其中一名參與者(兩只眼睛)被隨機分配到同一組。通過隨機數生成程序進行集中隨機化,沒有分層因素以避免選擇偏倚。每個研究中心的研究人員評估了每位患者的資格。如果患者符合納入標準,則研究者將患者的信息發送給研究協調員,協調員通知研究者有關分配的組。由經過培訓的臨床工作人員在每個參與的診所進行裂隙燈攝影和患者招募。臨床工作人員、參與數據管理和分析的研究人員以及在每個診所提供金標準診斷的專家對組的分配不知情,以預防確認偏倚。研究參與者、眼科醫師、研究協調員和負責隨機化的研究者不隱瞞分配信息。
2.3 規程
ZOC兒童白內障中心的CC-Cruiser平臺通過互聯網與所有合作診所相連。已建立CC-Cruiser網站(https://www.cc-cruiser.com/version1),其中包含指南和說明的演示視頻。注冊用戶可以將新病例上傳到CC-Cruiser,輸出結果包括:診斷(正常晶狀體與白內障),綜合評估(不透明區域,密度和位置)以及治療建議(手術與隨訪)。具有至少5年兒科眼科臨床經驗的眼科醫師在每個中心提供初步診斷。投資者為每位符合條件且同意的參與者創建了一份資料,并記錄了他們的人口統計信息和基線臨床特征,包括性別、出生日期、白內障家族史和眼部癥狀。每個中心的參與調查員和臨床工作人員在試驗前接受了研究程序的標準化培訓。所有符合條件的參與者在分組前進行瞳孔擴張的裂隙燈攝影,其中漫射光為單一標準,裂隙燈照明強度適當和眼睛位置統一。臨床工作人員嘗試每只眼睛不超過三次。研究人員對43名非常年輕的患者使用鎮靜劑(水合氯醛),否則他們將不配合這項檢查。
AI組的參與者在裂隙燈攝影后被分配到AI診所。研究人員將眼前段的圖像發送給CC-Cruiser并接受初步診斷(正常晶狀體與白內障),并對疾病嚴重程度(晶狀體混濁度和不透明度區域,密度和位置)進行綜合評估,并提供治療建議 (手術與隨訪)。研究人員計算了訪問CC-Cruiser并接受初步診斷所需的時間。眼科醫師組的參與者被分配到常規眼科診所。眼科醫師向患者提供初步診斷報告,包括疾病嚴重程度和治療決策。研究人員還計算了診斷過程所需的時間。
在接受初步診斷后,所有具有識別號碼的參與者都接受了專家小組的金標準診斷,其中包括三名白內障專家,他們具有超過10年的眼科臨床經驗。專家小組進行了裂隙燈檢查,達成了共識,為每位患者做出最終的診斷和治療決策。在初步診斷報告和標準診斷之后,要求參與者及其監護人完成關于他們對診斷準確性和效率的滿意度的問卷調查。
2.4 結果
主要結果是診斷正常晶狀體與白內障的準確性。由于沒有可用于兒科白內障的國際分類系統,因此評估小兒白內障的參考標準是白內障專家的診斷。研究人員使用白內障專家的金標準診斷結果比較了CC-Cruiser的診斷準確性與眼科醫師的診斷準確性。次要結果包括評估疾病嚴重程度,進行診斷所需的時間以及患者滿意度。綜合評估疾病嚴重程度,不透明區域(廣泛與有限),密度(密集與非密集),位置(中央與外周)和治療建議(手術與隨訪)。
當不透明度覆蓋超過50%的瞳孔時,不透明度區域被定義為廣泛;否則,它被定義為有限的。當不透明度完全破壞眼底成像時,不透明度密度是密集的;否則,它被定義為非密集的。當不透明度完全覆蓋視軸區域時,不透明度位置被定義為中心;否則,它被定義為外圍。
由于診斷是基于眼前段的裂隙燈圖像,因此診斷所需的時間是從圖像采集開始到完成CC-Cruiser或眼科醫師的初始診斷報告和治療建議。通過七項問卷對患者滿意度進行評估和分析。得分為1表示不同意;2表示中性;3表示同意和4表示非常同意。記錄每個項目的參與者數量和百分比,并計算每個項目的平均評級。
2.5 統計分析
使用來自CC-Cruiser的對比測試的數據,我們計算出需要至少700只眼睛的樣本量(假設分配比例為1:1,每組350只眼睛)來比較CC-Cruiser和眼科醫師之間的診斷準確性。由CC-Cruiser接診的人工智能門診預期準確率為90%,眼科醫師門診的預期準確率為95%,統計能力為80%,統計顯著性水平為5%。
研究分析遵循全面的、預先規定的統計分析計劃。在基線記錄人口和臨床數據。統計分析基線人口統計學和疾病特征,以確定所有350名參與者(700只眼睛)被隨機分成兩個研究組。因為沒有患者在招募后停止或退出治療人數與每個方案人口相同。然后,我們主要分析隨機分配后初始的所有患者。診斷準確性的分析在眼睛水平,并且同一人的雙眼分別在同一組中進行分析。
我們根據金標準(白內障專家)計算了CC-Cruiser和眼科醫師的敏感度,特異性、準確性、陽性預測值(PPV)和陰性預測值(NPV)。通過對疾病嚴重程度和治療建議的綜合評估,進一步分析了白內障的正確診斷。廣義估計方程(GEE)方法是準似然方法的擴展,越來越多地用于分析縱向和其他相關數據,特別是當它們是二項分布或計數形式時。
我們使用了來自一個人的兩只眼睛的數據,這些數據屬于相關數據,因此我們進行了GEE以確定CC-Cruiser和眼科醫師之間準確性,真陽性分數(TPF)和假陽性分數(FPF)的顯著差異。 TPF相當于靈敏度,FPF相當于1-特異性。 CC-Cruiser和眼科醫師所需的時間由Mann-Whitney U檢驗評估。患者對醫療服務的滿意度也計算為具有標準偏差的平均評級。進行Mann-Whitney U檢驗以確定兩組對每個問題反饋的顯著差異。 顯著性標準設定為α= 0.05。 對于所有模型,結果表示為比值比(OR),95%置信區間和p值的效應值估計。所有統計分析均使用SPSS(version20; SPSS, Inc., Chicago, IL, USA)進行。
在2017年8月9日至2018年5月25日期間,對353名患者進行了資格篩選(圖1)。篩選后,三名非常年幼的孩子被排除在外,因為他們不能服用水合氯醛和進行裂隙燈攝影。其余350名參與者(700只眼)被隨機分配到AI組(350只眼)或眼科醫師組(350只眼)。隨機化后沒有參與者退出研究。這項研究有350名參與者(700只眼睛)。兩組的基線人口統計學和疾病特征(包括性別、年齡、家族史、眼部癥狀、白內障患者、白內障患者和白內障嚴重程度)具有可比性(表格1)。
根據白內障專家的標準,診斷的敏感性,特異性,準確性,PPV和NPV分別為89.7%,86.4%,87.4%,74.4%和95.0%。對于CC-Cruiser來說,這些指標分別為98.4%,99.6%,99.1%,99.2%和99.1%(表2)。CC-Cruiser兒童白內障的診斷準確性和TPF顯著更低(p<0.001,OR = 0.06 [95% CI 0.02-0.19];和 p = 0.012,OR = 0.14 [95% CI 0.03-0.65]),CC-Cruiser的FPF明顯高于眼科醫師(p<0.001, OR = 43.05 [95% CI 5.42-341.70])(表2)。CC-Cruiser診斷白內障的準確性明顯低于眼科醫師。晶狀體混濁面積、密度、位置等綜合評價正確率分別為90.6%、80.2%、77.1%,眼科醫師組為93.3%、85.0%、87.5%(表3)。
與眼科醫師相比,CC-Cruiser在評估不透明度區域,密度和不透明度位置時沒有顯示出統計學差異(分別為p = 0.463,0.286,和0.130)(表3)。CC-Cruiser提供的治療建議(手術與隨訪)明顯不如眼科醫師提供的(70.8%vs96.7%,p<0.001,OR = 0.08 [95%CI 0.03-0.25],表3)。
CC-Cruiser提出診斷和治療建議所需的時間少于眼科醫師所需的時間(2.79分鐘vs8.53分鐘,p<0.001,平均差異5.74 [95%CI 5.43至6.05],表4)。
在研究結束時,345名參與者完成了評估問卷(CC-Cruiser組172名,眼科醫師組173名)。由于個人原因,五名參與者的監護人未完成調查問卷。表5對調查問卷進行了總結。完成調查問卷的答復率為AI組98.3%,眼科醫師組98.9%。病人對于CC-Cruiser提供的醫療服務的滿意度很高,尤其是診斷所需的時間。CC-Cruiser 整體滿意度的平均評分為3.47±0.501 , 高于眼科醫師(3.38 ± 0.554,p=0.007,表5),表明患者在接受醫療服務時比實際醫生更喜歡AI。

圖1. 實驗分組

表1:基線人口統計學和疾病特征

表2:兒童白內障的診斷表現;以眼為分析單位(N=700),CC-Cruiser組350只眼,眼科醫師組350只眼。

表3:兒童白內障綜合評價及治療建議

表4:CC-Cruiser和眼科醫生的診斷過程需要時間;分析包含患者300例(CC-Cruiser組175例,眼科醫生組175例)。CC-Cruiser和眼科醫生進行Mann–WhitneyU 測試在所需時間上存在顯著差異。

表5:問卷調查參與者對臨床服務的反應
在本研究中,我們發現CC-Cruiser在診斷兒童白內障和臨床治療決策上不如眼科醫師準確。然而,與眼科醫師相比,CC-Cruiser診斷耗時短,患者滿意度高。這些結果突出了在門診常規使用前使用隨機對照試驗評估CC-Cruiser臨床性能的重要性。
CC-Cruiser的實際診斷準確性低于我們之前使用篩選數據集進行的研究中報告的準確性。盡管CC-Cruiser在評估眼前段的306個標準圖像時非常準確,CC-Cruiser對43例質量差的白內障的誤診和評估往往不如眼科醫師準確,這可以歸因于幾個原因:
首先,由于畏光或缺乏注意力,一些兒科患者無法充分配合并將眼睛注視在相機上。因此,裂隙燈無法正確聚焦在晶狀體上。
其次,眼瞼和睫毛可能會形成遮擋,從而影響拍攝圖像的質量。
第三,如果反射點聚焦在視軸附近,則無法準確提取晶狀體反射點的特征,導致CC-Cruiser對白內障的誤診,假陽性率較高。
第四,裂隙燈的強烈照射強度可能導致晶狀體混濁,這是CC-Cruiser的假陽性分數較高的另一個原因。
然而,這些問題通常可由眼科醫師識別,因為他們可以手動調整焦點并從不同的位置或角度來評估不透明度。較高的假陽性可能增加醫療資源的負擔和成本,并可能導致患者的身體或精神損害。
此外,雖然現階段CC-Cruiser的診斷可能還需要臨床醫生的介入(包括使用鎮靜劑)來保證圖像采集的質量,但我們相信醫療AI自動聚焦技術的進一步改進將實現更高的診斷準確性以及更少的人為介入。例如,對晶狀體反射點的識別的改進可以大大降低誤報率。
以往的研究表明,AI輔助診斷可以減輕醫生的工作量,并為有需要的患者提供高質量的醫療服務。在這里,我們表明,在臨床應用中,醫療AI平臺在縮短診斷時間方面優于人類醫生。CC-Cruiser組的參與者一致感覺得到了更快的診斷,即診所需的等待時間顯著減少。
患者對醫學AI的滿意度尚未得到充分研究。Laure等人使用電子健康網站Sanoia評估患者對類風濕性關節炎(RA)護理的滿意度。作者表明,研究人員發現,患者的滿意度與人工智能平臺的使用不一致,主要是因為RA是一種慢性疾病,在病情緩解時,患者可能對使用Sanoia失去興趣,對疾病的自我管理的投入也會減少。
然而,如果沒有早期診斷和適當的治療,兒童白內障可能對視力造成威脅。因此,兒科患者的家長迫切希望獲得醫療服務,高效地進行診斷和治療決策。
我們的研究表明,患者對CC-Cruiser的總體滿意度略高于眼科醫師,表明患者在使用AI醫療服務時具有良好的體驗。患者的滿意度可能是由于他們對醫學AI的好奇心或興趣,或者患者需要在診斷準確性和診斷時間之間取得平衡,更愿意接受耗時更少、診斷準確性可接受的醫療服務。
因此,現階段的CC-Cruiser已顯示出在臨床應用中協助人類醫生的潛力。在未來的研究中,我們將致力于提高CC-Cruiser的準確性,以提高患者滿意度。
該研究的優勢包括其隨機、對照設計、大樣本以及數據來自中國的五個眼科診所。但是,我們的試驗有一些局限性。
首先,因為沒有視力模糊等癥狀的患者不太愿意參與在這項研究中,我們可能錯過了一些晶狀體輕微渾濁的患者。因此,CC-Cruiser對早期白內障的評估需要進一步改善。
其次,CC-Cruiser提供的治療建議沒有考慮患者的一般情況。因此,CCCruiser提供的一小部分(6例)治療建議與專家提供的治療建議不一致,盡管已經準確評估了晶狀體的不透明度。 進一步提高治療決定能力需要考慮非眼科因素,如年齡和健康狀況。
第三,我們的人工智能系統依賴于計算能力和互聯網的可訪問性,因此在沒有穩定互聯網的發展中地區進行CC-Cruiser廣泛應用可能存在困難。但是,那些可以上網的偏遠地區仍然可以享受CC-Cruiser提供的醫療服務。
第四,在該試驗中進行了一項整群隨機對照試驗(兒童患者維度的整群),因為隨機化是在患者的水平上進行的,觀察和分析是在眼睛水平上進行的。然而,設計隨機對照試驗設計時沒有考慮來自一個孩子的兩只眼睛之間的簇內相關性。這將導致統計能力低于預期的0.8,因為集群隨機對照試驗比隨機對照試驗需要更大的樣本量才能達到相同的統計能力。
綜上所述,這是首個驗證人工智能系統在眼科臨床診斷準確性和有效性的臨床隨機對照試驗。與眼科人類醫師相比,CC-Cruiser在診斷兒童白內障和做出治療決策時表現出較低的準確性,但在當前狀態下有能力協助人類醫生進行臨床實踐。我們需要臨床對照試驗進行進一步研究,以更好地評估醫學AI的真實診斷性能。雷鋒網雷鋒網
本文的補充數據可在https://doi.org/10.1016/j.eclinm.2019.03.001找到。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。