0

雷鋒網按:醫療數據不易處理,是這個行業公認的難題。
因為它涉及巨大的、不可交互且敏感的文件。一百萬個患者的數據集很容易達到千兆或更多,尤其是涉及到流程復雜、需要用大量藥物或有諸多后續檢查的疾病時,數據會變得更加難以利用。
此外,一個患者的數據,在同一個醫院的不同科室,往往并不互通。
即使患者在同一個醫院,他們有時候不得不在不同的科室多次做相同的工作(如檢驗/診斷/記賬),其背后的原因就是各個科室的數據并不打通,都需從零開始。
MITRE公司健康經濟學負責人Robert Lieberthal說:“醫療數據是我們社會中最敏感的數據之一。考慮到個人健康狀況,以及根據HIPAA和其他法律保護醫療保健數據的需求,使得院方難以進行預測模型的分析,所以難以改善流程。”
這個問題非常關鍵,適用于有關醫療保健的財務數據如總索賠、索賠金額、議定費率、帳單代碼等,這些數據通常是專有的。
保險理賠數據系統通常無法與臨床(電子健康記錄)數據交互打通操作,這使得像醫療費用單之類的財務信息難以提前或在護理期獲得。
然而,患者、醫療服務提供者(醫院),甚至是付款人(保險公司)通常得等到提供完護理后,才能知道特定服務的賬單費用和已支付費用。財務數據遠遠落后于臨床數據。
此外,患者常常不愿或無法承擔其特定疾病的費用或家庭的護理費用,眾包和其他用于在患者組內共享信息的方法是不劃算的。結果導致,由于患者自認為無法負擔得起醫療服務,他們可能會放棄醫療服務。
他說:“急診和預防再入院,這些環節的改善其實與醫療保健數據和醫療信息化直接相關。”
“缺少信息和數據打通,也增加了患者、院方和保險公司的診療成本,這意味著我們在付出更多的情況下,得到的東西反而更少。因此,患者也會感到困惑,在很多情況下,他們對自己的數據缺乏所有權感到憤怒,需要帶著自己的病歷從一個醫生到另一個醫生。”
醫生也抱怨把大量時間花在EHR中去記錄數據,而不是與患者互動,負擔越來越重。
當行業需要更多的醫生、護士和其他衛生專業人員時,而在老年人口居多以及基礎服務較差的地區,這種現狀正在使得越來越多的專業人員離開醫療行業。
那在這系列問題面前,如何利用好數據去解決問題?
Lieberthal表示:“合成數據是解決的思路之一。”
合成數據指的是由計算機使用人為手段生成的數據,而不是從現實世界的環境中測量和收集的數據。這一數據是匿名的,并且是基于用戶指定的參數而創建的,因此可以盡可能地和現實情境下的數據有著相同的特征。
創造合成數據的方式之一是使用真實數據,但是需要去除數據集中能夠識別出個人信息的方面,如姓名、郵件地址、社保號碼和地址,從而確保數據是匿名的。生成模型能夠從真實數據中學習,并能創造和真實數據極為相似的數據集。隨著技術的進步,合成數據和真實數據的差距也在縮小。
“我們知道人工合成,通常是完全由人工收錄的患者記錄和理賠數據組成。它與部分取消標識的數據或已檢查或刪除變量以限制受保護的健康信息變量的數據集不同。合成數據并不基于患者記錄,因此永遠無法鏈接回特定個人或其個人費用數據。”
Lieberthal解釋說,取而代之的是,它基于現實世界的數據進行開發,校準和驗證,以使其成為現實。
他繼續說:“一旦創建了合成數據,就可以通過縮小數據大小或其復雜性來加以改進。合成數據還可以用于模擬未來的衛生IT系統,例如完全可互操作的數據或集成的臨床/ EHR和理賠/保險人數據。”
Lieberthal補充說,合成數據通過從頭開始設計來解決問題,而不是證明報銷或簡單地替換紙質記錄,從而解決了現實世界中醫療數據的問題。
“研究人員、企業家都在創建綜合性病歷,以回答諸多重要的醫療保健問題。MITRE正在研究Synthea,這是一套開放源代碼的完全綜合的EHR數據。Synthea基于針對各種情況的現實患者過渡情況,用于創建整個州以及重要疾病和人群的綜合隊列,例如心血管疾病,退伍軍人人群和晚期腎病。”
他解釋到,在沙盒環境中使用合成數據可以使開發人員、臨床醫生和其他人員將EHR系統和其他健康IT工具部署到床頭之前對其進行測試,從而獲得更好的解決方案,而不會受到現場alpha或beta測試的損壞。
Lieberthal說:“合成數據的主要組成部分在于互操作性,臨床和索賠數據的集成,以及圍繞合成數據構建的開源社區。存在于合成數據源中的可互操作的,完整的患者記錄類型在現實世界中很少存在,至少在美國不存在,這打破了不同提供商組之間存在的孤島。”
他補充到,患者就診的臨床結果與費用之間的聯系在實踐中很少存在,因此能夠評估綜合數據中的這些權衡取舍,可以衡量提高護理價值-費用之間的關系。
他說:“最后,開放源代碼社區導致可以解決此問題的開發人員范圍更廣,從而產生了新的想法,并且可以解決這些難題的人也更多。”
他引用了很多數據,綜合數據反映了喬治·博克斯的觀點,即“所有模型都是錯誤的”,同時提供了“對現實世界中發現的模型的有用近似”。
他解釋說:“類似地,合成數據可能不是對諸如成本和臨床質量之類的現實結果的100%準確描述,而是對這些變量的有用近似。此外,合成數據正在不斷改善,驗證和校準等方法將繼續使這些數據源更加現實。”
特別是,許多合成數據源(例如Synthea)的開源性質意味著,與從醫療服務的實踐和報銷中生成的數據相比,它更易于審查,分析和改進。
Lieberthal說:“從某種意義上說,合成數據代表了當前的衛生IT標準,同時也融合了衛生IT所能達到的最佳水平。” “例如,Synthea和其他工作通常使用快速醫療保健互操作性資源規范(FHIR),這是一個不斷發展的公認的互操作記錄標準。”
也就是說,合成數據通常使用用戶友好的界面來呈現,例如用于表示護理途徑的圖形標準,從而允許非開發人員訪問綜合數據工具。
他總結說:“從其他方面來說,合成數據看起來很像真實世界的數據,并且被用于各種環境中的開發- 臨床質量度量 和SyntheticMA,即馬薩諸塞州的患者數據。”
“因此,合成數據現在非常流行,以至于可能沒有適合所有合成數據的特征。相反,幾乎所有使用實際醫療保健數據的情況都可以并且可能由合成數據表示。這樣就可以建立一個低成本,低負擔的測試環境,然后可以使用實際數據進行驗證。”
via Healthcare IT News 雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。