台北醫學大學附設醫院治理三院百萬大數據,再攻FHIR癌症基因資料
News from: iThome
2年前,臺醫大成立全臺第一個大學數據處,找來經驗豐富的IT老將掌管北醫體系百萬筆臨床數據,更經手大量開放資料、推動跨國數據聯盟策略。接下來,他們要將癌症、基因資料FHIR化,接軌國際。兩年前,臺北醫學大學出現了一個特別的組織。它與資訊處同等,都是一級單位,但職責不只限於學校,更涵蓋3家醫院,一肩扛起北醫體系所有數據管理的重任。
帶頭的指揮官,更是一位經驗豐富的IT老將,不僅是萬芳醫院早期發展新一代醫療IT應用的推手,也擔任過首任衛福部資訊處處長,現在更是國際醫療資訊標準協會HL7臺灣分會的理事長。
這個組織,就是臺北醫學大學數據處(簡稱北醫大數據處),而這位關鍵人物,就是臺北醫學大學數據處數據長許明暉。「當數據變得非常龐大、複雜時,就需要專責單位分工處理,」許明暉強調:「健康領域更是如此!」
用NLP工具協助醫師快速抓出病理報告重點
不只建置資料集,數據處也會提供AI工具,來優化醫院的臨床作業流程。比如,他們利用一套開源自然語言處理(NLP)模型,打造成可以抓取關鍵文字訊息的AI工具,來加速處理結構鬆散(Free text)的文字型報告。
其中最成熟的應用,就是從病理切片報告中,擷取出乳癌三陰性關鍵訊息,並將訊息自動匯出到Excel表格,轉換為結構化資料,來快速提示報告重點、協助醫師決策。
「這種三陰性特徵很棘手,」許明暉解釋,三陰性乳癌預後不理想,因此在臨床上備受重視。這類病理報告通常一份數百字,但三陰性特徵不會清楚地集中出現在報告某一處,負責醫師得仔細閱讀所有報告,從不同段落找出這三種特徵才行。
因此,透過NLP工具快速從病理報告中整理出這些特徵,就能協助醫生更快制定治療策略,甚至是預測預後。
許明暉也希望,這個NLP幫手未來還能更聰明,比如能根據前後文判斷更精準的資訊,「看到醫師寫的數字,就能判斷是年齡、身高還是體重,」他說。
第一道防線把關資料合法性,還找來美NIH標竿人物給建議
打理如此龐雜的健康資料,許明暉透露,數據處還有四大原則來指導。首先是「資料合法性」,他舉例,要取得臨床數據,必須先以知情同意書,告知患者資料去識別化後的用途、取得同意。
再來是多元機制原則。比如,醫療資料可用於非營利的教學研究,也能用於藥廠研發新藥等盈利目的,北醫大數據處要做的是,讓患者能選擇資料用途,而非只單純詢問是否願意提供資料。
第三個原則是「退出機制」。許明暉解釋,病人既然願意授權資料使用,也應有中途退出的權力。對此,數據處會依意願來調整資料集,刪除中途退出的患者資料、保障退出權力。
最後是隱私安全,數據處不僅要將患者資料去識別化,還要確保資料不被有心人士竊取。因此,數據處與資訊處密切合作,由資訊處打理一切IT、資安工作,比如資料湖建置、防火牆設置、運算資源提供等,讓數據處專心負責資料處理工作。
但這些還不夠,為進一步與國際接軌,北醫大還請來一位參與過NIH百萬人基因計畫、美國大型電子病歷資料研究計畫的標竿級人物—美國范德堡大學生物統計系主任石瑜,來擔任顧問角色,指導北醫大的數據發展策略,來接軌國際醫療大數據的作法。
下一步攻癌症、基因資料FHIR化
不只藉助標竿大師經驗改善資料管理作法,數據處下一步還要往國際醫療資料交換標準FHIR邁進。這個標準由國際醫療資訊標準協會HL7制定,就像是一套通用的溝通語言,讓不同組織、不同廠牌儀器產出的資料,也能互相溝通。
「但這種溝通形式,較適合北美大型市場,對習慣走客製化資料交換規格、規模小的臺灣市場來說,FHIR會推得很辛苦,」許明暉坦言。因此,他們並非要從頭將所有資料轉換為FHIR格式,而是鎖定跨國研究這個目標,來推動FHIR應用,特別是癌症研究資料的FHIR化。
他解釋,選在這個時間點投入,是因為以FHIR架構為核心的癌症資料系統mCODE逐年普及,甚至,HL7協會還將mCODE作為旗下FHIR加速器的推廣項目之一,越來越受到各國醫界採用。
而且,北醫大數據處加入的OHDSI聯盟,今年更推出能將聯盟OMOP-CDM資料格式自動轉為FHIR格式的工具,讓各成員的數據團隊,能更快建立符合FHIR規格的癌症資料集。對北醫大而言,費了一番功夫將內部資料轉換成聯盟資料的苦功,現在可以很容易地轉換為FHIR格式資料。
除了癌症資料,「我們還瞄準基因資料!」許明暉看好這個正在萌芽發展的領域,「美國甚至發起4年計畫,要用FHIR架構推動基因資料標準化!」他直言,基因資料標準化對臺灣非常重要,因為「美國透過4年計畫已逐漸步入正軌,臺灣這時投入,是最好的切入點!」這句話,點出北醫大數據處這位指揮官更遠大的數據願景。
留言
張貼留言