高效能醫學:人類與智能的結合

高效能醫學:人類與智能的結合

High-performance medicine: the convergence of human and artificial intelligence 

 
 

療行為產生許多的醫療數據  + 高速的電腦計算能力 + 大量的雲端儲存,結合了數據計算和儲存,進而實現了人工智能使用,特別是深度學習

 

目前的醫學處在幾個關鍵點: 

  1. 投入大量人力資本,健康結果不一定更好
  2. 大量生成的醫療數據, 已超出人類對數據分析的限制,包括高解析度影像,生理傳感器,生理指標連續輸出,基因組測序和大量電子病歷
  3. 醫療照護流程問題,導致收益遞減,包括診斷錯誤,處理錯誤,資源浪費,效率低下以及時間不足
 
基於上述的問題,和人工智能的發展剛好可以運用在醫學中,產生了許多機會,當然仍有陷阱存在。
 
 

臨床各科別人工智能運用情形

幾乎各科別醫師到護理人員,將來都會使用到人工智能技術,特別是深度學習。深度神經網絡(Deep Neural Network, DNN)可以協助判讀醫學影像,病理片,皮膚疾病,視網膜圖像,心電圖,內視鏡檢查,面部和生命徵像。通常使用ROC圖來與神經網絡進行比較,其中曲線下面積(AUC)用於表示人工智能的準確性高低 
  
 
Fig. 1
 
圖一:   基本的DNN架構就像一個側面的三明治,帶有一個輸入層,多個隱藏層,範圍從5到1,000,每個都隱圖像有不同特徵(如形狀或邊緣),以及輸出層。與其他AI類型相比,DNN 深度學習的關鍵特徵是有自我學習性質;圖像和語音識別主要使用”監督學習”,給定事先標記過的訓練範例,自動對輸入的資料進行分類或分群;在輸入沒有標記的數據下學習未知模式,稱作無監督學習,但迄今為止很少應用。有許多類型DNNs學習方式,包括卷積,反复發作,生成對抗,轉移,加固,表示和轉移 (convolutional, recurrent, generative adversarial, transfer, reinforcement, representation, and transfer). 
 
目前人工智慧執行分析過去的數據,而非在現實臨床條件下進行前瞻性分析
 
 

跨越AI鴻溝 (aI chasm)

圖:創新或遠見的人認為有用的東西,在現實世界中並不適用,需要經過多次驗證、測試,最終才能才熟,才不會在鴻溝中滅亡
 
要注意的是ROC和AUC指標分數高低並不一定代表臨床效用,甚至用來解釋AI模型的準確性的最佳方式。此外,許多研究報告沒有經過同行審查,得到準確的驗證算法無法證明臨床效力。也就是說只透過AUC 達0.99的算法, 但沒有提高臨床療效是沒有價值的。目前的糖尿病性視網膜病,急性腕骨骨折,乳癌轉移,非常小的結腸息肉,先天性白內障等診斷,有前瞻性研究驗證。但對於目前臨床上大多數醫學圖像而言,AI的正確性和再現還遠遠不及人類,更不用說運用在臨床在的實用性。
 
 

FDA加快AI演算法的批準

美國食品和藥物管理局(FDA)批准了許多用於圖像判讀的專有演算法,如下表
 
 

 

放射科

AI應用最被關注的領域是放射科。
  • 人工智慧PK放射專科醫師的研究中, 用121層卷積神經網絡算法來分析超過112,000張胸部X光圖像,肺炎的準確性優於4位放射科醫師。然而,該算法的AUC為0.76,雖然略好於兩個先前測試的用於胸部X光的DNN (Deep Neural Networks)算法,但仍然無法達到最佳狀況。
  • 電腦和專家PK的立足點不同,像是放射科醫師每天看的片子不只肺炎,研究的電腦確只判斷胖炎,二者日常工作負擔也不相當。為了進一步驗證研究結論,包含14種不同診斷的X光影像與四名以上放射科醫師進行比較,Google團隊的演算法,可將AUC評分範圍提昇,從肺炎的0.63到心臟擴大或肺部塌陷的0.87
  • 對於在胸部X光檢測肺結節,來自34,000多名患者的掃描,DNN達到了17名放射科醫師的準確度。急診醫師很難準確診斷手腕骨折,但DNN人工智慧的分析可以明顯改善正確率,敏感度從81%提高到92%,並將錯誤率減少了47%。
  • 深度學習已經運用在各種醫學影像,包括評估骨折和老化程度,肺結核的分類,和骨折 ; 肺結節電腦斷層,肝臟腫塊,胰腺癌和冠狀動脈鈣化評分 ; 腦部出血,頭部外傷,急性轉診; 磁共振成像 ; 心臟超音波; 和乳房攝影。
  • 在急性神經疾病的運用上,例如中風或頭部創傷,在超過37,000次頭部CT 掃描中,AI算法分析了13種不同診斷的結果與放射醫師標準比對,達到0.73的AUC。深度學習算法判斷醫學掃描片的速度比放射科醫師快上150倍(1.2對177秒)。但AI算法對急性神經系統診斷的準確性,比起人類表現仍不佳,還有一段路要走。
  • 相對給予大量識別標記的影像可用於訓練和隨後的評估,可將判斷準確率提升, 包括髖部骨折達0.99; 顱內出血和肝臟腫瘤AUC達0.99;  急性神經疾病達0.56。但不同研究的方法差異,無法在不同研究間比較DNN準確性。

 

病理科

  • 病理學在採用AI科技比放射科慢得多,有幾個原因,例如使用數位圖像看片比例低、對病理判讀結果不一致性高。用深度學習看病理片可以提高準確性和判斷速度。
  • 乳癌有無淋巴結轉移,AI演算法和11名病理學家的結果各不相同,僅部分優於病理醫師。
  • 深度學習算法用於分類乳癌和肺癌。
  • DNA甲基化產生了大量數據,目前很少在臨床上進行腫瘤分類,運用AI可在未來提供更高的診斷準確性,例如使用腦部腫瘤DNA甲基化模式的機器學習可大幅改善腫瘤分類。
  • 肺癌病理玻片的深度學習算法不僅能夠準確地對腫瘤進行分類,而且還經過訓練以檢測病理學家無法辨別的肺癌關鍵突變基因。
  • 如合「人工」和「人工智慧」來提高準確性:病理學家和AI算法的結合,對是否有乳癌微小轉移得到最佳的準確性。這項研究強調了病理學家和AI算法的結合,而不是互相比較。

 

皮膚科

 
透過圖像分析對皮膚癌進行分類的深度學習網絡算法,已經可以和皮膚科醫生PK。
  • 經過近130,000張皮膚圖像訓練後的AI判讀準確性,已經相當於21名皮膚科醫生,其中癌症的AUC為0.96 ,黑色素癌的AUC為0.94。
  • 卷積神經網絡 (convolutional neural network) 和58名皮膚科醫生針對黑色素皮膚癌的診斷比例,準確性ROC為0.79和0.86。
  • 對12種皮膚疾病,包括基底細胞癌,鱗狀細胞癌和黑色素癌等等,AI演算法和16位皮膚科醫生相比,對黑素瘤的算法達到0.96 AUC。
但這些研究均未在臨床環境中進行; 但如果顯示AI可以可靠地來模擬經驗豐富的皮膚科醫生,那將代表一項重大進步。
 
 

眼科

已經有許多研究比較了機器算法和眼科醫師在診斷不同眼科疾病方面的表現。
  • 在54名眼科醫師標記超過128,000張視網膜照片進行訓練後,使用神經網絡評估5,000多名糖尿病視網膜病變患者,診斷出需要轉診的疾病的AUC為0.99(中度或更嚴重的視網膜病變或黃斑水腫或增生)。
  • DNN算法來診斷年齡相關性黃斑變性(AMD)的準確度介於88%和92%之間,幾乎與眼科醫師一樣高
  • 對於兩種最常見的視力喪失疾病:糖尿病性視網膜病變或AMD。超過100,000個OCT圖像的訓練後,深度學習在1,000個圖像中進行驗證,並與六個眼科醫師進行比較。AUC為0.999. 
  • 緊急轉診判讀的錯誤率降低:通過演算法評估一組997名具有50種視網膜病變患者的緊急轉診判斷,與四名視網膜專家比較,演算法沒有錯過任何一個緊急轉介案例,但其中案例臨床醫師只同意了65%的轉診決定。
  • 在一般診所中透過IDx成像設備結合算法評估糖尿病但未知視網膜病變的患者。該算法用於診所819名患者,其可分析圖像的靈敏度為87%,特異性為91%。該研究導致FDA批准IDx裝置和自主檢測算法, 用來診斷糖尿病視網膜病變。作為臨床AI的首次前瞻性評估研究,準確度不如前面提到的研究那麼好,偽陽性稍高,但是一個里程碑。
  • 雖然迄今為止對視網膜OCT和眼底影像的研究主要集中在眼科疾病,但最近的AI研究將這些圖像用來為早期診斷腦部疾病,包括早期癡呆症。視網膜照片的潛在用途似乎也超越了眼科疾病本身。
  • 透過DNN評估超過280,000名患者的視網膜圖像,來判斷心血管危險風險,包括年齡,性別,收縮壓,吸煙狀況,糖化血色素和主要心臟不良事件。性別的AUC為0.97表示AI算法可以從視網膜照片中準確識別性別,雖然其他的分數在0.70上下,但這進一步發展可能用於監測許多疾病風險指標。
  • 通過神經網絡評估的其他不太常見的眼部疾病,包括先天性白內障和新生兒的早產兒視網膜病變,兩者的準確性與眼科專家相當
 

心臟科

 
心電圖和超音波圖都可用DNN評估。機器判讀心電圖有近40年的歷史,但仍不準確。
  • 549個心電圖使用深度學習來診斷心臟病有93%敏感性和90%特異性,幾乎相當於心臟科醫師。
  • DNN和6名心臟科醫師對超過64,000個心電圖的心律不整進行了評估,在14種不同的心律不整也具有相當高的準確性。
  • 對於超音波,267例患者研究,超過830,000張靜止圖像,單個靜止圖像的整體精度為算法的92%,但仍不能用在實際超音波操作的動態判讀。
  • 對超過8,000例超音波進行的更大規模的回顧性研究,肥厚型心肌病(AUC,0.93),心臟澱粉樣蛋白(AUC,0.87)和肺動脈高壓(AUC,0.85)的分類準確性都相當高。
 
 

消化科

 
大腸鏡檢查中尋找小於5 mm的腺瘤或無蒂息肉可能非常困難。 在常規大腸鏡檢查同步進行AI判斷 ,驗證了325個案466個微小息肉,有94%準確性和96%陰性預測值。AI光學診斷,無需注射染料,速度為35秒。在高放大倍率下,準確率可以和專家一致或更快速地診斷特定醫學圖像。
 
 

精神和神經科

 
各類的工具正在開發AI運用在精神領域,包括經由鍵盤互動,語音,聲音,面部識別,傳感器和使用聊天機器人,用來追縱憂鬱和情緒變化。Facebook已被證明可以預測憂鬱症。機器學習已成功的預測抗憂鬱藥物效果, 憂鬱表情,預測自殺,精神分裂症預測是否有急性發作可能。

使用AI算法已在許多其它臨床單位,如協助神經科醫生診斷中風,自閉症,幫助麻醉師避免手術過程中的低氧,為腫瘤專家找到合適臨床試驗病人,選擇可行的胚胎用於人工受孕,通過面部識別幫助診斷先天性疾病;為乳癌患者預防手術。


最後

人類AI應用的廣度如下圖,許多新創公司和成熟的科技公司都在努力開發自然語言處理,以取代對使用鍵盤和文字輸入的需求,這一領域的公司包括Microsoft,Google,Suki,Robin Healthcare,DeepScribe,Tenor.ai,Saykara,Sopris Health,Carevoice,Orbita,Notable,Sensely和Augmedix,等等
 
 
Fig. 2
 
 
 
Origin: Eric J. Topol  Nature Medicinevolume 25, p44–56, 2019
 
 

發表迴響