能源經濟及策略、新及再生能源、火力、核能及核設施除役、原子科技及民生應用的專業資訊平台



放射科專家警示:須重視訓練AI用影像資料庫的品質控制

出處 AuntMinnie news 作者 劉聖哲摘譯 年份 2019/11/27
報告類型 新聞報導 分類 原子科技及民生應用 資料時間 2019年11月
原始連結 原始連結

  自「AlphaGo」打敗人類後,「人工智慧(Artificial Intelligence, AI)」立馬再次地成為顯學,全世界產、官、學界莫不紛紛以之為開發焦點。但回顧60年前艾倫·麥席森·圖靈(Alan Mathison Turing)首先提出AI之後的發展史,到目前為止的AI還僅只是人工智慧三個層次定義中層次最低,「以資料數據為本之機器學習」的「弱人工智慧」。簡言之就是人們得事先準備好很大量的數據資料,將資料餵給具有特定學習演算法的機器(電腦),機器經學習並接受訓練後才能獲得決策能力。由此可見機器能否學好,會不會「學歪」?餵給機器學習的大量資料其品質非常重要,品質好自然是必要的,但如果餵的是垃圾呢...?

  11月初,位於澳洲阿德萊德(Adelaide)的「澳洲機器學習研究所(Australian Institute for Machine Learning)」Luke Oakden-Rayner博士在《學術放射學(Academic Radiology)》期刊上發表了他的研究表示:兩個常用於訓練AI演算法的大型公共影像數據資料庫有品質控制(quality control, QC)問題,也就是數據資料之「生成」及「使用」之間或有脫節,因而潛在地限制了這些資料庫的實用性。

  Oakden-Rayner博士請一位認證合格的專業放射科醫生對抽取自「ChestX-ray14(包含112,120張正面胸部X光片)」和「MURA(包含40,561張上肢X光片)」兩個大型公共影像數據資料庫,約700張的影像以眼睛判讀的方式進行審查,以確定原始標籤(label)品質及是否還存在其他細微問題。結果發現「ChestX-ray14」的標籤並非總是能準確反映眼睛在影像上看到的內容,且陽性預測值通常也比原始檔案給的值低10~30%,這可能導致各種不同放射學報告格式或觀察者間的差異;其他還有「隱藏分層」和「標籤歧義消除失敗」等相關重大問題。例如大多數標記為「肺氣腫」的病例實際上顯示出「皮下氣腫」的證據,則需採取的治療方法也就有異。「MURA」的標籤雖然比較準確,但對於「退化性關節疾病」之病例,其原始「正常/異常」標籤並不準確,敏感性(sensitivity)為60%、特異性(specificity)為82%。

  中國「太一科技」CEO解渤也有類似看法:AI醫療最大之挑戰並非機器學習、神經網路和人工智慧演算法,而是很多資料由於診斷標準不一、紀錄未依規範而不全然完整正確,所以品質其實並不高,對於AI機器學習而言幾乎是「垃圾資料」。因此Oakden-Rayner博士建議應最重視數據資料庫產生時之品質控制,檔案中須包括對發現的詳盡描述,資料之產生過程及標籤的規則也都應該予以解釋。

圖說:「ChestX-ray」資料庫包含112,120張正面胸部X光片,每張影像可有多個標籤,但是標籤的準確性或有必要檢討。

(Source: Xiaosong Wang et. al., 2017)