能源經濟及策略、新及再生能源、火力、核能及核設施除役、原子科技及民生應用的專業資訊平台



使用機器學習作為管理系統的自動化故障偵測

出處 ERICSSON BLOG 作者 蔡佳豪 年份 2019/09/09
報告類型 新聞報導 分類 其他 資料時間 2019年9月
原始連結 原始連結
       在工業雲平台中,機器、軟體、及操作人員之間即時的協力合作是常態,因此有效且即時的處理故障相當重要,故障管理是指處理故障的所有管理系統。本文將著重於故障偵測領域、故障管理功能、及如何使用機器學習(Machine Learning, ML)進行自動化故障偵測。 
       故障管理是系統管理的一個功能,其涉及偵測、預測、隔離(肇因分析)和故障預防。故障管理系統的組成包括:
  1. 監控系統蒐集關於受管理系統之即時信息。
  2. 故障預測組件進行故障發生前的預測。
  3. 故障偵測組件針對無法預測之故障進行偵測。
  4. 在故障原因不明顯的情況下,分析造成故障原因。
  5. 故障預防與恢復組件則分別採取必要的步驟,使系統在預測情況下防止故障發生,或在偵測情況下使系統從故障中恢復。 
       當今的故障偵測可概分成下列三種方式:
  1. 等待用戶回報:為最簡單但最不積極的方法,沒有任何自動化系統,僅等待用戶檢測並報告故障,此方法將使得故障的中斷時間較長。
  2. 使用測試套件:此類測試套件包含一系列自動化測試,需具有高準確度,且測試時間將長及消耗用戶資源與影響系統性能。此外,必須定期測試,以隨時偵測故障發生。
  3. 簡易的警報系統規則:透過依設定值和計算函數得出之規則,滿足條件則觸發警報,就如故障發生時,饋線終端單元(Feeder Terminal Unit, FTU)依過電流旗標舉旗。此方法優點較不消耗系統性能且成本較低,可長時間進行運作,亦能達到故障偵測的功效。
 未來的故障偵測
       基於機器學習的故障檢測可分為監督或無監督機器學習兩種。監督機器學習是透過以往的故障案例進行模型訓練,並有一個「標籤」顯示取樣狀態是否故障,因而可從狀態樣本有效地判斷故障。此外,無監督機器學習則是透過大量的無故障狀態樣本進行模型訓練,且無「標籤」顯示是否故障,故此方法無法判斷特定的故障,但可從狀態樣本識別是否與模型相異,進而偵測與判斷未知或意外故障情形。故兩種方法各有其優缺點,可視不同的應用情形或環境來使用之。