題目:「Data Mining in Banking」
日期: 2009年5月21日
主講者:李御璽 /銘傳大學資訊工程學系教授

 

本次演講邀請到銘傳大學資工系李御璽教授。李教授主要研究方向有資料探勘、資料倉儲、資訊擷取、資訊檢索等等。


資料探勘簡介:

Data Mining 是 Data Warehouse 應用方式中最重要的一種。基本上,Data Mining 是用來將你的資料中隱藏的資訊挖掘出來,所以 Data Mining 其實是所謂的 Knowledge Discovery 的一部份,Data Mining 使用了許多統計分析與 Modeling 的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。

資料探勘背景:

在資料探勘的領域中,分類技術受到相當廣泛的研究,並被應用在各行各業中

金融業
◎ 利用分類技術來預測客戶的信用風險
◎ 利用分類技術發掘出對財富管理有興趣的客戶

保險業
◎ 利用分類技術發掘出會有理賠詐騙行為的客戶
◎ 利用分類技術發掘出對投資型保單有興趣的客戶

醫療業
◎ 利用分類技術發掘出病患患有何種疾病

資料探勘的步驟:

◎ 蒐集資料並將資料分為訓練資料集(Training Dataset)及測試資料集(Testing Dataset)
◎ 分析訓練資料集的資料品質(Data Quality)
◎ 根據資料品質報告,擬定資料前處理(Data Preprocessing)的方式
◎ 分析訓練資料集中的各個屬性,並從中挑選重要的屬性
◎ 利用篩選屬性後的訓練資料集,訓練類別預測系統(分類器)
◎ 使用分類器預測測試資料集中每筆資料的類別,並評估其效能(Performance)
◎ 若分類效能達到預期的結果,則可將此分類器實際上線(Deploy),去預測新資料(New Data)所應歸屬的類別

市面上的工具:

傳統上,一個企業若要建置像這樣標準化的分類模型,通常需購買具備全功能的資料探勘軟體,例如SAS Enterprise Miner, IBM Intelligent Miner, SPSS Clementine以及Microsoft SQL Server等,這些軟體有個共通的缺點就是貴且不易上手
◎ SAS Enterprise Miner只租不買斷,一個License第一年訂價500萬,第一年後每年250萬。
◎ IBM Intelligent Miner一個License訂價 400萬。
◎ SPSS Clementine一個License訂價 450萬。
◎ Microsoft SQL Server最便宜,一個License訂價也要接近100萬。

由於這些軟體的功能非常繁雜,因此一段時間的訓練,資料分析人員是無法順利操作的,例如資料中常常隱含許多的雜訊(Noise),像是空值(Null Value)、錯誤值(Wrong Value)及離群值(Outlier),若要利用這些軟體去處理這些雜訊,除了要有資料前處理的相關知識外,如何利用這些軟體所提供的元件去處理這些雜訊,還需一段時間的訓練

我們合作過的某企業一年約有150件資料探勘的專案要進行,也就是說平均2~3天就要完成一件資料探勘的分析專案
◎ 因此這個企業訂定,從有專案的構想開始,進行資料的處理、分析、探勘到結果的呈現,其標準的流程是7天
◎ 7天內要將所有的資料處理完成,並且要完成所有的分析及探勘的步驟,同時開始進行行銷
◎ 傳統的分類模型建置方式,並無法滿足企業對時間及人力成本上的需求

MCU Smart Score 系統開發背景

◎ 開發一個適合於各行各業的資料探勘分類系統-,一舉解決傳統資料探勘軟體的所有缺點,降低企業在系統、軟體、時間及人力上所需花費的成本,提高企業的獲利

MCU Smart Score的特點如下:

◎ 它採引導式探勘(Wizard)的方式,將分類步驟融入系統整體探勘流程中,資料分析人員不需具備太多的先備知識,大幅縮短探勘的時間,亦不需長時間的訓練,減少企業所需花費的時間及人力成本
◎ 它的探勘速度是分類系統中最快的
◎ 它可以處理類別型及數值型的屬性
◎ 它可以處理資料欄位中的空值、錯誤值及離群值
◎ 它能自動計算出對分類結果有幫助的重要屬性(Key Attri.)
◎ 當所選擇的重要屬性有改變時,它不需重建模型
◎ 它能根據目標類別之分佈情形,自動進行效能最佳化,找出最佳的分類參數,以解決目標類別分佈不平衡的問題(Imbalanced Class Distribution Problem)
◎ 它為網路版本,用戶端不需建置任何本探勘軟體即可使用本系統,版本的更新上也十分便利、快捷。
◎ 資料分析人員的訓練將可在1~2個小時內完成
◎ 一個資料探勘的分類模型可在1個小時內獲得一定水準以上的探勘結果

結論:

傳統資料探勘軟體有著貴、軟體操作不易、人員訓練困難、系統安裝及版本更新不便利等的諸多缺點。銘傳大學智慧型評分卡-MCU Smart Score的問世,一舉攻克了這些難題。

實際應用-台新銀行

銀行業最重要的就是風險評估,而資料的整合非常的重要,資料整合必須建置資料倉儲,而資料倉儲建置是非常的困難,風險評估必須要把銀行中不同部門的資料進行整合,整合之後才有辦法進行資料探勘的動作,作者在一開始在台新銀行當顧問,發現了一般資料探勘的系統有著操作不易,且在每一個產業都有所不同,市面上的系統無法適合所有的產業,在台新一年的工作經驗中,發現了這些問題,需要開發出一套簡單操作,並且可以找出資料中有用的樣式,所以才進行了MCU Smart Score資料探勘系統的開發,經過實證分析,在傳統行銷的方式及資料探勘相做比較,可以發現資料探勘作為輔助的行銷方式效能,為傳統行銷的兩倍,因此可以證明用資料探勘的技術找出正確的資料,比單憑經驗的傳統行銷方式更為來的優異,此系統可以藉由短時間的教育訓練,讓使用者可以快速熟悉這軟體,找出資料探勘的資料模型,其分析的速度目前也是市面上最快的一個軟體,因此這套軟體在台新銀行進行風險評估以及行銷上,有著顯著的幫助。


林宗誼 撰稿
胡梅娟 潤稿