演講摘要

1.什麼是分類?

林智仁教授在此次的演講中介紹了如何使用支持向量機器(Support Vector Machine 簡稱:SVM) 技術來做資料分類(Data Classification)。 分類(Classification)是先針對已知(Known)標籤(Label)的訓練資料(Training Data)進行訓練(Training),而建立一個模型(Model)以作為分類的準則, 因此可以利用這個模型為未知標籤(Unknown Label)的資料做分類。而分類模型的好壞則進一步的可以用測試資料(Testing Data)作測試, 以鑑定模型的好壞。分類以從訓練資料吸取知識(Knowledge)而推論出規則(Rule)的學習方式稱為監督式(Supervised)的學習(Learning)方式。 分群則是利用資料組成的特性做適當的分類,為一種非監督(Unsupervised)。而在應用層面上, 分類可以進一步應用在手寫辨識(Handwritten Digits Recognition)及垃圾郵件過濾(Spam Filtering)上。

To Top


2.分類的方法

至目前,各式分類的方法,已經被廣泛發展。目前主流的分類方法有最近鄰居(Nearest Neighbor),類神經網路(Neuron Network), 決策樹(Decision t Tree),支持向量機器等數種方法。由於幾種方法在解決不同類型的分類問題時都有各自的優缺點, 所以都值得做進一步的分析與探討。而支持向量機器則最近被廣泛認為是一個具有彈性及分類效果優良的分類演算法, 因此林教授針對這個方法做進一步的介紹。

To Top


3.支持向量機器的使用方法

支持向量機器把所有資料轉成向量(Vector),並將資料放置於超平面(Hyper-plane)上分類,而在資料的線性分類(Linear Separation)上, 可以用超平面上的虛線(Dotted Line)表示支持向量機器的模型。而分別在虛線的兩側的資料則代表兩種不同類型(Different Class)的資料, 然而所可以建立出的模型有很多種,所以如何選出一個合理分類資料的模型及設計一個適性化的核心(Kernel)為支援向量機器所要進一步研究的課題。 但是並非所有的分類問題都能以線性模型將資料分開。因此,支持向量機器提供容忍一定量的訓練錯誤(Training Error)及將原本的資料升維以找出 非線性的分類模型等功能,以做資料分類。林教授也進一步探討使用支持向量機器上所會遇到的問題。

To Top


4.個案分析

在介紹完支持向量機器如何做分類後,林教授將以往他人使用支持向量機器進行分類時所遇到的問題綜合起來做個案分析。 他舉了三個針對不同個案做分類的例子。在例子中,林教授分別分析了三個例子中個別使用SVM 所遇到的問題及分類錯誤的原因, 最後再針對每個例子提出改進使用上的方法,以增加分類上的準確度。

To Top


5.結語

支持向量機器提供了一個使用者可以自由設計核心(Kernel)的分類機制。雖然支持向量機器跟以往的分類演算法(類神經網路,決策樹)相比並沒有 提供相對較高的準確率,但是支持向量機器基於使用彈性,簡單及具高準確度的特性下,勢必是使用者在對分類資料上另一個不錯的選擇。

To Top