【專題演講】共享經濟－O2O之網路生活應用


	日期： 2015年12月03日主講者：溫演福先生 / 國立台北大學資管所所長 Big Data在資訊領域已是耳熟能詳的專用術語，至於該稱呼他為巨量資料、大數據亦或關鍵資料? 講者認為應該是「關鍵資料」才最為正確。並且在整個演講過程，鄒教授不斷反覆的問同學，在Big Data中的所謂得Big表達的含意究竟是大量? 巨量? 還是利害(厲害)呢? (並讓學生觀看了約8分鐘的短片，證明Big的涵義不只是大與巨量而已)。講者認為每當提及Big Data時，應從4V：Volume(量)、Variety(種)、Velocity (速度)、Veracity(準確) )開始討論，並且教授認為相較其他三V更為重要的是Variety(種類)，因為隨著時代轉移，儲存檔案的方式越來越多，像是音檔、文字檔、影音檔等等，所以該如何整合資料也是Big Data中的重大議題之一。此外老師也透過問題讓同學們反思，像是，當手邊有大量資料時，應該全部輸入進去建模組嗎? 當然不是! 老師解釋著，因為以統計角度思維來看，建模需要有前處理，必須去蕪存菁後才會進入建模狀態。在Big Data中，資料型別至關重要，其又分為相依性資料與無相依性資料，相較之下，無相依性資料比相依性資料來得更好建模。而相依性資料又細分為時間序列資料、離散序列資料、空間資料與網路與圖形資料，無相依性資料則是細分為多元量化資料、多元類別資料、上述兩者混成的資料、二元與集合資料與文字資料。教授說到當學完上述資料型別概念後，下一步要思考的是如何將這些資料做紀錄。現在Big Data最常見的格式為資料矩陣(data matrix)，並且隨著時間的推移，現在有很多圖形(graph)資料與序列資料甚至是空間資料。然而資料得到之後，該如何做縮減的動作? 簡單來說就是高維資料如何校準到低維空間中。此外，資料屬性的挑選方式則是，異中求同，同中求異。並且講者提供了很多種距離與相似性衡量的方法，像是Manhattan distance (L1 norm)、 Euclid -ean distance (L2 norm)、Minkowski distance (Lp norm)、Tchebycheff distance (L-infinite norm)、Mahalanobis distance、Levenchtein distance (Edit distance)、Gow -er distance、Jaccard similarity、Cosine similarity等等。而國外學者整合了Big Data的解決方案，並將此分為四大方向Text analytics (文本資料解悉)、Audio analytics(語音資料解悉)、Video analytics(視頻資料解悉)、Social media analytics (社群媒體資料解悉)。除了上述資料分析的基本概念，講者提及到工具的重要性，有好的概念加上好的工具，才能有好的分析，而根據網路調查(KDnuggets Poll)，最常專門用來做”分析”的程式語言，依序排列是R、SAS、Python、SQL、Java。其中R語言於紐約時報被認定為資料分析界的標準語言(lingua franca)且為美校研究生的第二語言，免費且開放源始碼 ! 最後鄒教授提到活化Big Data應用價值的關鍵應為下列七點: 加強個人與組織的基本馬步價值 = 資料 + 程式 (data structures & algorithms) + 人的智慧活化顧客留下的資料軌跡 – trail of data exhaust (data mashups) 價值的關鍵在於應用，勿忘科技始終來自於人性工欲善其事，必先利其器(SQL, R, Python, Hadoop…tools) 做中學，學中做跨出習慣領域，追求融會貫通最後三分鐘，教授反問了所有同學，Data代表何意義？Data modeling的精神為何呢？其實這都必須自己理解概念後去實做，因為只有實做的時候能讓你發現問題甚至得到新的靈感與融會貫通。 <> 周傳欣撰稿