【專題演講】共享經濟-O2O之網路生活應用


日期: 2015年12月03日
主講者:溫演福 先生 / 國立台北大學 資管所所長

    Big Data在資訊領域已是耳熟能詳的專用術語,至於該稱呼他為巨量資料、大數據亦或關鍵資料? 講者認為應該是「關鍵資料」才最為正確。並且在整個演講過程,鄒教授不斷反覆的問同學,在Big Data中的所謂得Big表達的含意究竟是大量? 巨量? 還是利害(厲害)呢? (並讓學生觀看了約8分鐘的短片,證明Big的涵義不只是大與巨量而已)。

    講者認為每當提及Big Data時,應從4V:Volume(量)、Variety(種)、Velocity (速度)、Veracity(準確) )開始討論,並且教授認為相較其他三V更為重要的是Variety(種類),因為隨著時代轉移,儲存檔案的方式越來越多,像是音檔、文字檔、影音檔等等,所以該如何整合資料也是Big Data中的重大議題之一。此外老師也透過問題讓同學們反思,像是,當手邊有大量資料時,應該全部輸入進去建模組嗎? 當然不是! 老師解釋著,因為以統計角度思維來看,建模需要有前處理,必須去蕪存菁後才會進入建模狀態。

    在Big Data中,資料型別至關重要,其又分為相依性資料與無相依性資料,相較之下,無相依性資料比相依性資料來得更好建模。而相依性資料又細分為時間序列資料、離散序列資料、空間資料與網路與圖形資料,無相依性資料則是細分為多元量化資料、多元類別資料、上述兩者混成的資料、二元與集合資料與文字資料。

    教授說到當學完上述資料型別概念後,下一步要思考的是如何將這些資料做紀錄。現在Big Data最常見的格式為資料矩陣(data matrix),並且隨著時間的推移,現在有很多圖形(graph)資料與序列資料甚至是空間資料。然而資料得到之後,該如何做縮減的動作? 簡單來說就是高維資料如何校準到低維空間中。此外,資料屬性的挑選方式則是,異中求同,同中求異。並且講者提供了很多種距離與相似性衡量的方法,像是Manhattan distance (L1 norm)、 Euclid -ean distance (L2 norm)、Minkowski distance (Lp norm)、Tchebycheff distance (L-infinite norm)、Mahalanobis distance、Levenchtein distance (Edit distance)、Gow -er distance、Jaccard similarity、Cosine similarity等等。而國外學者整合了Big Data的解決方案,並將此分為四大方向Text analytics (文本資料解悉)、Audio analytics(語音資料解悉)、Video analytics(視頻資料解悉)、Social media analytics (社群媒體資料解悉)。

    除了上述資料分析的基本概念,講者提及到工具的重要性,有好的概念加上好的工具,才能有好的分析,而根據網路調查(KDnuggets Poll),最常專門用來做”分析”的程式語言,依序排列是R、SAS、Python、SQL、Java。其中R語言於紐約時報被認定為資料分析界的標準語言(lingua franca)且為美校研究生的第二語言,免費且開放源始碼 !

    最後鄒教授提到活化Big Data應用價值的關鍵應為下列七點:

    • 加強個人與組織的基本馬步
    • 價值 = 資料 + 程式 (data structures & algorithms) + 人的智慧
    • 活化顧客留下的資料軌跡 – trail of data exhaust (data mashups)
    • 價值的關鍵在於應用,勿忘科技始終來自於人性
    • 工欲善其事,必先利其器(SQL, R, Python, Hadoop…tools)
    • 做中學,學中做
    • 跨出習慣領域,追求融會貫通
    •  

    最後三分鐘,教授反問了所有同學,Data代表何意義?Data modeling的精神為何呢?其實這都必須自己理解概念後去實做,因為只有實做的時候能讓你發現問題甚至得到新的靈感與融會貫通。

    <>
    周傳欣 撰稿