「富數據」時代,我們如何從資料中創造價值?
鄭江宇說,並不是只有具備資料科學背景的人,或是需要學習寫程式才能具備資料素養,因為這是大數據時代下,每個人都需要內化的能力。所謂資料素養包含了四大能力,首先是要能讀取資料,第二為了解如何應用或對應並與之共存,第三要具有分析數據的能力;第四則是,對於被呈現出的資料要抱有質疑的態度,因為資料搜集的時間,描述的方式,都會得出不一樣的值。
什麼樣的資料才是有效的呢?
「垃圾進,垃圾出」是資料科學領域常聽到的一句話,而資料治理的第一關便是要確認資料是否有效,但是什麼樣的資料才是有效的呢?鄭江宇解釋,資料可分為Valid data、Imperfect data,以及Erroneous data。一般正常、有效的資料稱為Valid data,Erroneous data則是錯誤的資料。不完美的資料包含了不完整的資料,例如缺乏樓層的大樓郵寄地址;或不精確的資料,例如不準確的數字說明;或不確定的資料,例如資料來源不確定、一直變動的揮發性資料,例如PM2.5的濃度;還有一種是模擬兩可的資料,例如形容人幹了一件好事,鄭江宇提醒,除非應用的目的是要透過不明確來主觀詮釋,如果是要應用可以明確的情境時,就不能有這樣的資料。
富數據時代,我們如何從資料中創造價值?
鄭江宇說,面對數據時,別忘了保持好奇心與創造力。他舉例,國外有共享單車企業便透過資料的應用,讓使用者透過APP尋找到特定的「紅包車」後,將共享單車騎到特定位置就能拿到紅包獎勵。提供了小小的紅包誘因,企業反而可以省下了出動搬運單車的成本,這就是將資料轉化為對企業有用的價值,還能提升顧客的使用體驗。他建議,可以從自己的生活或業務範圍開始思考,會接觸到哪些資料?而這些資料又要如何轉變並帶來價值?在思考這些的應用時候,創造力就是十分重要的能力。鄭江宇說,富數據不同於大數據的地方是,富數據能從資料中找到價值,而大數據如果太大,有時候反而會把自己壓垮。
是否常常遇到握有許多數據,卻不知道該如何使用的情形呢?這時候如果能善用跨界的整合,將兩個場域的資料對接整合在一起,有時候也能產生意外的效益。鄭江宇舉例:「你能想像,汽車檢測常用的車載診斷系統與汽車保險資料有什麼關聯?」他解釋,車載診斷系統上除了車子的狀況,也記錄駕駛的行為,例如是否常緊急煞車?所以若能夠結合這兩種資料,駕駛的習慣越良好,購買產險的保費也就越低。
企業應該導出自己的框架與標準
鄭江宇說,有時候在做決策時,可能需要兩種以上的資料來源才能降低決策的不確定性,但當資料來源越多時,整合就會越困難。在大數據時代資料品質會遇到的挑戰,包括資料來源多樣、資料數量龐大、資料變化速度快,以及缺乏資料品質標準等。鄭江宇提到,目前有許多企業都想做資料整合,但是困難重重,有許多都是來自於組織文化上的阻礙。
此外,鄭江宇認為,大數據時代下,很多事情不是抽樣,因為大數據是全面性的資料收集與歸納;加上每一家公司所面臨的狀況,想要解決的問題都不一樣。不能拿別人家的情況對比自己的,別人家的解決方案也不一定適合自己。除非公司是供應鏈的一員,必須符合合作夥伴的相關標準。否則從組織內部的資料治理的角度來看,企業應該要自己導出自己的框架與標準,不一定要沿用其他企業的資料治理方式。