AI CAFE 來解惑:從數據到人工智慧的距離有多遠?(#AI_Cafe 11/13會後報導)

人工智慧跟大數據脫離不了關係,儘管很多企業試著導入人工智慧,但往往在數據整理過程中就卡關,甚至宣告失敗。本次的 AI CAFE 邀請若水 Flow AI 數據服務事業部策略顧問簡季婕,以及創業家兄弟/松果購物共同創辦人郭家齊,帶領參加者一窺數據與 AI 的密切關係,以及實務上到底遇見什麼問題?

這幾年風起雲湧的人工智慧跟大數據脫離不了關係,「成也數據、敗也數據」,儘管很多企業意識到人工智慧的重要性,也試著導入人工智慧,但是往往在數據整理的過程中就卡關,甚至宣告失敗。

本次的 AI CAFE 與 AppWorks 之初創投一起合辦,邀請若水 Flow AI 數據服務事業部策略顧問簡季婕,以及創業家兄弟/松果購物共同創辦人郭家齊,透過擁有數據專業與新創實務的兩位專家分享,帶領參加者一窺數據與 AI 的密切關係,以及實務上到底遇見什麼問題?

200個專案教我們學到的數據真相

自2018年若水創立台灣第一家AI數據服務事業部以來,團隊至今已累積超過200個跨產業AI數據專案經驗,看過這麼多企業案例,簡季婕指出,AI專案是否會成功?主事者是否了解AI很重要,更要避免用舊有的思維去理解人工智慧。當中會遇到的挑戰還包括,數據的定義與溝通,由於AI專案有點實驗性,加上應用情境多元,當中還需要與工程師溝通,才能清楚定義數據,確保模型訓練的品質。

簡季婕也提到,在AI模型的建立過程中,大多得先向主事者證明概念可以運作,才會往最終的產品目的推進,但大多數的專案在概念驗證上就會卡關。很大的問題多半出現在資料上,因為大多數仍使用開放資料,但需要實境的數據才能解決實際的問題,「數據對AI模型的落地,佔有很重要的角色。」

資料愈多愈好?多元性與複雜性不可忽略

「技術為主的公司,大多都會先討論要用什麼演算法,但真的開始在做AI模型時,一定要想著數據,」簡季婕提醒,當思考要解決什麼問題時,就要思考該用哪些數據?接著才是該用什麼演算法解決?

「數據時並非多就是好,」簡季婕說,還需要顧慮到多元性以及複雜性,以及缺乏的數據要怎麼取得?例如,做自駕車專案時,會從資料的分類及變異開始,例如交通號誌的分類,以及天氣狀態的改變都會直接影響資料品質,必須加以分類標註。「當你在想資料數據時,並不是有幾百萬個數據就是好,」如果大部分的資料相似度很高,那就要萃取部分做代表,同時還要考慮到要怎麼搜集其他場景情境的資料?這樣才能讓模型符合真實的樣貌。

如何才算好的數據?簡季婕認為要注意三種不同層次,分別是事情本質、情境應用,以及標註的人。圖片一開始可以透過下tags,依照圖片情境、內容做好分類,才能讓AI模型可以有策略的學習。簡季婕提醒,人工智慧模型表現與數據有極大關聯,當使用的數據相同,但要解決的場景不同時,數據的標註就很重要,「你怎麼定義它就怎麼學,」連帶影響模型表現也會不一樣。

在機器學習之前,自動化就能解決大多數的事

不過,郭家齊從電商及創業的角度提供不一樣的思考。2007年至今,創業家兄弟推出過22個服務,但大多數都失敗了,目前僅留下生活市集、松果購物,及運動市集3個購物平台維持營運。他們一直秉持著精實創業的精神,就是用最簡單的方法做出商品,然後丟到市場上看反應再決定下一步動作。因此,通常一開始都是以最簡單的人工方式上線,但「任何東西如果做到第三次就該自動化」,他認為,對一般目前的中小企業來說,自動化就能解決大部分的問題。

郭家齊以這三個購物平台經驗為例,「電商平台要解決的是人與商品的媒合問題,」因此,首頁上的資訊對於電商來說十分重要,但決定什麼樣的資訊在首頁上,並不一定要用到AI常用的深度學習(Deep Learning),「很多時候rule-based就可以解決大部分的問題。」例如他們的平台一開始的推薦功能,就是以rule-based寫出的程式,依照使用者的性別、年齡、瀏覽紀錄等推薦商品。只是隨著時間與資料的增長,rule-based也會愈加愈多、愈複雜,當rule-based發展到極致,「最後就僵化了,因為沒有人知道還要改動什麼。」

從自動化到人工智慧 資料團隊的重要

郭家齊認為,當自動化遇到瓶頸的時候,人工智慧剛好可以帶來幫助,如果能善用數據並輔以機器學習的技術,突破原本最高只能到達七十分的限制。郭家齊說,團隊一開始先以自有的資料嘗試了一個小專案:讓模型透過使用者的名字判斷性別,發現準確率很高後,團隊就開始進行許多不同的應用嘗試,例如偽卡偵測、首頁商品排序,但出來的的結果卻比人還糟。

「過了一年,公司後來決定重新招募一組data team,」郭家齊回憶,當時找的人大多都是具數學或統計背景、會寫程式的新鮮人,並要他們專注的分析數據。「終於又在半年之後,利用機器學習技術的排序系統成效,終於和原本使用rule-based的效果相當了。」

目前生活市集加上松果購物的資料科學團隊僅有六人,是個小團隊,但郭家齊說,他們賦予資料團隊擁有決策權,但前提是必須要經過A/B 測試,讓資料團隊不是只會撈資料的工具人。他笑說,賦權後,擁有熱情的資料團隊也很努力證明「哪些東西是可以從rule-based變成AI。」

人工智慧科技基金會(AIF)透過知勢內容平台與不定期的線下聚會活動,讓更多人認識人工智慧,並持續擴大AI科普影響力,以推動台灣產業AI化與轉型,我們透過客製化訓練、顧問及專案服務,協助企業建立自己的 AI 團隊。扮演產業與學術界的關鍵樞鈕,有效介接學術能量,讓台灣產業在這波AI浪潮中穩健轉型成長。若您對企業AI課程有興趣,歡迎至人工智慧科技基金會https://aif.tw/ )了解更多,或直接寫信與我們聯絡 hi@aif.tw。