從數據孤島到實證決策,台灣 AI 時代的治理解方

在 AI 時代,資料被視為創新的引擎,但對台灣產官學界而言,落實資料治理仍是一場艱難的挑戰。儘管促進資料創新利用發展條例已提供法源框架,但在實務上,各部會仍深陷「數據孤島」與「風險不對稱」的困局。公部門長期存在的法規恐懼,導致高品質資料難以跨部會流動,不僅築起行政藩籬,更阻礙精準施政與數位轉型的進程。

為盤點上述實務困境,人工智慧科技基金會日前召開專家會議,匯集產官學界代表與法律專家的實戰經驗,深度剖析數據轉型背後的關鍵挑戰。

理想與現實的撞擊,地方資料治理的推動障礙

以部分地方政府的實務觀察為例,即便內部已建置「資料治理委員會」並完備相關規範,其核心關鍵仍在於建構「數位信任」。地方政府深知,唯有確保資料利用兼具安全性與公益性,並獲得市民的信賴,資料治理方能穩健推動。在此基礎上,市府也進一步將開放資料(Open Data)視為核心數位資產,期盼透過制度化的資源釋出,賦能民間產業更具效率地利用資料。

然而,這份願景在實務執行中卻遭逢嚴峻挑戰。首先是橫亙於中央與地方機關間的「資料壁壘」。地方政府掌握第一線治理需求,但受限於民政、警政等核心資料主權歸屬於中央,行政權限的灰色地帶與機關職能邊界的模糊,常讓基層在推動資料介接時,陷入反覆溝通卻最終被拒的行政困局。

除了體制僵化,「資料品質」的參差不齊也是沉重的轉型成本。實務操作中,各系統資料格式混雜,光是「年月日」格式在西元紀年與民國紀年之間的混用,就讓資料清洗與格式轉換耗費了驚人的行政與人力成本,使得資料治理難以跨出第一步。

更棘手的挑戰來自於法律環境的變動。隨著憲法判決對個資法採行更嚴格的認定標準,地方政府在風險規避的考量下,不得不對許多具備高度公共利益的資料計畫按下暫停鍵。這種對法律風險的敬畏,雖然守住了隱私底線,卻也在無形中阻礙了創新治理的進程。

建構責任防火牆,以第三方機制驅動現代化治理

在 AI 與大數據應用的複雜流程中,技術與法律環節環環相扣,一旦發生爭議,責任歸屬往往散落在多個細微節點。若要求公務機關獨自承擔所有研發與執行風險,並不符合現實,這也是導致當前行政端傾向保守畏縮、甚至卻步的主因。

要打破這層障礙,關鍵在於善用民間專業力量,建立「第三方治理」模式。無論是 AI 服務的公正評測,還是資料處理的合規驗證,獨立的第三方機構都能扮演專業中介的角色。這不僅能確保流程的透明化,更重要的是透過第三方中介機構的參與,能有效分擔政府在資料處理與技術判定上的責任歸屬,讓流程透明化,並減輕公務員的行政心理負擔。

此外,儘管跨部會的資料流通是數位轉型的核心,但單靠政府內部協調,已難以跟上科技更迭的速度。在治理架構中引入「第三方機制」,能作為部會間的緩衝與專業技術支撐,協助縮短決策路徑。面對數位浪潮,政府不應因畏懼風險而止步,而應透過更智慧的制度設計,在流程初期便釐清權責界限,讓技術創新與資料安全並行。

醫療資料治理與 AI 創新實務:從技術、法規到架構的全面轉型

這套治理思維在資料敏感度最高、法規最嚴謹的醫療領域,顯得尤為關鍵。 過去,醫療資料主要侷限於傳統的公共衛生行政,發揮統計與監測功能;但在 AI 醫療勃發的趨勢下,資料已轉化為具備高度商業潛力與提升診療效率的關鍵資產。

因此,驅動醫療數據成功的轉型,挑戰已不再僅限於技術層面,必須從法規調適與組織架構等深層維度切入。唯有重塑醫療資料治理的新典範,才能在確保病患隱私與促進產業創新之間,取得精準的動態平衡。

在技術層次的首要任務是推動統一的資料交換標準,藉由優化處理與串接環境,徹底解決跨院、跨機關間最基礎的技術相容性痼疾。實務經驗顯示,「合法」僅是資料利用的最低門檻。在醫療領域,必須深入理解利害關係人的訴求,透過透明的溝通與雙向獎勵機制,賦予資料釋出更強的正當性與誘因。

最後,引進公私合夥(PPP)模式並設計「數據委員會」,其核心目標在於補足法規無法涵蓋的社會信任。即便在私人出資的模式下,所有決策與流程仍需具備高度透明性,藉由持續累積社會信用與聲譽,確保每一筆資料的應用都能轉化為大眾對數位治理的實質信任。

本土語料庫與文化主權的實踐

另一方面,與醫療資料面臨的合規挑戰不同,本土語言語料庫的建置核心,在於打造開源的語音辨識與生成資源,其戰略目標是賦能民間產業進行廣泛應用。

儘管國內已有台杉、台科等頂尖團隊投入大型語言模型(LLM)的研發,但台灣若要在 AI 浪潮中站穩腳步,仍需持續深化開源模型在在地文化語料上的豐富度。透過長期的資源累積,我們才能確保台灣在 AI 時代下的數位文化主權,避免在地語言與文化在技術演進中邊緣化。以目前的客語語料庫計畫為例,透過系統性的採集與標註,現已累積約 2,000 小時的高品質語音資料,為本土 AI 應用提供了厚實的文化底蘊。

然而,要在數位轉型浪潮中釋放資料潛力,並建構具備台灣脈絡的數位競爭力,除了技術突破,法制的明朗化與專業術語的共識定義,更是決定成效的關鍵指標。且實務顯示,當個資法的執行邊界越趨清晰,各行政機關在處理「非個資利用」或資料加值應用時的阻力便會顯著降低。因此,各界對於「個人資料保護委員會籌備處」寄予厚望,期待其能儘速推動法制明朗化。

另一方面,在推動資料創新與法制化的過程中,另一個隱形的挑戰是基礎術語的爭議。最顯著的例子莫過於「資料(Data)」與「數據(Data)」在台灣語境下的定義分歧。目前兩者雖常混用,但不同專業背景對其內涵卻有截然不同的認知。

部分學者(特別是具備數學、統計背景者)傾向將「數據」理解為「結構化(Structured)」的數值資料,較偏向數字統計;資訊工程(CS)與社會科學背景的學者則認為「資料」的內涵更廣,應包含文本、影像、感測訊號等所有形式的資訊。

這種定義上的模糊不僅發生在 Data 一詞,甚至能延伸至網路安全與資通安全等安全性議題,以及醫療數據與健康資料等醫療健康領域。若未能事先對齊語意,後續針對監理標準與條文的討論將極易陷入僵局。

建立跨領域的共通語言,驅動精準決策

資料治理的核心在於「一致性」。雖然在日常口語中,「數據」與「資料」難以完全切分,但在法治與技術標準中,必須確立「資料」作為整體架構的主軸。建立這套跨領域的共通語言,不僅是打破部會隔閡的基礎,更是台灣達成精準決策、在全球 AI 競賽中突圍的第一步。

為了確保法制覆蓋範疇的完整性,在資料創新利用發展條例中應採取廣義的「資料」定義,將影像、病歷、文本等皆納入範疇,而非侷限於純量數值。同時,為了提升溝通效率,應在標準條文中括註原文,讓學界與產業界有統一的遵循基準,避免行政流程虛耗在語意爭論上。

除了語意的對齊,資料治理的討論不應長期卡在「個資與非個資」的二元辯證。在實務環境中,資料往往是混雜存在的。應轉而將「風險管理」視為一套標準化流程,透過彈性的制度認定與嚴謹的技術檢測,在確保安全的基礎上,讓資料應用能合法且流暢地往前推進。針對風險的討論,人工智慧基本法中有隱晦的風險三級分級,未來應進一步制定分類框架。

最後,在實務落地上,儘管中央政府目前優先針對大型語言模型(LLM)推動評測,但民間與地方政府已有大量多樣化的 AI 產品與服務(Product & Service)投入運作。建立具公信力的「第三方驗證機制」已成當務之急。藉由導入民間專業力量,不僅能補足官方評測量能的缺口,更能建立一套客觀的檢核標準,確保多元的 AI 創新應用能在安全的框架內穩定落地,最終實現資料驅動治理的宏大願景。