人工智慧風潮下的資料治理:跨領域資料的應用考量

文/蕭乃沂(國立政治大學公共行政學系副教授)

一、前言

檢視近期人工智慧(artificial intelligence, AI)的技術進展與應用普及,尤其是2022年底生成式AI(generative AI, GenAI)讓一般非技術使用者得以低門檻體驗其效益於日常工作與生活層面,除了充足的計算力(computing power)與更有效能的演算法(algorithm)之外,也再次提醒了實務與學術社群其背後訓練與測試資料(data)的重要性。具體而言,即使硬體技術進展足以提供充分的計算力,演算法的透明(transparency)、可解釋(explanability)程度與資料品質,終究是影響AI產出的正確性、可信任性並符合人類公益規範的關鍵因素,而決定資料品質的關鍵仍在於資料治理(data governance)的落實程度。

精簡來說,資料治理是一套管理資料資產的全面性框架,包含政策、流程、標準和指標,確保資料的可用性、完整性、安全性和合規性(Jim & Matthew, 2023);或是根據Data Governance Institute(2023)的定義,資料治理是「決策權力與責任框架,用以推動符合組織目標的資料行為」。因此,不論大語言模型(large language models, LLM)所仰賴的龐大訓練資料,或是特定專業領域或組織內部資料與其衍生應用,例如小型語言模型(small language models, SLM)(small language models, SLM)[1]或檢索增強生成[2](retrieval augmented generation, RAG),資料治理的重要程度也隨著AI(包括生成或判斷、自動決策等不同類型)的應用風潮而更值得關注。

二、跨專業領域政府機關資料的使用者痛點

AI風潮對於資料治理成效的迫切需求,同樣也在仰賴「工人智慧」的資料分析任務中普遍可見。政治大學研究團隊曾以實際案例,說明跨域政策分析的資料治理流程,包括蒐集、清理、儲存、標準化、整併、分析及呈現等階段。以公共政策與政府組織為例,上述各類型AI模型與應用的基礎仍仰賴多元專業領域的資料提供者(包含相關政策主管機關)。而政策分析專家學者作為跨專業領域與政策主管機關的資料使用者(例如政治大學研究團隊),可歸納以下幾點相關經驗或痛點[3]

  1. 資料分散保管與資料孤島(data silos)
    以各專業領域的相關法令為基礎,中央及地方政府與其各部門間對於其主管的政策與業務相關資料通常必須獨立保管與維護,並且資料集對應的資訊系統也通常有各自的使用權限規範,除非另有法規授權、政策計畫推動或常態業務需求,較不容易有自發性的主動交換與即時介接。
    此特性其實對於妥善資料管理其實也堪稱合理,但是面對特定政策課題(例如:不婚、晚婚或少子化等政大研究團隊過往處理的社會政策領域)需要來自各領域資料(例如:內政部的人口與家戶資料、財政部的稅務資料或衛福部的社會福利資料等)方能呈現其政策問題全貌時,就容易讓依據各自法規授權的資料管理制度轉而被認定為資料孤島的元兇。

  2. 資料格式與品質標準不一致
    由於政府機關內眾多政策或業務資訊系統均為各自建置維運,甚至同一個系統前後版本也可能由不同的委外建置或維運廠商,都可能導致跨系統或平台間的資料不相容或不一致。如果主管機關對於資料欄位的資料格式(包括常見的遺漏值)、編碼與品質標準等沒有通盤規劃,或雖初期確實經妥善考量但是並未跟隨制度或政策需求與時俱進,都可能導致資料使用階段的艱鉅挑戰。

如果是具備領域知識的人類使用者,或許還有可能逐步清理校正或轉換;但是對於仰賴資料的AI模型與應用(如上述的 LLM, SLM, RAG等),或是自動化的應用程式介接(application program interface, API),除非密切搭配領域人類專家,否則非常容易有所錯漏或解讀偏差。

  1. 領域知識理解與操作化殊異
    上述資料孤島與格式品質的痛點,確實有部分可藉助領域專業緩解,不過跨政策領域資料集卻可能造成資料治理的獨特挑戰,亦即需高度仰賴跨領域專家團隊。包括專業概念與其操作化在各政策領域有不同解釋與操作化(例如「青年」或「壯世代」),或是不同政策主管機關對於資料蒐集與分析邏輯可能有差異,皆導致跨領域資料治理之獨特挑戰。

  2. 因應資料安全與機敏需求的法規限制
    所有政府機關皆須有法令授權以蒐集處理利用與保管其主管政策業務的資料,尤其牽涉個資隱私與機敏性的個人或群體資料,也通常會有「特定目的範圍內」的資料管理限制(例如個人資料保護法),有助於管控跨組織資料流通或介接串連時發生的風險。因應資料安全與機敏需求的合理法規,當面對跨領域規劃與創新應用的「目的外處理利用」需求,就會成為阻礙跨領域資料治理的獨特痛點。

  3. 專業人才與配套資源不足
    對於民間營利非營利組織或政府機關而言,因應上述跨域資料治理挑戰的專業人才或團隊都非常缺乏。另外除了持續發展中的資料整合工具,資料清理校正與轉換過程以及大規模資料處理,原本即有效率與效能技術或資源門檻,亦闕如?。

三、期待研擬中的我國資料創新應用相關法規

更具挑戰的是:上述這些從資料使用者角度的痛點其實相互牽連,如欲有效處理不能僅期待各自主管機關分別應對,而是必須有跨越專業領域的政策法規與管理機制。其實我國中央與地方政府從2010年代起積極推動的政府資料開放(open data)[4],針對上述跨領域資料治理困境其實已有部分因應方案,而參考相關報導(楊文君,2025),目前由數位發展部研擬中的「資料創新利用發展條例」草案,預期也進一步對於AI發技術展與應用所需的資料治理機制有所著墨,本文也針對研擬中的我國資料創新應用相關法規,提出以下幾點使用者視角的期待,希冀貢獻於AI風潮下跨領域資料治理。

  1. 奠定跨領域跨機關與AI發展應用的資料治理基礎
    如前述的跨域資料使用痛點分析,主管政策領域資料的政府機關固然可各自規劃並提昇其資料品質,但面臨跨越領域與其對應資訊系統的資料連結仍力有未逮。期待未來有妥適的資料治理法規框架,包括研擬中的「資料創新利用發展條例」草案與未來相關子法,得以在資料治理所需的基礎技術與應用需求上形成兼具專業與市場規模的資料治理生態系(eco-system),以公私協力機制連結各專業領域產業協會、資料技術服務廠商、與資料使用者、或加值服務提供者(曾憲立等人,2022)。

建議可由數位發展部(「資料創新利用發展條例」主管機關)邀請各高應用價值資料(如金融、財稅、人口、醫療或交通等)的政策與事業主管機關(如金管會、財政部、內政部、衛福部或交通部等),透過邀請各領域自願參與資料加值應用的營利或非營利組織(含學術研究與智庫法人及產業協會等),共同提出可能的加值應用方案,如此即可能由需求端匯集對應的資料治理需求。再者,數位發展部邀請國內外有興趣規劃執行對應資料治理需求的資料技術服務廠商,透過政府採購合約(含資本門與經常門經費),逐步打造基礎技術與應用需求上形成兼具專業與市場規模的資料治理生態系。如果各政策主管機關有特定需求,也可另行與資料技術服務廠商與各領域加值服務提供者形成採購合約或授權資料使用規範。

  1. 擴展現有的政府資料開放推動組織、資源與職能
    上述打造國內資料治理生態系的構想,可藉助與擴展已運作至少十年的現有政府資料開放組織與管理方案,例如將現有中央政府各部會的「政府資料開放諮詢小組」擴展為「資料治理委員會」,地方政府也可對應組成跨局處的智慧城市委員會,邀請政府、產業與學研的專家學者,以兼顧各利害關係人(如上述資料主管機關、技術服務廠商、資料使用者或加值服務廠商等)的多元資料治理需求。
    由於涵蓋了各業務單位、資訊、統計及法規等單位,建議政府機關由其副首長(或至少督導跨單位職務的高階官員)統籌領導此「資料治理委員會」,並輔以充分的資源投入與誘因機制,鼓勵政府內部各業務單位主動連結其核心或常態業務,可由小規模的試辦驗證(proof of concept, PoC)方案為起點,並搭配任務導向的相關職能培訓藉以逐步累積經驗。

  2. 協調各政策主管機關調適相關法規,並授權特定公益範圍的非營利使用
    偏向技術與管理面向的跨領域資料治理方案,勢必也可能面臨現有法規的挑戰,包括通用性法規(如個人資料保護法、政府採購法等)與各業務領域的特別法規(例如人體生物資料庫管理條例、通訊使用者資料管理辦法等),尤其是牽涉機敏資料的創新利用也可能需要實驗機制的保護,以利於兼顧創新效益與風險管控,例如可先以母法「資料創新利用發展條例」授權各目的事業主管機關另行訂定適用於各領域的子法予以規範。

最後,如同先進國家已落實的資料利他主義,或是我國的個人資料保護法中「公務機關或學術研究機構基於公共利益為統計或學術研究而有必要,且資料經過提供者處理後或經蒐集者依其揭露方式無從識別特定之當事人」(第16、20條),其適用對象可考量擴展為政府機關(構)與非營利法人團體,惟這些資料公益適用對象的資格與能力,除了可以在「資料創新利用發展條例」一般性界定,也可授權各目的事業主管機關另行規範所需的配套審核程序。

促成當前 AI 興起的眾多因素中,例如運算力、演算法、資料、或電力等廣義能源設施,上述 RAG 所仰賴的組織內部文本(不論是資料、資訊、或知識、智慧層級),也再次促成組織必須再次重視其品質,嚴格來說,由於目前 AI 演算法仍相對不透明(源於其機器學習原理),組織更必須透過數位科技與管理流程提昇其訓練模型的文本品質,並藉以避免「文字接龍」時「一本正經地胡說八道」(幻覺,hallucination)且確保 AI 產出品質,這也是組織持續充實資料治理(data governance)基磐的絕佳機會,並且足以持續數位優化或 AI 驅動數位轉型的契機。

參考文獻

(一)中文部分
黃東益、陳敦源、董祥開、廖洲棚、王千文、李俊達、劉自平、蕭乃沂、楊立偉、羅凱凌、闕棟鴻、王光旭、陳揚中(2024)。112年度建置以資料科學為基礎之社會政策治理機制委外服務計畫(編號:ndc112019)。國家發展委員會社會發展處。

楊文君(2025)。數發部擬推新法 打造台灣主權AI訓練語料資料庫。中央廣播電台,2月11日。https://www.rti.org.tw/news/view/id/2237889

曾憲立、蕭乃沂、廖興中(2022)。政府資料開放與應用的下一哩路:我國資料交易與定價策略之探討。政治科學論叢,94,47-81。https://doi.org/10.6166/TJPS.202212_(94).0002

(二)英文部分
Jim Holdsworth, Matthew Kosinski (2023). What is data governance? IBM. https://pse.is/75h4kx

Data Governance Institute (2023). Data Governance Framework. https://datagovernance.com/


  1. LLMs vs SLMs - Red Hat: https://www.redhat.com/en/topics/ai/llm-vs-slm ↩︎

  2. 循證尋政-淺談政府機關導入檢索增強生成(RAG)上、下 https://pse.is/75h6bp ↩︎

  3. 循證尋政- 資料治理技術發展與跨域政策分析應用https://pse.is/75h5ha ↩︎

  4. 政府資料開放平台(open data)https://data.gov.tw/about ↩︎

本文轉載自《循證決策集刊》第四期:〈人工智慧風潮下的資料治理:跨領域資料的應用考量〉原文連結