資料為本:解讀歐盟AI法案對資料治理與品質的要求
主題背景
AI系統的運作仰賴大量的資料,資料的品質直接影響AI系統的性能和可靠性。歐盟AI法案意識到資料的重要性,因此針對高風險AI系統的訓練、驗證和測試資料集,制定嚴格的品質要求。歐盟AI法案強調高品質資料在減少系統偏見和避免歧視方面的重要性,指出必須採取適當的資料治理措施,以AI系統的可靠性、透明度和公平性和安全性,避免產生偏差或歧視。(Recital 66-67)
歐盟AI法案對資料治理與品質的要求可分為以下幾個面向,先簡要說明,當中較為複雜之概念,將另文詳述。
1. 資料治理和管理實踐:
歐盟AI法案第10條第2項(Article 10, Paragraph 2)要求高風險AI系統之訓練、驗證和測試資料及集應遵循適合高風險AI系統預期目的之資料治理和管理實踐。上述資料集應符合適當的資料治理和管理實踐,該實踐包含設計選擇,資料收集的來源,資料的準備處理操作(data-preparation processing operation)(如註釋、標註、清理、更新、豐富和聚合等),並應明確資料的原始蒐集目的,檢查資料的可用性、數量和適用性,檢查可能影響人員健康和安全的偏見,對基本權利產生負面影響或導致根據聯盟法禁止的歧視的可能性及其與預期目的的相關性,以降低或減輕歧視或偏見,解決資料缺減(data gaps or shortcomings)對系統合規的阻礙。
2. 資料集的品質標準:(Article 10, Paragraph 3 & 4, Recital 67)
高風險AI系統之訓練、驗證和測試資料集必須具備下列屬性,以符合系統預期目的:
- 準確性和完整性: 資料集應在可能的範圍內「無錯誤(free of error)且完整(complete)」,以符合系統的預期使用目的。
- 與預期目的的相關性和代表性: 資料集必須與預期目的相關,具充分代表性,以符合系統的預期使用目的。資料集應具有適當的統計特性,這些特性須能反映預期受AI系統應用的人群特徵(例如,在不同人口群體中的代表性),確保在目標群體中的代表性,避免產生偏差或歧視,並持續在不同人群中公平地考量具體情境需求,從而減少系統對某些弱勢群體可能造成的負面影響(Article 10, Paragraph 3, Recital 67)。法案特別強調,高風險AI系統的資料集應考慮其預計使用情境的特徵,包括地理、行為和功能等特性,以確保資料集的代表性和適用性,藉以提升系統在特定使用情境中的精確性和可靠性。(Article 10, Paragraph 4)
- 持續監控:歐盟AI法案第72條(Article 72)要求高風險AI系統供應商必須建立持續監控系統,以評估 AI 系統在整個生命週期中的效能和合規性。供應商必須建立並記錄一個「市場後監測系統(post-market monitoring system)」,該系統應依據AI技術的特性和高風險AI系統的風險程度相稱(Article 72, Paragraph 1),還必須「主動且系統性地」收集、紀錄並分析來自部署者或其他來源的相關資料,以確保在系統部署後能夠持續監控其效能和合規性,評估系統在生命週期內是否持續符合《AI法案》規定的要求,以確保對安全和基本權利的保護(Recital 71)。若涉及多個AI系統的相互影響,則需納入相應的分析。(Article 72, Paragraph 2)供應商必須建立持續監控系統,以評估 AI 系統在整個生命週期中的效能和合規性。後市場監控系統必須基於「後市場監控計劃」,此計劃需包含在技術文件中。歐盟委員會將制定監控計劃的範本及相關要求,以確保後續實施的合規性。(Article 72, Paragraph 3)
3. 偏見識別和糾正措施:(Article 10, Paragraph 2(f) - 2(g))
歐盟AI法案強調高品質資料的重要性,並指出偏差可能源於底層資料集的特性(特別是歷史資料)或實施過程。該條款強調在資料治理中應有針對性措施,以減少AI系統偏差風險,防止系統偏見的積累和放大。相關要求有:
- 資料偏差的檢查與風險評估:歐盟AI法案要求高風險AI系統的訓練、驗證和測試資料集應接受偏差檢查。該檢查需評估資料是否可能對健康、安全或基本權利構成負面影響,或引發歧視,特別是在資料輸出會影響未來操作輸入時(Article 10, Paragraph 2(f))。
- 偏差檢測與糾正措施:特別強調避免資料偏差,要求開發者需採取適當的措施,以檢測、預防並減輕可能存在的偏差。(Article 10, Paragraph 2(g))這意味著開發者需要評估資料偏差的風險,並採取適當的技術或程序手段來減輕其影響。
- 偏差來源的考慮:由於偏差可能源於資料收集過程、標註方式或資料本身的特性。法案要求資料治理實踐應涵蓋資料收集過程及資料的標註、清理和更新。(Article 10, Paragraph 2(b) - (c))
4. 資料來源透明度:
歐盟AI法案要求高風險AI系統供應商須提供資料來源、收集過程等資訊。具體規定如下:
- 提供資料來源和收集過程的資訊:供應商應紀錄並提供關於高風險AI系統進行訓練、驗證和測試的資料集的來源和收集過程的詳細資訊。包括資料的類型、來源、收集方法、標註方式等。涉及個人數據時,應提供收集的原始目的。(Article 10, Paragraph 2(b))
- 技術文件的透明度要求:供應商在系統投入市場之前,必須準備技術文件並確保其更新,技術文件需包括上開資訊、訓練和測試過程的描述及系統的合規性證明,以便於監管機構進行合規性審查。(Article 11, Paragraph 1)
5. 作為品質管理系統的一部份:
- 提供高風險 AI 系統的供應商必須建立和記錄資料治理系統和管理制度。(Article 17, Paragraph 1)
- 資料治理系統應涵蓋資料生命週期的所有階段,包括資料獲取、收集、分析、標記、儲存、過濾、挖掘、彙總、保留、使用和共享等以及與資料相關的任何其他操作環節。(Article 10, Paragraph 2, Article 17, Paragraph 1(f))
- 技術文件: 供應商還必須在高風險AI系統投放市場或投入使用之前編寫技術文件,並保持技術文件的最新狀態。技術文件的編寫應能證明高風AI系統符合法案第2章第2節所列的要求,這意味著供應商必須詳細說明其 AI 系統,包含資料治理系統。 此文件應包含關於資料來源、資料品質、資料集特性、資料處理方法和資料保護措施的資訊。(Article 11Article 11, Paragraph 1)
6. 確保資料的安全性、隱私性和完整性。(另文說明)
7. 通用 AI 模型的特殊責任: (Article 53)
對於提供通用 AI 模型的供應商,法案第53條也規定資料治理方面的特殊責任。供應商須編制並更新技術文件,詳細記錄模型的訓練和測試過程,並包含評估結果、模型訓練所使用的資料(Annex XI)。並提供充足的資訊及技術文件給計劃整合通用AI模型的下游AI系統供應商,使其能夠理解模型的功能和限制,以幫助下游供應商理解模型並履行其合規義務。技術文件需包括至少Annex XII中的基本要素。
8. 與「風險管理系統」(Article 9)的關連:
歐盟AI法案第9條第2項(Article 9, Paragraph 2)要求高風險AI系統的提供者進行風險識別、評估及減輕,以確保系統的運行不會對健康、安全或基本權利構成威脅。這其中包括評估和控制可能源於資料品質或偏差的風險,因此與資料治理和品質密切相關,特別是確保資料不引入偏見或歧視。第9條第4、5項(Article 9, Paragraph 4-5)進一步強調在風險管理過程中需要考慮偏見和系統偏差的可能性。提供者需在風險管理中納入糾正偏見的措施,尤其是當資料可能導致不良影響或歧視風險時,這些措施間接與資料治理相關聯。
應用案例
- 人臉辨識系統: 若使用帶有種族或性別偏差的資料集來訓練人臉辨識系統,可能會導致系統在辨識某些族群或性別時出現錯誤。開發者需要使用具有代表性的資料集,並採取措施減輕資料偏差,以確保系統的公平性和準確性。
- 信用評分系統: 若使用帶有社會經濟地位偏差的資料集來訓練信用評分系統,可能會導致系統對某些社會經濟地位較低的人群給予較低的評分。開發者需要使用不帶有歧視性的資料集,並建立公平的評分模型,以確保系統的公正性和可靠性。
總結
歐盟AI法案對資料治理和品質的要求,旨在確保AI系統的可靠性、透明度和公平性。這些要求涵蓋資料品質標準、避免資料偏差、資料來源透明度和資料治理等方面。
行動呼籲
台灣產業應深入瞭解歐盟AI法案對資料治理和品質的要求。
審查現有的資料治理和管理制度,並進行必要的調整。
在AI系統的開發過程中,重視資料品質和避免資料偏差。
與資料供應商合作,確保資料集的品質和合規性。
供應商開發過程可以參考ISO組織公告有關於資料治理、資料品質的技術規範。(如延伸閱讀)
結論
資料是AI系統的基礎,資料治理和品質對於AI系統的成功至關重要。歐盟AI法案對資料治理和品質的要求,將推動AI產業朝著更負責任和可信賴的方向發展。台灣產業應積極應對這些要求,以提升AI產品的競爭力和國際形象。
延伸閱讀
- 歐盟AI法案官方網站:https://artificialintelligenceact.eu/
- 歐盟資料保護主管機關:https://edps.europa.eu/
- ISO/IEC 5259-1:AI 用於分析和機器學習 (ML) 的資料品質 – 術語和案例
- ISO/IEC 5259-2:AI 用於分析和機器學習 (ML) 的資料品質 – 資料品質測量
- ISO/IEC 5259-3:AI 用於分析和機器學習 (ML) 的資料品質 - 資料品質管理的要求和指導原則
- ISO/IEC 5259-4:AI 用於分析和機器學習 (ML) 的資料品質 - 資料品質過程框架
- ISO/IEC 5259-5:AI 用於分析和機器學習 (ML) 的資料品質 - 資料品質治理框架
- ISO/IEC 29100:2011:安全技術 隱私框架
- ISO/IEC 25024:系統和軟體工程系統和軟體品質要求和評估 (SQuaRE) 資料品質衡量
備註: 以上資訊僅供參考,實際法規內容以歐盟官方文件為準。