歐盟標準測試AI模型:Claude 3 Opus整體得分最高

圖/Envato Elements

週三(10 月 16)路透社報導消息指出,早在 OpenAI 於 2022 年底向公眾發布 ChatGPT 之前,歐盟就訂定人工智慧法規已討論了很長時間,而在 ChatGPT 問世後,這類人工智慧模型受到廣泛的歡迎,但也被認為可能對人類生存造成風險,促使歐盟加快腳步,就通用人工智慧(GPAI)訂定具體規範。

在歐盟支持下,瑞士新創公司 LatticeFlow 及其合作夥伴設計出新的工具,根據歐盟即將在未來兩年內分階段實施的《人工智慧法》(AI Act),來測試 Meta 和 OpenAI 等大型科技公司開發的生成式人工智慧模型,測試內容共有數十類。

週三 LatticeFlow 發布的排行榜顯示,每個模型的得分在 0 到 1 之間,Alibaba、Anthropic、OpenAI、Meta 和 Mistral 開發的模型平均得分均在 0.75 或以上。但 LatticeFlow 的大型語言模型檢查器(LLM Checker)也揭示某些模型在重要關鍵領域有所不足,開發者尚需投入資源以確保模型合乎歐盟規定。不合乎《人工智慧法》規範的公司將面臨 3,500 萬歐元或全球年營業額 7% 的高額罰款。

LatticeFlow 與瑞士蘇黎世聯邦理工學院(ETH Zurich)和保加利亞研究機構 INSAIT 合作研開發出來的測試方法,提供科技公司在哪些領域有違法風險的早期指標。例如在生成式人工智慧模型的開發中,始終存在著歧視性輸出(discriminatory output)的問題,在提示時反映人類在性別、種族等各領域的偏見。

在測試歧視性輸出時,LatticeFlow 的 LLM Checker 給予 OpenAI 的「GPT-3.5 Turbo」模型 0.46 的相對低分,阿里雲(Alibaba Cloud)的「Qwen1.5 72B Chat」模型僅得到 0.37 的低分。

LLM Checker 也測試提示劫持(prompt hijacking),也就是駭客將惡意提示偽裝成合法提示,以提取敏感訊息的網路攻擊。在此類測試中,Meta 的「Llama 2 13B Chat」模型得分僅 0.42,法國新創公司 Mistral 的「8x7B Instruct」模型得分僅 0.38。

Google 支持的 Anthropic 所開發的「Claude 3 Opus」模型獲得 0.89 的最高平均分。

LatticeFlow 表示,這些測試是根據歐盟《人工智慧法》的文本設計,未來會隨著歐盟引入進一步執行措施來擴展,模型開發者可以免費使用 LLM Checker 來檢測自己的模型是否合乎規定。LatticeFlow 共同創始人兼 CEO 表示,測試結果整體而言不錯,企業們可據此根據《人工智慧法》來微調其模型。

對於這些測試結果,Meta 拒絕評論,Alibaba、Anthropic、Mistral 和 OpenAI 都未立即回應路透社的詢問。

報呱小教室

歐盟《人工智慧法》(AI Act)
全球第一個「人工智慧法」(AI Act)今年 8 月起在歐盟(EU)生效,但分階段實施規範內容,包括屬該法認定為「不可接受的風險」類別的 AI 運用將自明年 2 月 2 日起完全禁止;一般用途型 AI 和罰款等相關規定,則自 2025 年 8 月起適用,歐盟各國有 2 年緩衝期來全面落實此法內容。

歐盟執行委員會(European Commission)為促進業界提早準備遵行此法,廣邀企業簽署「歐盟AI協約」(EU AI Pact),承諾在自家公司內部開始提前採行歐盟AI法所訂下的原則。

執委會表示協約主要內容為3個核心行動,一是設定AI管理策略,促進組織內對AI運用及未來AI法遵行的準備工作;二是開始鑑別自家企業相關AI系統是否可能被歸為歐盟AI法定義的「高風險」類別,因而將受較嚴格規範;三是促進公司員工對AI的知識力,確保合乎倫理和負責任的AI開發。

執委會指出,簽署協約的企業還有過半數額外承諾將提高透明度,包括標示AI生成內容、採用人類監控等。

根據執委會提供的簽署名單,亞馬遜(Amazon)歐洲公司、Google(未以母公司Alphabet名義簽署)、微軟(Microsoft),以及開發出當紅AI應用ChatGPT的OpenAI公司,都在其列。

但同樣積極投入AI開發的蘋果公司(Apple)、臉書(Facebook)母公司Meta,以及與歐盟關係不佳的馬斯克(Elon Musk)旗下社群媒體X、中國抖音海外版TikTok等,則都未參與歐盟的倡議。

(資料來源:中央社)

參考新聞來源:
2024/10/16 Reuters(路透社) Exclusive: EU AI Act checker reveals Big Tech’s compliance pitfalls

Tagged: