客委會昨(29)日就「建置臺灣客語語料庫」發表第一階段果。客委會主委李永得表示,台灣目前是全世界第一個官方帶頭建置客語語料庫的國家,希望建置完成後能讓客語不再流失,進而朝世界強勢語言邁進。

李永得說,台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,因此為了讓客語永續傳承、保存珍貴語料,自106年底開始建置台灣客語語料庫,將文字及語音數位化,創建台灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通。

客委會昨(29)日就「建置臺灣客語語料庫」發表第一階段果。 (圖/客委會提供)

客委會表示,客語「生語料庫」蒐集自全台灣客語書寫文本及客語發音的口語內容作為客語語料庫來源,包含電視節目、出版品、田野調查採錄的客語口說、訪談、演講、日常生活對話、耆老說故事等,蒐集回來後,仍須經過客語母語人士轉寫(轉檔)、校訂等。

客委會接著表示,經轉寫、校訂後的語料,由政大團隊進行專家修訂,給予嚴謹的語言學標記,配合系統建置來回除錯,以利系統機器學習,如此層層加工的語料才能匯入語料庫供後續使用。

目前,「臺灣客語語料庫」業已完成書面語料授權筆數316筆出版品、149筆單篇文章,且處理語料庫書面語語料500萬字、口語語料10萬字,並完成語料庫斷詞系統、權威詞控管系統與後臺管理系統初步規劃,預計於111年底正式上線。

編輯推薦

中國造特殊用途接駁船 軍事專家:對台防禦造成壓力

根據外媒 「海軍新聞」(Naval News)網站報導,中國廣東造船廠至少在興建三艘新船,可能在兩棲入侵台灣時發揮關鍵作用。

January 13, 2025

拜登任內最後的晶片管制:中國或成最終受益者?

據美國智庫 CEPA 日前指出,在拜登政府卸任倒數階段,政府團隊仍計劃祭出新一波的晶片出口管制,防止先進技術落入中國和俄羅斯手中。

January 11, 2025


解放軍相關企業 中國騰訊、寧德時代進美國黑名單

網路科技公司「騰訊」和電池製造商「寧德時代」等一批中國公司在今(2025)年 1 月 6 日被美國五角大廈認定為是跟中國軍方有關的企業,進入美國的黑名單。根據美國 2024 年國防授權法案(NDAA),自 2026 年 6 月起,美國國防部將禁止直接向中國軍事企業清單(1260H 清單)上的企業採購商品或服務,並從 2027 年 6 月起禁止間接採購。這向美企發出強烈訊號,跟這些中企有業務往來存有風險。

January 11, 2025


灰色作戰已敲響:退役軍人遭吸收、中國船隻破壞台灣海纜 

復康聯盟黨主席屈宏義等人,遭控長期接受中國金援,在台吸收軍職背景人員發展組織、充當內應,甚至密組武裝部隊,刺蒐國軍營區與軍事據點並謀求發動武裝攻擊,日前遭檢方依違反「國家安全法」起訴。

January 9, 2025

customplayer-app