台灣客語語料庫 永續保存客語

客委會昨(29)日就「建置臺灣客語語料庫」發表第一階段果。客委會主委李永得表示,台灣目前是全世界第一個官方帶頭建置客語語料庫的國家,希望建置完成後能讓客語不再流失,進而朝世界強勢語言邁進。

李永得說,台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,因此為了讓客語永續傳承、保存珍貴語料,自106年底開始建置台灣客語語料庫,將文字及語音數位化,創建台灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通。

客委會昨(29)日就「建置臺灣客語語料庫」發表第一階段果。 (圖/客委會提供)

客委會表示,客語「生語料庫」蒐集自全台灣客語書寫文本及客語發音的口語內容作為客語語料庫來源,包含電視節目、出版品、田野調查採錄的客語口說、訪談、演講、日常生活對話、耆老說故事等,蒐集回來後,仍須經過客語母語人士轉寫(轉檔)、校訂等。

客委會接著表示,經轉寫、校訂後的語料,由政大團隊進行專家修訂,給予嚴謹的語言學標記,配合系統建置來回除錯,以利系統機器學習,如此層層加工的語料才能匯入語料庫供後續使用。

目前,「臺灣客語語料庫」業已完成書面語料授權筆數316筆出版品、149筆單篇文章,且處理語料庫書面語語料500萬字、口語語料10萬字,並完成語料庫斷詞系統、權威詞控管系統與後臺管理系統初步規劃,預計於111年底正式上線。

Tagged:
About the Author

報呱編輯室