2022 年 11 月 30 日,總部位於美國加州的人工智能研究室 OpenAI 釋出能用自然語言和人類對話的聊天機器人 ChatGPT。短短幾個月內,人類世界充滿了「AI 即將毀滅我們」的恐慌。
與一般人想的不同,ChatGPT 並非橫空出世,它建立在鉅額的金錢投資、最先進的硬體設備,跟先前的研究累積之上。OpenAI 的地位有些詭異,雖然它原本對外擺出一副開源共享(Open Source)的非營利組織派頭,甚至號稱終極目標是「打造友善人類的人工智能」,但整個機構卻是由兩個部分組成的:非營利性組織 OpenAI Incorporated(OpenAI Inc.)跟營利性子公司 OpenAI Limited Partnership(OpenAI LP)。後者的市值近期已經衝到突破天際,沒有人會相信 OpenAI 還想貫徹什麼開源的理想。
開源軟體的理念一直都跟商業利益有所衝突。開源軟體共享的理念是奠基在程式碼開放給所有人使用跟改進之上,但理想與現實落差十分巨大。
OpenAI 的計畫運行在世界第五大超級電腦上,在成立初期就獲得了包括伊隆.馬斯克在內多位創投家挹注的 10 億美金,2019 年微軟也提供了 10 億美金,2023 年一月,因為 ChatGPT 顯然引發了全球使用者的關注,微軟又再投資了 100 億美金。
這一方面顯示了要運行同等規模的研究開發並不容易,儘管現在南韓、俄羅斯與中國都表態要開發自己版本的 ChatGPT,但從現實條件看起來,這三個國家短期內都沒有太大機會迎頭趕上;另一方面則揭示了另一個問題:以現在的社會狀況來說,如果沒有被商業利益驅動的超級金主,即便是具有高度理想跟過人才能的研究團隊,似乎也不太可能進行人工智能的研發。
此外,ChatGPT 建立在 OpenAI 的 GPT-3 系列大型語言模型之上,經過了大量的人力校正才訓練出現在看似對答如流甚至還有點幽默感的聊天機器人。開發人工智能的過程沒有一般人想的那樣「機械」,並不是在明亮冰冷的近未來實驗室中由一兩個天才敲敲鍵盤完成,而是大量的人類訓練員不停的糾正跟微調,直到 ChatGPT 的反應「幾可亂真」。
在餵食機器人資訊的過程中,OpenAI 為了避免惹禍上身,或者好聽一點說是為了確保資訊的潔淨程度,他們雇用了大量肯亞廉價勞工,以約略每小時 70 塊台幣的價格,肉眼檢視海量的「性虐待、暴力、種族主義、性別歧視」內容,手動將其標示為「有害內容」。從這個意義來說,ChatGPT 的誕生跟廉價成衣有點相似,都是把損害身心健康的工作流程外包到第三世界國家去。
有鑑於以上幾個因素,當台灣國科會提出也想跟進提出台灣版 ChatGPT 時,我感到有些疑問。首先,從新聞稿內容看起來,國科會的八個前瞻科研平台總預算共有 349 億元,但問題是人工智慧布局只是其中一環而已,不可能獨佔全部預算。經費的明顯落差是最主要的問題。
其次,布局台灣的 AI 戰略當然是非常重要,而國科會提出需要台灣版本 ChatGPT 的理由也很正確:人工智慧的訓練過程會帶有訓練者的偏見,而如果哪天中文世界存在著一個吃中國網路資料版本而且真的很成功的聊天機器人,而我們沒有任何對策,那麼想必會十分危險。
截至目前為止,ChatGPT 的優點之一是在於它缺乏某些資料:由於許多中國內部網路流通的內容並不存在於西方世界可獲取的資料之中,因此 ChatGPT 暫時並未受到中國資訊戰影響。當然,ChatGPT 被訓練成懂得聰明地刻意迴避敏感政治問題也是主因之一。這還涉及一個問題,中國為了控制其國民的思想與言論,而動用了網路長城等措施,導致大量可能確實有政治偏見的資訊鎖在該國內部。這些偏誤資訊如果要有效污染中國以外的世界,必須透過其他國家作為跳板,譬如台灣內部的協力者響應才做得到。
假設中國境內的網路封鎖措施短期內不會改變,當我們想像中國資訊對台灣人的污染時,其實關鍵不在中國內部生產了什麼資訊,而在於台灣內部的協力者跟共鳴者轉出了哪些從中國內部生產的不實跟有害訊息。
而我們的人工智慧布局戰略應該如何因應這些其實早就已經在主流媒體跟網路平台上無所不在的意識型態汙染?建立自己的 ChatGPT 是否是最好或者最有效的對策?我們是否也得動用大量人力密集的訓練員去教導人工智慧如何辨識哪些是中國釋放的有害訊息?而分辨的標準又是什麼?如果政黨輪替,這些布局是否也會付諸東流?
除了從頭研發一個其實難以與 ChatGPT 競爭的聊天機器人之外,我們是否還有其他更省力跟經濟的作法,可以阻止中國的資訊戰進一步升級?這些全都不是容易回答的問題,才更需要我們共同思考,提出建議。