2024 諾貝爾物理學獎得主之一傑佛瑞.辛頓(Geoffrey Hinton)在得獎前一年震撼性的提出警告:「人工智慧已經發展出主觀經驗!」並表示自己的研究讓人類打開潘朵拉的盒子,感到後悔與擔憂。
的確,2024 年是人工智慧(AI)應用豐收的一年。特別是在藥物研發和機器人科技的領域有極佳突破。人類和機器之間的互動關係已經發生奇點等級的變化,但是,就如辛頓的擔憂,人類事實上對於人工智慧的運作過程、以及為什麼他們表現會這麼好,只有一知半解。
不過,Google DeepMind 正在進行一個研究,名稱是「機制可解釋性(mechanistic interpretability)」,試圖讓人類更清楚了解人工智慧的內部運作。這是一個即使在科學界也相當新穎的領域,如果成功,或許能讓辛頓的憂慮緩解。
人類在發明汽車時,很清楚知道,汽油是怎麼在內燃機引擎裡面燃燒、然後驅動壓縮機對渦輪做功再轉動車輪的;但是,在發明人工智慧系統之後,我們並不真的了解,模型中的演算法是怎麼在巨量資料中得出提供給我們的結論的。簡單來說,我們不知道人工智慧怎麼思考的、不知道他們的內在思維。辛頓的擔憂,就是人工智慧已經有自己的思考,因此有可能「刻意地」給出不利於人類的輸出。
辛頓的擔憂絕對有道理。未充分理解人工智慧內部運作而忽略關鍵缺陷,是一個潛在的嚴重問題。例如,在醫學、航空或司法等高度敏感領域,這些缺陷可能導致誤診、飛行事故或錯誤判決等嚴重後果。在更敏感的金融和國防領域,可能會導致無法預測的後果,例如某家銀行的 AI 交易系統因錯誤模式識別導致市場崩盤,或國防 AI 系統自主啟動攻擊決策,超出人類控制範圍而引發重大危機。
去年(2024) 7 月底,Google DeepMind 發布了一項名為 Gemma Scope 的工具,用來理解人工智慧的運作過程。如果我們可以清楚了解人工智慧模型內部發生的事情,就能更有效地控制其輸出,進而開發出更優秀的人工智慧系統,而且避免辛頓憂慮的災難發生。
「我希望能深入了解模型內部,看看它是否具有欺騙性,」Google DeepMind 負責機制可解釋性的尼爾·南達(Neel Nanda)是目前這個領域的重要意見領袖,他在接受《MIT科技評論》訪問時說,「能夠『讀懂』模型的心思,應該會有所幫助。」
人工神經網絡的逆向工程
機制可解釋性,又稱「機解」(mech interp),是一個新興的研究領域,目標是理解神經網路的實際運作方式。以最白話的方式來解釋,就是人類正在對自己發明的人工智慧網路進行逆向工程,想要搞清楚那些機器知道、但是人類不知道的事。
基本上,人工智慧會從資料中找出模式,並從這些模式中得出結論,但這些模式可能非常複雜,人類通常很難解讀。機器可解釋性的過程是這樣進行的:科學家將大量數據輸入模型,然後在訓練結束時得到一堆模型的權重(model weights);這些權重參數,代表人工智慧模型如何做出決策。
這有點像一位老師在檢查學生作業,學生(此處指人工智慧)雖然寫下了正確的答案,但呈現在作業紙上的解題過程,看起來卻像一堆亂七八糟的線條。假設這個學生的答案是正確的,「機解」領域正在開發不同方法,試圖解讀這些「亂線」。「機制可解釋性的關鍵目標之一,是試圖逆向工程這些系統內部的算法,」南達說。「我們向模型輸入一個提示,比如『寫一首詩』,然後它生成了一些押韻的詩句。它是通過什麼算法做到這一點的?我們非常希望能理解。」
就如同其他人工智慧發展神速,這個逆向工程方法,過去半年來在 Google 的開源設定下,有了相當重要的進展。或許,真的能把辛頓打開的潘朵拉再關上。