避免人工智慧災難：人工神經網路的逆向工程

生成式人工智慧科技已經大幅度改變人類生活，但是大型語言模型的內部運作方式，現在仍然是一個謎。深度學習之父傑佛瑞．辛頓（Geoffrey Hinton）擔憂人工智慧科技走向失控，讓他對畢生成就深感後悔與憂慮。然而，Google DeepMind 的「機制可解釋性」研究，或許將成為人類理解人工智慧運作的關鍵突破，帶領我們一步步走向揭開這個黑箱的曙光。

#

2024 諾貝爾物理學獎得主之一傑佛瑞．辛頓（Geoffrey Hinton）在得獎前一年震撼性的提出警告：「人工智慧已經發展出主觀經驗！」並表示自己的研究讓人類打開潘朵拉的盒子，感到後悔與擔憂。

的確，2024 年是人工智慧（AI）應用豐收的一年。特別是在藥物研發和機器人科技的領域有極佳突破。人類和機器之間的互動關係已經發生奇點等級的變化，但是，就如辛頓的擔憂，人類事實上對於人工智慧的運作過程、以及為什麼他們表現會這麼好，只有一知半解。

不過，Google DeepMind 正在進行一個研究，名稱是「機制可解釋性（mechanistic interpretability）」，試圖讓人類更清楚了解人工智慧的內部運作。這是一個即使在科學界也相當新穎的領域，如果成功，或許能讓辛頓的憂慮緩解。

人類在發明汽車時，很清楚知道，汽油是怎麼在內燃機引擎裡面燃燒、然後驅動壓縮機對渦輪做功再轉動車輪的；但是，在發明人工智慧系統之後，我們並不真的了解，模型中的演算法是怎麼在巨量資料中得出提供給我們的結論的。簡單來說，我們不知道人工智慧怎麼思考的、不知道他們的內在思維。辛頓的擔憂，就是人工智慧已經有自己的思考，因此有可能「刻意地」給出不利於人類的輸出。

辛頓的擔憂絕對有道理。未充分理解人工智慧內部運作而忽略關鍵缺陷，是一個潛在的嚴重問題。例如，在醫學、航空或司法等高度敏感領域，這些缺陷可能導致誤診、飛行事故或錯誤判決等嚴重後果。在更敏感的金融和國防領域，可能會導致無法預測的後果，例如某家銀行的 AI 交易系統因錯誤模式識別導致市場崩盤，或國防 AI 系統自主啟動攻擊決策，超出人類控制範圍而引發重大危機。

去年（2024） 7 月底，Google DeepMind 發布了一項名為 Gemma Scope 的工具，用來理解人工智慧的運作過程。如果我們可以清楚了解人工智慧模型內部發生的事情，就能更有效地控制其輸出，進而開發出更優秀的人工智慧系統，而且避免辛頓憂慮的災難發生。

「我希望能深入了解模型內部，看看它是否具有欺騙性，」Google DeepMind 負責機制可解釋性的尼爾·南達（Neel Nanda）是目前這個領域的重要意見領袖，他在接受《MIT科技評論》訪問時說，「能夠『讀懂』模型的心思，應該會有所幫助。」

人工神經網絡的逆向工程

機制可解釋性，又稱「機解」（mech interp），是一個新興的研究領域，目標是理解神經網路的實際運作方式。以最白話的方式來解釋，就是人類正在對自己發明的人工智慧網路進行逆向工程，想要搞清楚那些機器知道、但是人類不知道的事。

基本上，人工智慧會從資料中找出模式，並從這些模式中得出結論，但這些模式可能非常複雜，人類通常很難解讀。機器可解釋性的過程是這樣進行的：科學家將大量數據輸入模型，然後在訓練結束時得到一堆模型的權重（model weights）；這些權重參數，代表人工智慧模型如何做出決策。

這有點像一位老師在檢查學生作業，學生（此處指人工智慧）雖然寫下了正確的答案，但呈現在作業紙上的解題過程，看起來卻像一堆亂七八糟的線條。假設這個學生的答案是正確的，「機解」領域正在開發不同方法，試圖解讀這些「亂線」。「機制可解釋性的關鍵目標之一，是試圖逆向工程這些系統內部的算法，」南達說。「我們向模型輸入一個提示，比如『寫一首詩』，然後它生成了一些押韻的詩句。它是通過什麼算法做到這一點的？我們非常希望能理解。」

就如同其他人工智慧發展神速，這個逆向工程方法，過去半年來在 Google 的開源設定下，有了相當重要的進展。或許，真的能把辛頓打開的潘朵拉再關上。