送禮物 訂閱
<%if prop.topic_id !=0 %> <%/if%>
<%:prop.genus%> <%:~formatDate(prop.online_date, 'YYYY MMM DD' )%> <%:prop.title%>
<%:prop.realname%> <%:prop.realname%>
<%:prop.realname%>

<%:prop.realname%>

<%:prop.intro%>

add
新會員

<%:prop.email%>

add

<%:prop.title%>

避免人工智慧災難:人工神經網路的逆向工程

避免人工智慧災難:人工神經網路的逆向工程

Jan 02, 2025

<%:prop.realname%>
<%if prop.email %>

<%:prop.email%>

<%else %>

<%:prop.realname%>

<%:prop.intro%>

<%/if%>
已有閱讀權限

生成式人工智慧科技已經大幅度改變人類生活,但是大型語言模型的內部運作方式,現在仍然是一個謎。深度學習之父傑佛瑞.辛頓(Geoffrey Hinton)擔憂人工智慧科技走向失控,讓他對畢生成就深感後悔與憂慮。然而,Google DeepMind 的「機制可解釋性」研究,或許將成為人類理解人工智慧運作的關鍵突破,帶領我們一步步走向揭開這個黑箱的曙光。

2024 諾貝爾物理學獎得主之一傑佛瑞.辛頓(Geoffrey Hinton)在得獎前一年震撼性的提出警告:「人工智慧已經發展出主觀經驗!」並表示自己的研究讓人類打開潘朵拉的盒子,感到後悔與擔憂。

的確,2024 年是人工智慧(AI)應用豐收的一年。特別是在藥物研發和機器人科技的領域有極佳突破。人類和機器之間的互動關係已經發生奇點等級的變化,但是,就如辛頓的擔憂,人類事實上對於人工智慧的運作過程、以及為什麼他們表現會這麼好,只有一知半解。

不過,Google DeepMind 正在進行一個研究,名稱是「機制可解釋性(mechanistic interpretability)」,試圖讓人類更清楚了解人工智慧的內部運作。這是一個即使在科學界也相當新穎的領域,如果成功,或許能讓辛頓的憂慮緩解。


人類在發明汽車時,很清楚知道,汽油是怎麼在內燃機引擎裡面燃燒、然後驅動壓縮機對渦輪做功再轉動車輪的;但是,在發明人工智慧系統之後,我們並不真的了解,模型中的演算法是怎麼在巨量資料中得出提供給我們的結論的。簡單來說,我們不知道人工智慧怎麼思考的、不知道他們的內在思維。辛頓的擔憂,就是人工智慧已經有自己的思考,因此有可能「刻意地」給出不利於人類的輸出。

辛頓的擔憂絕對有道理。未充分理解人工智慧內部運作而忽略關鍵缺陷,是一個潛在的嚴重問題。例如,在醫學、航空或司法等高度敏感領域,這些缺陷可能導致誤診、飛行事故或錯誤判決等嚴重後果。在更敏感的金融和國防領域,可能會導致無法預測的後果,例如某家銀行的 AI 交易系統因錯誤模式識別導致市場崩盤,或國防 AI 系統自主啟動攻擊決策,超出人類控制範圍而引發重大危機

去年(2024) 7 月底,Google DeepMind 發布了一項名為 Gemma Scope 的工具,用來理解人工智慧的運作過程。如果我們可以清楚了解人工智慧模型內部發生的事情,就能更有效地控制其輸出,進而開發出更優秀的人工智慧系統,而且避免辛頓憂慮的災難發生。

「我希望能深入了解模型內部,看看它是否具有欺騙性,」Google DeepMind 負責機制可解釋性的尼爾·南達(Neel Nanda)是目前這個領域的重要意見領袖,他在接受《MIT科技評論》訪問時說,「能夠『讀懂』模型的心思,應該會有所幫助。」

人工神經網絡的逆向工程

機制可解釋性,又稱「機解」(mech interp),是一個新興的研究領域,目標是理解神經網路的實際運作方式。以最白話的方式來解釋,就是人類正在對自己發明的人工智慧網路進行逆向工程,想要搞清楚那些機器知道、但是人類不知道的事。

基本上,人工智慧會從資料中找出模式,並從這些模式中得出結論,但這些模式可能非常複雜,人類通常很難解讀。機器可解釋性的過程是這樣進行的:科學家將大量數據輸入模型,然後在訓練結束時得到一堆模型的權重(model weights);這些權重參數,代表人工智慧模型如何做出決策。

這有點像一位老師在檢查學生作業,學生(此處指人工智慧)雖然寫下了正確的答案,但呈現在作業紙上的解題過程,看起來卻像一堆亂七八糟的線條。假設這個學生的答案是正確的,「機解」領域正在開發不同方法,試圖解讀這些「亂線」。機制可解釋性的關鍵目標之一,是試圖逆向工程這些系統內部的算法,」南達說。「我們向模型輸入一個提示,比如『寫一首詩』,然後它生成了一些押韻的詩句。它是通過什麼算法做到這一點的?我們非常希望能理解。」

就如同其他人工智慧發展神速,這個逆向工程方法,過去半年來在 Google 的開源設定下,有了相當重要的進展。或許,真的能把辛頓打開的潘朵拉再關上。

為什麼人類會不知道人工智慧系統怎麼運作?


陪你從「科技+人文」視角,深入國際政經脈動

35元/週解鎖付費會員專屬內容

  • 成為付費會員,即可擁有:
  • ✓ 全站深度分析報導文章
  • ✓ 會員專屬 8 折活動報名優惠

已經是付費會員?登入繼續閱讀

questionnaire questionnaire
questionnaire questionnaire
questionnaire questionnaire
旭編輯

旭編輯 / 編輯

編輯

張育寧

張育寧 / 總編輯

審訂

分享 Share シェア

facebooklinetwitterlinkedin

延伸閱讀 Read more

以人類未來下注的一場豪賭,2018 圖靈獎三巨頭的異見之爭

以人類未來下注的一場豪賭,2018 圖靈獎三巨頭的異見之爭

「人工智慧需要幾年演化來超越人類?」共同被譽為人工智慧之父、2018 年圖靈獎三位得主之間,尖銳的異見之爭愈來愈走向明面,是 5 到 20 年的短期內就會出現災難性風險,還是超過 50 年、人類還有時間發展各種規範來應對。這場豪奢賭局,出賭資的是科技巨頭,負責叫牌的是人工智慧技術的意見領袖,而牌桌上的賭注籌碼,則是人類的未來。

2024-04-09 10:00:00

矽谷宗教戰爭(上):全面解析 AI 末日論背後的「有效利他主義」

矽谷宗教戰爭(上):全面解析 AI 末日論背後的「有效利他主義」

OpenAI 執行長山姆.奧特曼被開除又回歸的鬧劇,背後其實是矽谷科技圈「有效利他主義」和「有效加速主義」的宗教戰爭煙硝,AI 末日論和 AI 救世論、科技悲觀主義和科技樂觀主義的對立衝突浮上檯面。這場影響人類社會百年發展的科技價值戰,《旭時報》詳細梳理兩派立場的理念、歷史和發展,分上、下兩篇刊出。

2024-01-02 20:32:00

矽谷宗教戰爭(下):「有效加速主義」要帶領我們駛向什麼未來?

矽谷宗教戰爭(下):「有效加速主義」要帶領我們駛向什麼未來?

比「有效利他主義」更像邪教的「有效加速主義」,2023 年在社群媒體 X(前身為推特)上掀起熱潮。主張盡快實現超越人類的「通用人工智慧」(AGI),加速主義者全心擁抱科技發展,相信 AI 革命能夠將人類文明帶到下一個階段。他們獨特的社群文化和充滿攻擊性的言論,卻也引來批評。

2024-01-09 10:30:00

時間標記 Timestamp

EPEPISODE #旭沙龍-張育寧時間

EP #
邀請已成功寄出 Sucessfully sent