微軟推新工具 Correction 號稱能解決 AI 幻覺，真的嗎？

微軟推出了一項名為 Correction 的服務，號稱能夠修正生成式 AI 一本正經胡說八道的毛病。這項服務可用於任何 AI 模型，包括 Meta 的 Llama 和 OpenAI 的 GPT-4。不過，一些領域專家提出一個很簡單的疑問：既然 Correction 的幻覺檢測庫本身也存在幻覺，那要怎麼知道修正結果值得信賴？

# 用幻覺解決的幻覺 # 或許仍然是幻覺

生成式 AI 人工智慧因為常常若無其事的胡謅一通而臭名昭彰，不過，OpenAI 的大金主微軟（Microsoft）宣布他們找到最棒的解決方案，可以抓到生成式 AI 的胡說八道，並且完成修正。

如果這是真的，那微軟肯定要大發利市。

9 月 24 日，微軟推出可以自動發現並修正 AI 生成內容中的事實性錯誤，服務名稱叫 Correction。根據微軟發佈的示範， Correction 先是成功識別出可能存在的錯誤，例如在公司季度財報會議摘要中引用錯誤的內容；然後，Correction 將文本與可靠來源（如上傳的抄本）進行比較，來核實事實。

這有點像是原本是人工作業的事實查核工作，現在由 AI 自己來進行。

人工智慧如何糾正人工智慧幻覺？

Correction 現在被放在 Microsoft Azure AI Content Safety API 的預覽版中，受到矚目的是，Correction 支持任何一家生成式 AI 模型，包括 Meta 的 Llama 和 OpenAI 的 GPT-4。微軟的發言人告訴《TechCrunch》，「Correction 是利用小型語言模型和大型語言模型的彼此對照（align 對齊）產出結果，藉此檢查正確性。我們希望這個新功能能幫助生成式 AI 在醫學等專業領域中的建設者和使用者，因為這些領域對準確性的要求非常高。」

Correction 是如何運作的？微軟釋出官方影片來解釋用戶的使用方式。根據官方網站的說明，引用微軟 Azure AI 的內容安全，能夠在生成式 AI 應用程式的用戶遇到幻覺之前即時識別和糾正幻覺。實際運作的順序如下：

應用程式的開發者在 API 中啟用「校正能力」。
當偵測到沒有根據的句子時，就會自動觸發產生人工智慧模型的新請求，以進行修正。
微軟的偵錯語言模型根據做為對照的資料評估這些可能沒有依據的句子。
如果這個可能的幻覺缺少任何與對照資料庫相關的內容，可能會被完全過濾掉。
但是，如果內容與對照資料一致，基礎模型將重寫這個句子，以幫助確保其與對照的資料庫保持一致。

這並不是一個全新的方法；Google 今年夏天在自家的 AI 開發平台 Vertex AI 中，也引入了類似的基礎結構，讓客戶可以透過使用來自第三方資料提供者、他們自己的數據集或谷歌搜尋的數據，來「打磨」模型的正確性。然而，專家對這些方法持謹慎態度，指出它們並未解決 AI 生成文本中的幻覺根本原因，部分人工智慧領域的工程專家甚至認為，生成式人工智慧模型的建構方式，讓幻覺永遠不可能消失。

幻覺就是生成式 AI 的基因，有可能被「修正」嗎？

華盛頓大學 (University of Washington) 專注於新技術倫理影響的博士候選人奧斯·凱斯（Os Keyes）解釋道，「試圖消除生成式 AI 的幻覺，就像試圖從水中消除氫一樣。「幻覺」只是生成式 AI 技術結構的基本組成中的一部分。」

生成式 AI 模型會產生幻覺，因為它們實際上並不「知道」任何東西。它們是統計系統，可以識別一系列單字中的模式，並根據訓練過的無數範例，來預測接下來出現的單字。簡單來說，所有生成式 AI 提供的內容，都是統計機率的字串結果，而非事實回答，因此錯誤是很正常的。例如，一項研究發現， OpenAI 的 ChatGPT 答錯了一半的醫學問題。

微軟提出的解決方案，涉及兩個元模型共同合作來檢測和修正幻覺。分類器模型首先識別可能不正確、虛構或不相關的文本。當它檢測到這些問題時，會調用第二個模型，即語言模型，根據預定的基礎文件來修改文本。不過，可想而知，這個修改依舊是來自統計機率而連出來的新字串。

「Correction 可以顯著增強 AI 生成內容的可靠性和可信度，幫助應用開發者減少用戶的不滿和潛在的聲譽風險，」微軟發言人說。然而，他們也指出，基礎檢測並不能完全解決『準確性』問題，但有助於將生成式 AI 的輸出與基礎文件對齊。凱斯就認為，Correction 即使解決了一些現有問題，還是會引發新的問題，因為 Correction 的幻覺檢測庫本身也可能有幻覺。

因此，關鍵就在於，用來訓練 Correction 模型的資料集，究竟有多「博學」並「準確」。

問題：其實生成式 AI 技術還不到商用階段

微軟指出了最近的一些研究論文，詳細描述了 Correction 模型的預生產架構，但省略了關鍵細節，如用於訓練的資料集。

專注於 AI 的女王瑪麗大學 (Queen Mary University) 研究員麥克·庫克（Mike Cook）認為，即使 Correction 充分發揮作用，也可能加劇人們對 AI 難以信任的問題。因為當這個服務可以捕捉某些錯誤卻又無法百分之百正確時，已經在用戶之間創造出虛假的安全感，讓他們以為模型比實際更準確。

「微軟與 OpenAI 和 Google 一樣，創造了一種情況，讓人們在模型經常出錯的情景中依賴它們，」庫克說。「微軟現在所做的，只是在更高層次上重複這個錯誤。假設這使我們從 90% 的安全性提高到 99% 的安全性——真正的問題從來不在那 9% 中。它總是在我們尚未檢測到的 1% 的錯誤中。」

Correction 目前是免費的，但其所依賴的基礎檢測，每月只有前 5,000 條文本記錄是免費的，每 1,000 條文本記錄之後將收費 0.38 美元。這基本意味著微軟正在從糾正過程中獲利，創建另一個收入來源，同時嘗試向客戶和股東證明其 AI 技術的價值。

微軟今年第二季度投資近 190 億美元的資本支出，用於與 AI 有關的設備和研發，但尚未從這些投資中看到可觀的收入。最近，一位華爾街分析師由於對微軟長期 AI 策略的擔憂，降低對微軟的股票評級。有報導稱，微軟旗艦生成式 AI 平台 Microsoft 365 Copilot 的早期採用者，因性能和成本問題而暫停部署。矽谷媒體《The Information》本月初才報導， Microsoft 365 Copilot 在一個企業客戶錯誤的編制會議參與者、發明不存在的與會人員，並誤解了會議討論的主題提供錯誤的資訊。

KPMG 的一項調查顯示，準確性和幻覺的潛力是企業試用 AI 工具的主要擔憂。庫克簡潔地闡述了這一困境：「如果這是一個正常的產品生命周期，生成式 AI 還會處於學術研究與開發階段，正在接受改進和審查。然而，我們急於在各行各業部署它。微軟和其他公司推出了他們的新火箭，並在飛往目的地的途中，才剛開始建造起落裝置和降落傘。」

總而言之，儘管 Microsoft 的 Correction 旨在解決生成式 AI 固有的錯誤，但這一解決方案面臨著相當大的質疑。專家警告說，這種方法可能會引入新的挑戰，並可能延續虛假的可靠性感。隨著 AI 的不斷發展，創新與準確性之間的平衡仍然是開發者和使用者共同面臨的關鍵問題。