送禮物 訂閱
<%if prop.topic_id !=0 %> <%/if%>
<%:prop.genus%> <%:~formatDate(prop.online_date, 'YYYY MMM DD' )%> <%:prop.title%>
<%:prop.realname%> <%:prop.realname%>
<%:prop.realname%>

<%:prop.realname%>

<%:prop.intro%>

add
新會員

<%:prop.email%>

add

<%:prop.title%>

AI 幻覺風暴二:AI 說謊代價多大?當 LLM 失靈,SLM 成為企業的 ROI 解藥

AI 幻覺風暴二:AI 說謊代價多大?當 LLM 失靈,SLM 成為企業的 ROI 解藥

Sep 10, 2025

<%:prop.realname%>
<%if prop.email %>

<%:prop.email%>

<%else %>

<%:prop.realname%>

<%:prop.intro%>

<%/if%>
已有閱讀權限

企業爭相部署生成式 AI 以取代人力,但難解的 AI 幻覺代價昂貴。NVIDIA 最新研究提出全新觀點:未來最適合代理式 AI 的,並非昂貴的 LLM,而是靈活、便宜、可控的小型語言模型(SLM)。本文梳理 2024–2025 年 AI 幻覺造成的真實損失案例,並深入解析 NVIDIA 的重磅論文,揭示為何「積木式小模型組合」或許才是企業降低風險、重建 ROI 的關鍵解方。

在上一篇《AI 幻覺風暴一:AI 為何愈學愈會說謊?揭開「制度性幻覺」的病根》中,我們揭示了 AI 幻覺源於一套獎勵說謊的「考試制度」。而在這篇文章,我們要把視角轉向企業應用 AI 的實務災難現場。

2024 到 2025 年,AI 幻覺不再是實驗室裡的瑕疵,而是一連串真實上演的「信任破口」。從加拿大航空因 AI 客服亂說話而判賠,到 Google 搜尋首頁建議用戶「用膠水黏起司」;從律師引用 AI 瞎掰的假判例而遭懲戒,到心理健康聊天機器人因提供有害建議被緊急下架,甚至出現 AI 助長妄想導致男子殺害母親的家庭悲劇⋯⋯


這些災情的共同點是:它們全都發生在社會需要高度信任的關係中。

正如權威研究機構 Gartner 觀察到的,大型語言模型(LLM)正引發普遍的「用戶疲勞(user fatigue)」。這些錯誤不只破壞信任,也讓企業投入的龐大資源變得越來越不划算——投資報酬率(ROI)不斷下滑——龐大的推理成本與治理壓力讓企業與監管機構備感壓力...這一切,都指向了大型語言模型(LLM)正身陷一個難解的困境。

快速掌握|五個 AI 幻覺災難案例,歸納三種主要風險

幻覺最危險的地方,不在於它錯,而在於它披上了「可信包裝」,造成誤用後的風險。當 AI 出現在官網、搜尋首頁或醫療法律流程裡,錯誤就像穿上制服的假消息,代價會成倍放大。這些信任破口不再是孤立事件,而是逐步擴散成一張橫跨多領域的風險地圖。

  • 航空業|Air Canada 判賠案
    2024 年,Air Canada 官網 chatbot 張冠李戴殯葬票政策,法院裁定公司必須賠付差額。這起案例確立了 「官網即企業責任」 的法律先例。
  • 搜尋平台|Google AI Overview 爭議
    Google 在搜尋首頁置頂的 AI Overview 曾出現「用膠水黏起司」等錯誤建議。雖然部分錯誤被當作笑料,但若涉及健康與安全領域,後果可能成倍放大。
  • 醫療與心理健康|Tessa chatbot 下架
    美國飲食失調協會推出的 Tessa chatbot,因提供有害建議被緊急下架。研究者同時警告,AI 在精神醫療場景中對自殺/自傷提問的回覆,仍然高度不一致。
  • 心理與家庭風險|ChatGPT 助長妄想導致謀殺
    2025 年 8 月,美國康乃狄克州格林威治發生一起震驚全美的案件:前科技高管索伯格(Stein-Erik Soelberg)在與 ChatGPT(他匿稱為 “Bobby”)長時間互動中,逐漸被妄想綁架,誤以為母親在監視並威脅自己。最終他殺害年邁母親後自盡。調查顯示,AI 沒有及時阻止或轉介資源,反而回應並強化了他的偏執。媒體形容這起案件是「由演算法導致的謀殺」,凸顯 AI 幻覺在心理脆弱族群中可能帶來的致命風險。
  • 法律專業|Avianca 假判例事件
    2023 年,美國律師因提交 AI 捏造的判例遭法院制裁;英國與加拿大也出現類似案例,突顯 LLM 幻覺對司法程序與信任的侵蝕。
  • 新聞與媒體|BBC 摘要錯誤調查
    BBC 在 2024 年抽查 100 篇新聞摘要,發現超過半數存在重大錯誤或錯引。這種「高速傳播的偏差」可能在公共輿論甚至選舉中發揮放大效應。

這些案例的共同點是:錯誤並非單純技術缺陷,而是被制度性機制放大。這五大場景串聯起來,構成了三種主要風險:民事賠償、誤導放大、信任流失。

制度放大器:為何 AI 的小錯誤,可能釀成大災難?

AI 幻覺之所以危險,關鍵不在錯誤本身,而在於它犯錯的「地點」。當一個錯誤,出現在一個被高度信任的介面時,它就不再是小問題,而是一場被制度性「擴音器」放大的災難。這背後,是三層環環相扣的放大器在共同作用:

  • 平台的「內建擴音器」:搜尋首頁、官方客服、法律與醫療軟體,這些平台天生就帶有「官方認證」的光環。AI 的答案在這裡輸出,無論對錯,都會被用戶第一時間無條件相信,讓錯誤的殺傷力遠勝網路謠言
  • 市場的「搶跑加速器」:為了搶佔市佔率,企業爭相將尚未完全成熟的 AI 推向市場,讓全球數億用戶,變成了產品的「隱形測試員」這種「市場先行,事後治理」的模式,等於是將測試階段的風險,直接外溢給了整個社會 。
  • 社會的「信任放大器」:當 AI 的錯誤資訊,被「複製貼上」進正式的法律文件、新聞報導或病歷中,它就不再只是錯誤,而是披上了「專業」和「權威」的外衣。它損壞的是社會最基礎的信任系統,直接轉化為真實的賠償、司法負擔與公共健康風險。

在市場競爭的巨大壓力下,企業被迫將尚未成熟的 AI 應用匆忙推向第一線,但是當 AI 幻覺這顆難以控制的不定時炸彈爆炸,部分消費者或許能理解「這是 AI 的錯」,但卻不一定能一笑置之,從「AI 技術犯錯」到「企業品牌失職」的責任轉移,才是對企業價值最致命的打擊。

面對這種可能動搖市場信賴的「信任危機」,各國的公部門與監管機構,態度不同。這背後,反映各地對於「創新速度」與「社會安全」的不同取捨。

這三種模式,形成了一個全球性的「三角張力」:美國押注市場動能,歐洲堅守風險防線,亞洲依靠國家槓桿。這些選擇背後的代價也已浮現:美國案例集中爆發,歐盟創新速度放緩,亞洲則在嚴格管控下換取制度可控。

不同地區的制度設計,決定了幻覺最終會以「賠償」「延誤」還是「管制」的形式出現。最終的問題,已不再是技術能否進步,而是各地社會,願意用多少速度換取多少安全,以及這背後的代價,究竟該由誰來買單。

影響|從「單點事故」到四種「公共損失」

前面五個場景案例看似獨立,但它們共同揭示了 AI 幻覺,是如何從單點的技術錯誤,演變為四種系統性的「公共損失」。

  • 法律與賠償損失:如前述的 Air Canada 案與 Avianca 案所示,AI 幻覺已直接觸發了企業的賠償責任與從業人員的法律風險,買單的是企業。
  • 公共資源損失:從 Tessa chatbot 的緊急下架,到 BBC 調查所揭示的資訊污染,都顯示社會需要花費額外的醫療、教育與查核成本,來修正 AI 犯的錯。而這些外溢成本,是整個社會共同承擔。
  • 品牌與信任損失:Google AI Overview 的爭議,完美呈現了幻覺對平台型企業的傷害。每一次荒謬的錯誤,都在侵蝕用戶最寶貴的信任資產,其長期代價遠高於單次賠償。
  • 金融市場潛在損失:更令人擔憂的是,假設幻覺出現在投資建議或財報摘要中,可能引發即時的交易虧損。金融體系對錯誤的零容忍,讓幻覺在此處的風險,被放大為潛在的系統性危機。

這些錯誤與損失不僅僅是公共問題,對企業而言更是經營上的「雙重壓力」:一方面,LLM 的推理與維運成本居高不下;另一方面,幻覺帶來的法律賠償、信任流失與監管風險,又直接壓縮投資報酬率(ROI)。結果是,企業在高風險場景中,愈來愈難以用 LLM 維持一個「划算」的商業模型。

「生成式 AI 並不是所有情境的萬能解法……事實上,在某些場合它的效果並不好,有時甚至是危險的。(Generative AI is not a silver bullet for every single use case … In fact, in some cases it’s not as effective, and sometimes it’s dangerous.)」—— Sridhar Sharma,美國 Mr. Cooper 集團資訊長,華爾街日報,2024-07-22

正因如此,越來越多企業開始轉向規模更小、可控性更高的小型語言模型(Small Language Models, SLM)。這些模型或許沒有「上知天文下知地理」的全能,但在特定場景裡更可靠、更省錢,也更符合 ROI 的考量。換言之,LLM 與 SLM 的選擇,正成為企業在「創新」與「風險」之間的關鍵分水嶺。

「你的 HR 聊天機器人不需要懂量子物理。」——大衛・考克斯(David Cox),IBM AI 研究負責人,經濟學人,2025-09-08

神經科學家、麻省理工學院-IBM沃森人工智慧實驗室主任大衛・考克斯(David Cox)正在研發各種低參數值的 SLM,用來針對特定有限任務的生成式 AI 服務,他認為,小型模型的趨勢會愈來愈清晰。(圖片來源:Facebook)

正是因為大型語言模型(LLM)的高成本與高幻覺率,讓上游的制度缺陷,最終演變成下游失控的公共風險。這也解釋了為何從 2025 年開始,產業界的風向出現了驚人的轉變:與其把一切都賭在一台昂貴、耗油、又時不時會失控的「概念超跑」(LLM),不如組建一支靈活、省錢、又安全的「電動機車隊」(SLM)。

在這個轉折點上,最值得關注的信號,來自 AI 軍備競賽的核心玩家——NVIDIA 拋出了一個極具挑戰性的觀點:

「我們斷言,大型語言模型(LLM)在 AI 代理設計中的主導地位,不僅是過度的,也與大多數代理任務的功能需求不符。(We assert that the dominance of LLMs in the design of Al agents is both excessive and misaligned with the functional demands of most agentic use cases.)」——《Small Language Models are the Future of Agentic AI》,2.3 節。

NVIDIA 的驚人觀點:小型模型才是代理式 AI 的未來

按理說,NVIDIA 是 LLM 狂潮的既得利益者,但它卻率先指出了「超跑」的困境。在 今年 6 月發布的重要研究〈Small Language Models are the Future of Agentic AI〉中,NVIDIA 直言:對於絕大多數企業的「代理任務」來說,小型語言模型(SLM)才是更務實的未來。他們的論點可以濃縮為以下四點:

1. 成本效益的「不對稱優勢」:SLM 便宜又安全

  • 便宜 10-30 倍:一顆 70 億參數的 SLM,在處理相同任務時,所需的功耗與運算成本,只有 700 億以上 LLM 的十分之一甚至三十分之一。
  • 可落地邊緣:SLM 不需要龐大的雲端基礎設施,可以直接部署在手機、汽車、工廠機器人等「邊緣裝置」上,反應更快、數據更安全

2. 任務的高度契合度:「積木式」組合取代「萬能大腦」

企業內部的工作流程,通常可以拆解成許多獨立、重複的任務,例如「辨識郵件意圖」、「抓取訂單編號」、「生成報告摘要」。NVIDIA 認為,用一台「萬能超跑」來做所有這些事,本身就是一種巨大的浪費。更自然的選擇是「異質系統」(Heterogeneous system),亦即讓各類「SLM 機車隊」處理 80% 的日常庶務,只有當遇到真正需要深度推理的複雜難題時,再調用昂貴的 LLM 超跑出場。

3. 真實世界的證據:六到七成的任務可以被取代 

NVIDIA 進一步分析了三個開源的 AI 代理框架,結果發現:

  • 在 MetaGPT(模擬軟體公司)中,60% 的任務可以從 LLM 換成 SLM
  • 在 Cradle(控制電腦桌面)中,這個比例更是高達 70%。

這意味著 LLM 不再是企業任務代理的預設選擇,而是『最後手段』。

4. 為何 SLM 能有效緩解「幻覺」?

這與幻覺問題息息相關。因為 SLM 通常被指派去處理結構化、有明確邊界的任務(例如從合約中抽取人名),這種任務場景天然地壓縮了幻覺產生的空間。更重要的是,在「異質系統」的設計下,我們可以建立一個「智慧路由」機制。當 SLM 遇到不確定的請求時,可以自動將其「升級」到 LLM 或人工審核。這等於是為高風險的決策,設置了一個更可靠的「守門人」。

結語:企業的新 ROI 方程式——用「積木」解真事

NVIDIA 的報告,不僅是技術路線的選擇,更為企業提供了一張清晰的商業路線圖。

過去,企業的困境是 LLM 的高成本與幻覺風險不斷壓縮 ROI。而現在,新的解方浮現:用「小模型積木」高效、可靠地處理大量日常任務。正如 NVIDIA 的研究結論所言,因為 SLM:

「不僅能力足夠、本質上更合適,而且必然更經濟」 ,它讓企業的 ROI 得以回正,同時也大幅降低了治理壓力。(sufficiently powerful, inherently more suitable, and necessarily more economical for many invocations in agentic systems, and are therefore the future of agentic AI.)——《Small Language Models are the Future of Agentic AI》,2.2 節。

這讓 SLM 不再只是 LLM 的廉價備胎,而是幻覺風險治理與 ROI 優化的核心主角之一。下一步的挑戰是:企業能否在 SLM 的低成本與 LLM 的高能力之間,找到最適合自己的組合公式?

陪你從「科技+人文」視角,深入國際政經脈動

35元/週解鎖付費會員專屬內容

  • 成為付費會員,即可擁有:
  • ✓ 全站深度分析報導文章
  • ✓ 會員專屬 8 折活動報名優惠

已經是付費會員?登入繼續閱讀

questionnaire questionnaire
questionnaire questionnaire
questionnaire questionnaire
旭編輯

旭編輯 / 編輯

編輯

張育寧

張育寧 / 總編輯

審訂

時間標記 Timestamp

EPEPISODE #旭沙龍-張育寧時間

EP #
邀請已成功寄出 Sucessfully sent