如果我們關心網路上資訊流通的品質,那麼,重要的事情顯然不只是「刪除明顯有害的資訊」,而是讓「品質良好的資訊可以出頭」。
畢竟,在政治爭議事件發生時,經常聽到人們抱怨網路上看到的都是「帶風向」的文章,要找到持平的描述與分析則相對困難。而在政治之外,比如在找尋美食評論時,不少人也已經練就肉眼篩選的能力,不但要自動忽略顯然是業配的留言,也要忽略那些只是謾罵的文字,挑揀出真的有具體針對口味、食材或氣氛評論的發文。
至於若要找電影評論和科技新知,市面上雖然未必有那麼多「明顯有害」的發言,但高品質的資訊仍然並不好找,反而是重複且流於浮面的文章相當氾濫──到底誰需要看十篇主打某部電影是艾瑪史東「從影以來最大尺度演出」的貼文,或者是空泛談論「不會用 AI 你就會完蛋」的文章?又有誰需要那麼多的「驚傳」、「笑死」或「網友怒」?
問題是,最壞的資訊(如煽動暴力、仇恨言論)或許可以透過偵測特定文字的方式移除,但高品質資訊要怎麼篩選呢?現在,有好幾個不同的團隊提出可能的解決方案,而在技術層面上,這些解方都指向同一個關鍵詞:打造更好的演算法(algorithm),以各種方式「預測」不同資訊的品質高低。
模式一:與其鼓勵衝高讚數,不如鼓勵「從不同背景的帳號都能得到讚」
現在,許多平台的演算法都看重各式各樣的「互動」(engagement),比如一則貼文所獲得的評分、按讚、留言、轉發等等。在一些平台,互動的「總量」越多就越容易被推薦,亦即讚數越多就越吃香,不管這些讚從何而來;在另一些平台,讚的「來源」則相當重要,比如可能會特別重視「這位用戶的朋友」對哪些貼文按讚,或者「與這位用戶共享某些特質的人」會和哪些內容有正面互動。
而延續這個「看是誰按讚」的邏輯,哈佛大學專研 AI 與社群媒體的資工教授歐瓦迪亞(Aviv Ovadya)所帶領的團隊有另一種提議:獎勵那些可以從「多樣來源」都獲得正面互動的內容,而非那種只能在「同溫層」取得正面回應的內容,甚至是專門挑起爭端、以正面和負面的兩極反應衝高流量的內容。
具體來說,兩則貼文同樣都得到一千讚,但如果一則貼文的讚數來源相當多樣,可以吸引到不同背景、甚至已知有不同立場的用戶都來按讚,排序就會高上許多。相反地,如果這一千讚幾乎都來自發文者的「同溫層」,都是來自「本來就常對這類貼文/這個帳號按讚」的用戶,那排序就會比較低。
歐瓦迪亞團隊將這樣的做法稱為以「橋接」(bridging)為基礎的排序法,強調促進不同背景的人能夠互相理解。具體而言,這可能指的是一則政治貼文獲得「較少關注政治的用戶」、「立場游離的用戶」甚至「敵對陣營的用戶」正面回饋,也可能是平常不特別關注科技或電影的帳戶,都來為某則新知分享按讚。
而在歐瓦迪亞團隊的報告中,他們更進一步舉出更為複雜的假想案例,期待「完整版」的橋接排序法,能夠對互動的情形做出更細緻的判斷:舉例來說,如果一則貼文引發兩極的反應,讚和怒各有五百筆,底下留言也互相罵成一團,人們互相給出負面評價(噓文、低評分、「怒」),雖然帳面上的「總互動數」較高,但由於這其實是撕裂性的貼文,所以排序應退到很後面。相反地,如果不同立場的帳號在一則貼文下互相討論,或者至少為彼此的留言按讚,又或者原發文者會以良好的方式逐一回應留言中的好奇與質問,就表示這則貼文有促進人們彼此理解,所以排序就應該提高。
如果演算法這樣修改,這也將回過頭來會影響媒體、網紅、政治人物、行銷團隊等發文者的策略。歐瓦迪亞的團隊主張,如果改採這樣的做法,就可以鼓勵發言者也要更為持平、更考慮不同背景的受眾,而非只考慮取悅甚至煽動各自的「同溫層」以衝高讚數,甚至刻意挑起爭端、製造爭議,同時吸引正面和負面的流量。
模式二:善用語言模型,直接辨別貼文「像不像是好內容」
而在關注互動結果之外,也有一些團隊建議直接針對貼文內容本身下手,訓練出大型語言模型(LLM),請 AI 判斷這些貼文是否像是符合「高品質內容」該有的樣子。而這又有兩種下手的角度:正面評估內容「是否有滿足這些正面價值」,以及負面評估內容「是否可能觸發了一些警鈴」。
關於後者,史丹佛大學「人本人工智慧研究院」(Stanford Institute for Human-Centered Artificial Intelligence)促成來自資工、傳播、法律、心理、社會科學等不同學科的研究者共同合作,於 2023 年提出在演算法中「嵌入」正面社會價值的做法,而各個社會、各間公司內部該優先考量哪些社會價值,則由成員共同討論決定。
史丹佛團隊已經初步做出一個較簡單的方案,第一波先專門針對「民主價值」,請大型語言模型判斷各則貼文是否有通過一些相關的考驗,又或者其實會觸發「反民主」的警鈴。
具體而言,他們從反民主價值相關的社科文獻中找出八個概念,整理出學界對於這八個概念的定義,並以之為基礎,寫出完整的「詠唱」(prompt),要求 GPT-4 模型去辨別每則貼文是否會觸發這八道關於反民主的「警鈴」。在目前的版本中,他們所選取的概念包含「反對兩黨合作」、「不願與敵對政黨支持者接觸」、「支持非民主做法」(為了自家政黨獲利,願意背離民主價值)等等。最後,演算法就可以依照 GPT-4 所提供的結果為貼文排序,把較具民主素養的貼文排在前面,較低民主素養的貼文則排在後方、甚至不予顯示。
團隊更已經進一步招募受試者做實驗,想了解新演算法到底是否真能降低人們對不同政黨支持者的敵意,而答案也是正面的:相較於使用舊演算法(只重視互動的演算法)的組別,使用新演算法的組別在滑完貼文之後的「政黨敵意」較低,顯示新演算法確實有效。而進一步的分析也顯示,新演算法對政黨傾向強的受試者缺乏效果,畢竟這些人不用看額外資訊,通常也心意已定;換言之,新演算法的效果主要是來自「政黨傾向弱」的受試者,讓他們比較不那麼厭惡敵對政黨的支持者。
除了判斷「能否通過考驗」以外,還有團隊認為現有技術已經能夠積極抓出「高品質內容」,更精確地說,是判斷「這則貼文是否包含高品質內容常有的特質」。就在2024 年 4 月中,Google 下的技術孵化器 Jigsaw 已經在自家網站上免費釋出測試版,開放各界以 API 的方式適用。
Jigsaw 前身是 Google Ideas 團隊,成立自 2010 年,宗旨一直是以數位科技促進言論與資訊的交流,並減緩極端主義傾向。與其說該團隊是母公司 Alphabet 下的一個部門,Jigsaw 更像是一個由 Google 支持的智庫,兩者並非直接隸屬的關係。也正是因此,儘管 Jigsaw 正在開發挖掘「高品質內容」的演算法,但 Google 目前也還沒有計畫要採用此一作法。
針對這項計畫所需的語言模型,Jigsaw 已經完成第一波訓練,成果名為 Perspective API。該模型不只包含一系列「有毒」內容的警鈴(攻擊身分、侮辱、威脅等),還設定了另一系列「高品質」內容的檢測標準,目前推出的版本已經包含七項特質:親近性(談論自己與另一群人共享的興趣或動機),共情(展現對他人的關懷同理),好奇(嘗試釐清或追問),深刻(提及不同觀點,或者嘗試補充細節),個人故事(由個人經驗出發),論理(列出具體論點,以推論支持),尊重(對別人表示認可或謙讓)。如果模型判定某則內容「有做到」的機率越高(0 至 1 的機率分數),就會認為這越有可能是「高品質」的內容。
《時代》雜誌的記者受邀參與演示,就直接看見這樣的演算法可以如何適用於線上論壇的電影版:當一個人發文徵求電影推薦時,在最上方的留言,就可能是基於自身經驗、充滿豐富細節的貼文,如分享《搖滾教室》的哪些情節讓他真正愛上音樂,或《媽的多重宇宙》哪一段最觸動他,又或者是分享某一部電影讓他終於有勇氣辭職展開新生活。
當然,這樣的評分不可能完全精準──但即使是現在追求互動的各家平台演算法也經常會推薦用戶毫無興趣的內容,這一切本來就只是機率問題。目前,這些工具已經陸續出現最早的版本,隨著持續的研發與試誤,都有許多持續進步的機會。
從來都沒有中立的演算法,問題只是要以「什麼標準」預測資訊的潛在價值
但若要討論這是不是一個好主意,許多人的擔憂未必來自技術層面,而其實源於「政治」:網路平台不是應該中立嗎?由網路平台判斷資訊價值高低,進而決定要「獎勵」或「懲罰」哪些內容,真的是一件好事嗎?
但其實,從來沒有任何演算法是中立的,所有平台都會去判斷資訊的「價值」,進而決定要獎勵或懲罰哪些資訊。只不過,平台所在乎的經常不是一般定義中的「品質」,而是預估用戶對於這類內容可能有怎樣的反應。過去,一些平台曾單純仰賴時間序,認為用戶對最新的發展最有興趣,也有一些平台很強調社交,所以特別推播用戶親朋好友的各種近況。
而近期,各家平台最在意的指標則正是各種「互動」。依照普林斯頓大學資工系教授納拉亞南(Arvind Narayanan)的精簡整理,比如推特(現名 X)的演算法就是預測「按讚數、留言數、轉推次數等的加權平均」;YouTube 過去曾經預測點擊次數,但這導致各種縮圖醒目(比如運用性感圖像)但內容粗劣的影片氾濫,於是 YouTube 在 2012 年就已改變演算法,改為預測觀看時間;TikTok 的演算法較為秘密,但業界普遍相信也是預測各種互動數的加權平均,尤其看重「完成觀看」的比率,而因為 15 秒的短影片較容易看完,這也導致短影片成為 TikTok 主流。
換言之,這些平台早就在考量「內容」的「價值高低」,只是這些價值不是取決於內容、取決於讀者可能的收穫,而是取決於互動的機率。
納拉亞南也指出,除了互動作為首要考量之外,各平台在實際運作上還會納入更多次要考量。比如,針對每則貼文為每個用戶做預測,在計算能力上的成本顯然太高,於是各家平台經常會先用其他標準做簡單篩選,先為每位用戶快速篩選出數百則貼文,再針對這數百則貼文排序就好。又比如,平台商其實會擔心演算法都集中推薦特定帳號的內容,結果整批失準,於是會特別「塞進」不同來源的內容,而性別、種族平等問題在近期受到較多重視,一些平台也開始特別促進各方面的多樣性。
而如影音串流平台 Netflix 和音樂推薦平台 Spotify 也發現,不論預測多麼精準,如果讓用戶感到「咦,怎麼會推薦我這個」或者「怎麼一下推這個、一下推那個」,其實會帶來反效果。有鑑於這樣的發現,平台還會要求演算法多做一步,讓推薦結果看起來更「合理」、更「講得通」。
因為這個原因,現在 Netflix 上的用戶不只會看到一個適合程度的百分分數,還會看到「得獎友情喜劇」或「黑色幽默」之類的個人化推薦原因。Spotify 也會以用戶常聽的音樂為基礎建立播放清單,向用戶說明這是「Taylor Swift 合輯」、「動感音樂合輯」或者「2000 年代合輯」。
這些案例在在證明,從來根本就沒有中立的演算法,篩選本來就一定會基於內容的「價值」而有所判斷──問題從來都不是「要不要篩選」,而是「要採取怎樣的判斷基準」。
臉書多次改變演算法,反映的是「臉書到底要追求什麼」的不同解答
而在判斷基準背後,更根本的問題就是:平台到底要追求什麼?是流量所帶來的短期廣告利潤?是使用者體驗優化?是促進特定內容,進而強化特定品牌形象?還是有其他至少同樣值得追求的價值?
針對這個問題,臉書成立至今就已經給出許多不同的答案。如資深科技記者李維(Steven Levy)在《後臉書時代》(Facebook: The Inside Story)中所呈現的,臉書一路上排序方式的每次改變,經常是對應平台的定位調整。
最早,臉書是社交的工具。在 2006 年的第一版動態消息中,創辦人祖克柏自陳他所選擇的標準是「有意思」(interesting)的程度,具體來說就是這些資訊在社交上的價值。所以,最優先的是跟用戶本人有關的資訊(如在相片中被標註),次優先的是與用戶本人無關的親友近況更新(如朋友改變感情狀態),最後才再納入各種其他資訊,這些資訊的排序重點則是「用戶有多少朋友對此感興趣」(如許多朋友都加入特定臉書社團),依然是以社交為基礎。
但在 2010 年前後,臉書又重新設計排序的邏輯,打造出名為 EdgeRank 的演算法,反映的是臉書自我定位的微妙變化:面對競爭對手推特(現名 X),來勢洶洶、大幅增加的用戶也有愈趨多元的需求,臉書仍然在乎社交,但與其說只是「讓你看看親朋好友的新資訊」,新演算法的核心重點在於幫助用戶「掌握自己感興趣的所有新資訊」,從時事到八卦不一而足,幾乎等於是個人化的生活報紙編輯。
這個邏輯其實已與推特十分相像,只不過不同於推特的追蹤者模式,雙向的社交仍是這份報紙最大的「編輯指導原則」,會優先將「親友圈內流傳的內容」推薦給用戶,這也就是他們所謂的「社交圖譜」(social graph)。
具體而言, EdgeRank 以「親近程度」(考慮的因素如「近期與張貼者的互動頻率」)為排序依據,另外按照貼文的性質調整「權重」,主要是仰賴貼文性質,並且額外納入一些加分條件,而這些條件多數也與社交有關(比如是否提及出生、婚禮、死訊,是否有許多人留言「恭喜」),最後,演算法還會再將讓更近期的貼文排序較為靠前。
即便到了 2018 年,臉書引進機器學習,預測用戶與特定貼文互動的機率(且留言的權重遠高於按讚和分享),但邏輯大同小異,仍然以「親近程度」高低加權,以保留平台的社交特性,以防都被「全國瘋傳」的訊息淹沒,看不到親友的訊息。
對社交的重視是到 2021 年才全面潰散,可以說完全被流量取代,主因則是來自 TikTok 的商業競爭,讓臉書擔憂年輕用戶流失,因此決定迎頭追趕。他們追趕的方式就是在演算法邏輯上向 TikTok 靠攏,不再重視「用戶的朋友發了什麼、看了什麼」,而強調個人化的互動預測,包含利用個人的背景條件和自己過去的行為模式,去預測觀看的時間、互動的機率高低,要從資訊平台轉型成娛樂中心。
其實,臉書總監艾立森(Tom Alison)自己就對對彭博社的記者坦承,選擇這個新模式讓他感到「害怕」,擔心是不是拋棄了自家的傳統;而確實,最新的市場數據也顯示,在流量為王、社交退場的新臉書上,人們也越來越少分享自己的近況,多數人經常只是被動的觀看者而已──這些都不是演算法的必然,這些都是臉書對於「要追求」什麼的積極選擇。
平台有什麼動機改變?扭轉負面形象,重建使用者信任
那既然平台都做了選擇,他們有什麼理由改變呢?
只從平台獲利的角度來看,彷彿未必需要改變,畢竟他們的獲利模式不一定真的在於「提供用戶高品質的資訊」。事實上,Meta(臉書和 Instagram、Threads 的母公司)有多不在乎「提供可靠資訊」這項任務,從一項近期發展中可見一斑:從 2023 年 8 月開始,面對加拿大立法要求 Meta 不得免費使用新聞內容,必須與加拿大媒體分潤,面對這樣的要求,Meta 不願付錢,選擇直接封禁加拿大新聞,所有用戶都無法分享含有加拿大媒體網頁連結的內容,連關於天然災害的新聞都不能倖免。之所以這麼做,正是因為 Meta 判斷新聞報導對於公司的獲利而言已不重要。在新聞禁令生效之後,專家們發現,加拿大臉書用戶所接收到的不可靠資訊比率增加三倍。此外,時事討論也更常被迷因、被個人意見所主導,至於事實呈現則越來越稀缺,但臉書顯然不為所動,至今都沒有改變作法的跡象。
然而,問題恐怕不只有短期獲利這麼簡單。即使不以提供資訊為職志,品牌形象和品牌定位仍會是平台商重要的考量。再以臉書為例,過去一波巨大的公關危機正是來自他們在 2016 年被指控「只顧獲利」、「縱容假新聞流竄」、「促成川普當選」。
到了今天,各家社群平台只顧吸取人們的注意力,促成極端的、譁眾取寵的言論盛行,已幾乎成為大家的共識。民調顯示,在英國、德國、法國、加拿大、紐澳,都已有四成成年人認為社群媒體對民主不利,美國更高達三分之二。同時,也不少人擔心臉書讓使用者越變越「笨」,尤其許多家長都對自家青少年有這樣的顧慮。可以預見,品牌形象很可能是希望改善社群平台演算法的倡議者,將特別著重的施力點。
再退一步來說,如果各家平台上不但看不到好的政治討論、科技新知,就連有品質的電影或美食推薦都很難找到時,平台的定位就很可能越來越傾向「耍廢」、「浪費生命」,而英文世界甚至有一個更為不詳的詞,稱為「doomscrolling」,描述的更是一個極其負面的狀態:無意義的狂滑手機、無法停下來,但過了一段時間就會感覺自己做錯了什麼,反思過後,會發現滑社群平台的習慣是一件不好的、無用的、需要戒除的事情。
如果平台持續忽略關於「資訊品質」的疑慮,持續往「用戶會看就是王道」的短線目標發展,等著他們的恐怕將是不少用戶選擇「戒癮」,社會上也將出現更多反對這些平台的論述,中長期而言可能得不償失。
何況,對於仍以「提供資訊」、「促進交流」為賣點的平台來說,他們更是需要嘗試新做法。隸屬於牛津大學之下的路透新聞研究院(Reuters Institute for the Study of Journalism)跨越 26 國的調查報告顯示,人們對於現有平台推薦資訊的兩大主要方式都不怎麼信任:只有 19 % 的受訪者認為用「以『我朋友看了什麼』為標準自動選取」是獲取新聞資訊的好方式,而認為「以『我過去看了什麼』為標準自動選取」是好方法的比率雖然稍高,但也只有 30 %。然而,也僅有 27 % 認為「由編輯和新聞從業人員負責選取」是好方法,顯示「傳統」的做法也並未獲得閱聽人的肯定。
而平台要找到能獲得肯定的新方法,關鍵詞又在於重建信任。路透新聞研究院特別提醒,雖然這三種篩選方式差異極大,但其實,不信任第一種作法的人通常也不信任第二、第三種作法,而絕大多數人是三種作法都不信任。研究者主張,人們對於資訊篩選的管道有「普遍性的懷疑」:對於現存的篩選機制一概懷疑,都認為並不夠好,還找不到信任既有篩選機制的理由。
從這個角度來看,帶給用戶「信任的理由」就是現在的第一要務,而各家平台若要做到這點,重點很可能就在於「積極證明自己有把『品質』當一回事」,而現在技術已經逐步到位,可以期待是否將有平台開第一槍,發起改善演算法、獎勵好內容的社群運動。