我們如何在支持自由表達的數位空間中航行,同時保護其用戶免受傷害?這個問題正是圍繞 X(前稱 Twitter)的內容審核辯論的核心,這個平台已成為全球對話、政治辯論和快速信息傳播的重要場域。達到這種平衡的挑戰比以往任何時候都更加複雜,由不斷發展的技術、政策變遷和考驗線上治理極限的現實事件所塑造。
X 的審核新格局
在經過兩年停頓後,X 於 2024 年 9 月發布了一份透明度報告,提供了其目前審核做法的一瞥。數據揭示了一個令人困惑的趨勢:雖然用戶對有害內容的舉報飆升,但平台的執法行動並未同步增加。
2024 年上半年,用戶舉報了超過 2.24 億個賬戶和推文,比 2021 年底的 1,160 萬例增加了 1,830%。儘管舉報量激增,賬戶停權的數量僅增長約 300%,從 130 萬增至 530 萬。這種差距暗示著 X 在識別和處理政策違規問題上的根本性變化。
此變化進一步由不斷演變的平台政策所闡明。在新領導層下,關於 COVID-19 錯誤信息的規則被撤回,錯用性別或使用原名不再被歸類為仇恨言論。這一重新定義直接影響了執行指標。例如:
仇恨行為:對仇恨行為的停權數量顯著降低到僅 2,361 個賬戶,相較於 2021 年下半年的 104,565。
兒童安全:在超過 890 萬篇兒童安全問題舉報中,X 只清除了 14,571 篇。
這種新方法在一份精簡的 15 頁報告中詳述,與過去全面的 50 頁披露形成鮮明對比。它指向一個在巨大報告量中的系統,運作於經修訂的、更寬容的規範下。
停權機制:X 如何決定?
了解誰被停權以及為什麼被停權需要查看超出統計數據外的底層行為。研究重大的地緣政治事件期間的審核動態,例如 2022 年的俄羅斯入侵烏克蘭和法國總統選舉,提供了對平台操作模式的重要見解。
分析超過 2.7 億推文的研究識別了在高強度、具有爭議性對話期間,帳戶創建和停權的明確趨勢。在這些時期,最明顯的是可疑賬戶創建的峰值,這些賬戶中的許多在創建後不久就會被停權。
新帳戶 vs 舊帳戶:積極的姿態
一個重要的發現是,相較於舊賬戶,Twitter 顯然在停權新創建的賬戶時更為積極。許多惡意賬戶在創建僅僅幾天後便被停權,這表明賬戶年齡是平台檢測系統中的關鍵因素。被停權賬戶的壽命往往取決於其活動水平;極富活動的新賬戶可能更快被標記和移除,而正在進行類似行為的舊賬戶可能會持續更長時間。
這種針對新帳戶的積極方法很可能是為了打擊協調的不真實行為,例如機器人網絡和垃圾郵件活動,這些經常依賴新創建的帳戶來放大其信息,直到被檢測到。
觸發停權的行為
停權帳戶,無論新舊,往往表現出區分於普通用戶的特定行為模式,包括:
過度使用回覆和提及:這些賬戶通常不創建原創內容,卻充斥著合法用戶的回覆中,散播垃圾、騷擾或宣傳。
高頻推文:被停權的用戶經常以比活躍用戶更高的頻率推文,顯示出自動化或強迫行為。停權用戶的平均推文間距顯著更短。
分享有害內容:質化分析揭示,停權賬戶更可能分享被歸類為垃圾訊息或有害的內容(包括仇恨言論、辱罵性語言和侵略性)比活躍賬戶。
例如,在 2022 年的法國大選期間,停權賬戶更可能放大分裂性的標籤如 #toutsaufmacron(除了馬克龍誰都行)。同樣地,在烏克蘭衝突的初期,許多停權賬戶被發現推廣加密貨幣相關的垃圾訊息。這些模式表明,停權通常與涉嫌濫用平台,意圖操縱對話或利用用戶注意有關。
關於數據透明性的說明
研究人員在研究審核時面臨重大挑戰。像 X 這樣的平台不公開帳戶被停權的確切時間或具體理由。分析人員往往必須使用代理,如帳戶的最後可見活動來估算何時被刪除。此外,為研究人員提供的免費 API 访问停用,使獨立監控和分析這些趨勢變得更加困難,加劇了對平台問責制的關注。
人工智慧審核的興起:雙刃劍嗎?
X 的審核策略的核心是越來越依賴人工智慧。該平台表示使用「機器學習與人工審查相結合」,AI 系統要麼直接採取行動,要麼將內容標記給人工審查者。雖然這種方法對處理大量內容是必需的,但它充滿了挑戰和道德困境。
AI 審核系統被證明長期以來並不完美。它們通常難以理解人類語言的細微差別,導致顯著錯誤:
上下文盲點:AI 經常無法理解諷刺、幽默或被邊緣化群體使用的代碼語言,導致,誤判無害的內容為有害。
數據集中的偏見:許多算法在主要來自全球北方的數據集上訓練,可能導致文化和語言的不敏感。來自民主與技術中心的備忘錄強調這導致在像馬格里比阿拉伯語這樣的方言中適應不良。
不一致的表現:牛津和艾倫·圖靈研究所 2021 年的一項研究測試了幾種 AI 仇恨言論檢測模型,發現其性能存在顯著差距。有些模型,如 Google 的 Perspective API,傾向於過度標記非仇恨內容,而另一些模型則未能檢測出明顯的仇恨言論。
這些限制可能解釋了 X 對仇恨言論公然下降的行動,因為 AI 難以識別有害言論的全譜。這現實後果是可見的,例如當 Facebook 的 AI 錯誤地在 2020 年封鎖小型企業廣告或在 2024 年將奧斯維辛博物館的帖子標記為違反社群標準。過度依賴 AI 不但未能抓住惡意行為者,還可能窒息合法表達,特別是來自已受到審查的社群。
自動化的道德困境
我們能信任機器對人類溝通做出道德判斷嗎?隨著平台越來越多地自動化審核,它們面臨著放大現有偏見的風險,並做出影響自由表達的不透明決定。來自 AI Now Institute 的專家呼籲提高問責制,敦促平台採納道德標準,並增加對其 AI 系統的透明度。這尤為重要,因為這些自動化決策塑造著圍繞選舉等關鍵事件的公共對話。
雖然數位審核的挑戰巨大,其他技術行業展示了如何以更可預測和有益的結果部署智能系統。在可再生能源領域,例如,企業如 Les Nouveaux Installateurs 利用技術不進行模糊的內容篩選,而是進行具體的優化。他們的智能解決方案,包括太陽能面板輸出的智能管理,電動車的智能充電,和熱泵使用的優化,賦予用戶高效控制他們的能源消耗。這是對往往難以捉摸且易出錯的 AI 內容審核世界的鮮明對比。
現實後果:當線上言論蔓延至現實世界
圍繞審核的辯論不僅僅是學術上的, 它具有切實的現實影響。最近英國的一個案例突顯了平台政策與公共安全之間的危險差距。 在主要因社交媒體虛假信息引發的騷亂後,一名女子因為在 X 上發布呼籲「燒毀所有裝滿 bastards 酒店」 的帖子而被起訴。
大規模驅逐出境,燒毀我不在乎的全部 bastards 酒店的火,而你正在進行時,請帶走他們那些不忠的政府和政客。 知道這些家庭現在將不得不忍受什麼,我感到身體不適。 如果這讓我成為種族主義者,那就這樣吧。
該用戶隨後承認煽動種族仇恨的罪行。 然而,當她的帖子被舉報給 X 時,該平台認為這未違反其規則。 此事件清楚地說明了一個情況,即被法院定為非法的內容社交媒體平台卻認可,這引發了關於企業責任和「言論自由」定義的關鍵問題。 平台允許直接煽動暴力和仇恨的帖子是否公平?
這並非孤立的現象。 放大分裂性和有害敘述是一個再現的主題。 惡意行為者的目標通常不是出於善意的辯論,而是破壞、騷擾和污染信息生態系統。 通過在高量回覆和提及中針對合法用戶,這些被暫停的帳戶成功地將垃圾信息、宣傳和仇恨內容注入原本正常的對話中,降低用戶體驗並可能激化旁觀者。
對於像 X 這樣的平台,挑戰是巨大的。 他們必須在全球法律、文化規範以及鼓勵開放對話與防止其平台成為傷害載體的永恆張力之間航行。 目前的趨勢表明,更加依賴人工智能和更多對某些類型的言論採取更加放手的態度,正在為惡意行為創造一個寬容的環境。 如果沒有更有效和透明的人力監督和技術工具組合,線上言論和現實世界傷害之間的鴻溝可能會擴大。
最終,X 和其他社交媒體平台上的審核效果將取決於其對透明度、問責制的承諾,以及對自由言論並不意味著免於後果的細緻理解。 隨著這些平台繼續塑造我們的社會,他們設立的標準及其使用的技術將對我們共同的安全和建設性的交流產生持久影響。
常見問題解答
在 X 上,新舊賬戶的停權有什麼主要區別?
研究表明,X(前稱 Twitter)在停權新創建賬戶方面顯著更為積極,相較舊賬戶。許多新賬戶,由於涉及垃圾郵件或有害行為,在其創建後的幾天內被停權,這表明賬戶年齡是平台自動化檢測系統中的一個關鍵特徵。 舊賬戶處於類似行為中可能會持續較長時間才被停權。
為什麼人工智慧的審核解決方案不完美?
雖然人工智慧審核在應對大量內容時是必要的,但存在幾個關鍵缺陷。 它難以理解細微的差別、諷刺和文化背景,導致誤報無害內容(假陽性)和漏報真實的仇恨言論(假陰性)。 AI 模型也可能繼承其訓練數據中的偏見,對邊緣社群造成不成比例的影響。 這可能導致平台規則的執行不一致和不公平。
X 的審核政策最近有改變嗎?
有,自從 Elon Musk 收購 X 以來,該平台的審核政策發生了重大變化。 平台已經取消了關於 COVID-19 錯誤信息的規則,不再將錯用性別或使用原名視作仇恨言論。 雖然用戶對此類內容的舉報激增,但這導致仇恨行為停權數量的顯著減少。 該公司也變得不那麼透明,報告更簡短,限制了研究人員的數據訪問。
什麼樣的內容和行為主要導致停權?
導致賬戶被停權的主要行為包括垃圾郵件散播、協調的不真實活動和分享有害內容。 這通常體現在過度回覆和提及中針對其他用戶,以異常高的頻率發推,以及發布被歸類為仇恨言論、騷擾、煽動暴力和促銷騙局(例如加密貨幣詐騙)的內容。






















