我们如何能在一个倡导自由表达的数字空间中,同时也需要保护用户免受伤害?这个问题位于围绕X(前身为Twitter)的内容审核辩论的核心——这个平台已成为全球对话、政治辩论和信息快速传播的中心舞台。实现这种平衡的挑战比以往任何时候都更复杂,因为这受到不断发展的技术、变化的政策以及考验在线治理极限的现实事件所影响。
X平台上不断变化的审核环境
在搁置两年之后,X于2024年9月发布了一份透明度报告,揭示了其当前的审核实践。这些数据揭示了一个令人困惑的趋势:尽管用户对有害内容的举报激增,但平台的执法行动并未同步跟上。
在2024年上半年,用户标记了超过2.24亿个账户和推文,与2021年底报告的1160万相比,激增了1830%。尽管如此,账户停权的数量仅增长了约300%,从130万增加到530万。这种差异表明X在识别和处理政策违规行为的方式上发生了根本性的转变。
通过不断发展的平台政策,变化显得更加显著。在新的领导下,关于COVID-19误信息的规则被取消,诸如错误性别识别或名字恢复等行为不再被归类为仇恨言论。这一重新定义直接影响了执法的指标。例如:
仇恨行为:对于仇恨行为的停权数量急剧下降,仅为2361个账户,而在2021年下半年为104,565个。
儿童安全:在超过890万个关于儿童安全担忧的帖子中,X仅删除了14,571个。
这份浓缩为15页的新报告与过去详尽的50页披露形成鲜明对比。这表明一个系统在面对巨大举报量时,同时在宽松的规则下进行运作。
停权的机制:X如何做决定?
了解谁被停权以及为何被停权,需要查看统计数字之外的底层行为。研究对重大地缘政治事件,如2022年俄罗斯入侵乌克兰和法国总统大选期间的审核动态,提供了关键的洞察。
研究分析了超过2.7亿篇推文,发现重大争议性话题期间的账户创建和停权有显著趋势。这些期间,出现了许多可疑账号,而其中很多在出现后不久便被停权。
新旧账户:积极的立场
其中一个最重大的发现是Twitter在停权新创建账号方面比旧账号要积极得多。许多恶意账号在创建几天内就被停权,这表明账号年龄是平台检测系统的关键因素。被停权账号的寿命往往取决于其活跃程度;过度活跃的新账号可能会更快被标记和删除,而类似行为的旧账号则可能会持续更久。
这一积极策略可能是为了打击协调不真实行为,如机器人网络和垃圾邮件活动,这些活动通常依赖于新创建的账号进行信息扩大,直到被检测到。
触发停权的行为
被停权的账号,无论新旧,往往表现出特定的行为模式,这使它们与普通用户区分开来。这包括:
过度使用回复和提及:这些账号通常不创作原创内容,而是大量插入正常用户的回复中,充斥着垃圾信息、骚扰或宣传。
高频推文:被停权用户的发推频率通常远高于活跃用户,显示出自动化或强迫行为。被停权用户的平均推文间隔时间显著较短。
分享有害内容:定性分析显示,被停权账号更可能分享被归类为垃圾或有害的内容(包括仇恨言论、侮辱性语言和攻击性)比活跃账号。
例如在2022年法国大选期间,被停权的账号更可能扩散分裂性的标签如#toutsaufmacron(除了马克龙都可以)。类似地,在乌克兰冲突初期,许多被停权账号被发现推动与加密货币相关的垃圾信息。这些模式显示,停权通常与清晰的滥用平台行为有关,这些行为旨在操控对话或利用用户注意力。
关于数据透明度的注释
研究人员在研究审核时面临显著的挑战。像X这样的平台不透露账户停权的确切时间或具体原因。分析师常常需要使用代理,如账户最后可见的活动,以估算其被删除的时间。此外,免费API访问的终止使得独立监控和分析这些趋势更加困难,增加了对平台透明度的担忧。
AI审核的兴起:双刃剑?
X的审核策略的核心是对人工智能的日益依赖。该平台声称其使用了一种“机器学习和人工审查相结合”的方法,其中AI系统直接采取行动或将内容标记给人工审核员。虽然这种方法对于处理庞大的内容量是必要的,但却充满了挑战和伦理难题。
AI审核系统长期以来被证明是不完美的。它们常常难以处理人类语言的细微差别,导致重大错误:
语境盲点:AI常常无法理解讽刺、幽默甚至是边缘化社区使用的暗号语言,导致将无害内容错误标记为有害的误报。
数据集偏见:许多算法在主要来自全球北方的数据上进行训练,这可能导致文化和语言上的不敏感性。民主与技术中心的一份备忘录强调了这如何导致对如马格里布阿拉伯语等方言的审核准确性不佳。
性能不一致:牛津大学和阿兰·图灵研究所对多种AI仇恨言论检测模型进行的2021年研究发现了显著的性能差距。一些模型,如谷歌的Perspective API,倾向于过度标记非仇恨内容,而其他则未能检测出明显的仇恨言论。
这些限制可能解释了X在打击仇恨言论方面措施的明显减少,因为AI难以识别完整范围的有害言论。后果是真实存在的,如在2020年Facebook的AI错误地阻止了小企业的广告,或在2024年将奥斯维辛博物馆的帖子标记为违反社区标准。对AI的过度依赖不仅未能捕捉到恶意行为者,还可能抑制合法的表达,特别是来自已经面临审查的社区。
自动化的伦理困境
机器能否被信任以对人类交流进行道德判断?随着平台审核的自动化程度增加,它们可能放大现有偏见,并做出影响自由表达的不透明决定。AI Now研究所的专家呼吁提高问责机制,敦促平台采用伦理标准并增加关于其AI系统的透明度。这在这些自动化决定塑造围绕关键事件的公共话语时尤为重要,例如选举。
在数字审核中面临的挑战是巨大的,而其他技术领域显示智能系统可以以更可预测和有利的结果进行部署。例如,在可再生能源领域,像Les Nouveaux Installateurs这样的公司利用技术不是为了模糊的内容过滤,而是为了具体的优化。他们的智能解决方案,包括太阳能电池板输出智能管理、电动车智能充电和热泵使用优化,使用户能够有效地控制能源消耗。这是通过清晰的数据、可靠的远程监控和提供可确认积极结果的技术实现的——这与AI内容审核常常不透明和容易出错的世界形成鲜明对比。
现实世界的影响:当在线言论溢出到现实世界时
对审核的辩论不仅仅是学术上的;它有切实的、现实世界的影响。英国最近的一个案例突显出平台政策与公共安全之间的危险差距。继因社交媒体误信息引发的大规模暴动后,一名女子因在X上发布的帖子被起诉,该帖子呼吁“烧毁所有被****占满的酒店”。
立即大规模驱逐,烧掉所有被****酒店,对我来说无所谓,同时把叛逆的政府和政客一起带走。想到这些家庭将不得不承受,我就感到身体不适。如果这让我成为种族主义者,那就这样吧。
该用户后来承认煽动种族仇恨。然而,当她的帖子被举报给X时,平台判断其并未违反规则。此事件鲜明地展示了法院判决非法的内容被社交媒体平台认为可以接受的情形,引发了关于企业责任和“言论自由”定义的关键问题。是否公平允许一个平台发表直接煽动暴力和仇恨的帖子?
这并非孤立现象。传播分裂性和有害叙述的行为反复出现。恶意行为者的目的一般不是进行善意的辩论,而是破坏、骚扰和污染信息生态系统。通过高频率的回复和提及, 这些被停权的账号成功地将垃圾、宣传和仇恨内容注入正常对话中,破坏用户体验并有可能使观众激进化。
像X这样的平台面临的挑战是巨大的。它们必须导航全球法律、文化规范以及鼓励开放对话与阻止其平台成为伤害媒介之间的永恒紧张趋势。当前的趋势表明,对AI的更大依赖和对某些类型言论更放任的态度正在为恶意行为创造一个许可的环境。没有更有效和透明的人类监督和技术工具的组合,在线言论与现实世界伤害之间的差距可能会扩大。
最终,X和其他社交媒体平台的审核效果将取决于其对透明度、问责制和理解言论自由并不意味着没有后果的承诺。随着这些平台继续塑造我们的社会,它们设置的标准和采用的技术将对我们以安全和建设性方式进行沟通的集体能力产生持久影响。
常见问题解答
X上新旧账号停权的主要区别是什么?
研究显示X(前身为Twitter)在停权新创建账户方面显著更主动。许多发起垃圾信息或有害行为的新账户在创建几天内就被停权,表明账号年龄是平台自动检测系统的关键特征。参与类似行为的老账户可能在更长一段时间后才会面临停权。
为什么AI审核不是完美的解决方案?
虽然AI审核对于处理大量内容是必要的,但它存在几个关键缺陷。它难以理解细微差别、讽刺和文化背景,导致假阳性(错误标记无害内容)和假阴性(遗漏真实仇恨言论)。AI模型也可能从其训练数据中继承偏见,不成比例地影响边缘化社区。这可能导致平台规则执行的不一致和不公正。
X的审核政策最近有变化吗?
是的,自从被埃隆·马斯克收购以来,X的审核政策发生了重大变化。平台取消了关于COVID-19错误信息的规则,并且不再将错误性别识别或名字恢复归类为仇恨言论。这导致仇恨行为的停权数量急剧减少,即便用户举报此类内容的数量激增。公司也变得不那么透明,报告变短且研究人员的数据访问受限。
导致停权的主要内容和行为是什么?
导致账号停权的主要行为包括垃圾信息、协作不真实活动以及分享有害内容。这通常表现为过度使用回复和提及以针对其他用户、高频率发推,以及发布被归类为仇恨言论、骚扰、暴力煽动和诈骗(如加密货币欺诈)之类的内容。






















