由 BBC 牵头的一个财团称,AI 助手大规模错误陈述新闻,45% 的回答在准确性、来源和语境方面存在重大问题。此发现直指 Alphabet、Microsoft 以及其他急于将生成式 AI 放到搜索、社交和生产力工具首页的大型科技公司。
由 European Broadcasting Union 协调、BBC 领导的一项新国际研究评估了来自主要 AI 助手的 3,000 多个答案,得出几乎一半包含实质性缺陷的结论。Gemini 表现最弱,76% 的回答被标记为存在重大问题,超过同行两倍以上。所有模型中,超过三成的答案存在严重来源问题,五分之一包含重大准确性错误,14% 缺乏足够语境。助手几乎从不拒绝回答——只有 0.5% 的提示遭到拒绝——凸显了在信息不稳固时也要自信发言的商业推动。对市场而言,问题很直接:如果信任是新闻的通货,那么交易有缺陷摘要的平台的折现率是多少?
研究人员对 ChatGPT、Copilot、Gemini 和 Perplexity 在多语言下进行一系列核心和定制问题测试,然后按照准确性、来源、观点与事实的区分以及语境进行评分。最常见的失败是来源——缺失、误导或归属错误——其次是完全的事实性错误和过时细节。该研究发布之际,另一份 BBC 报告显示,仅略多于三分之一的英国成年人完全信任 AI 能生成准确摘要,35 岁以下人群则接近一半。错误应用的信任对 AI 开发者和被其总结的新闻品牌都是负担。正如 BBC 的 Peter Archer 所言,人们必须信任他们所读、所看、所见的内容——当不能信任时,他们既怪罪 AI 供应商,也怪罪出版方。对于那些将 AI 回答缝合进搜索、信息流和助手的上市平台而言,风险不仅是声誉风险;还涉及监管和收入相关问题。
Alphabet、Microsoft、Amazon 和 Meta 正在将生成式答案嵌入搜索结果、浏览器、操作系统和信息服务中。该策略承诺更快的会话、更高的参与度和新的广告形式,但也集中化了责任。如果按研究定义近一半的与新闻相关的答案有缺陷,货币化路径将变窄,而诉讼和合规成本路径将变宽。对 Alphabet 来说,Gemini 的异常表现加剧了审查,恰逢 Search Generative Experience 迁移到主流界面。对 Microsoft 来说,Copilot 正成为 Office 内企业知识和新闻消费的前门,其中准确性声明带来采购风险。Amazon 正在将 AI 编织进购物和 Alexa,而 Meta 则在 Facebook 和 Instagram 内使用 AI 进行摘要和内容推荐。若监管机构决定通过 AI 介导的新闻传递必须达到出版方级别的来源与更正标准,每家公司都将直接或通过合作伙伴面临风险。
信任是可衡量的广告定价和点击率驱动因素。如果消费者越来越多通过会错误归因或虚构信息的 AI 答案接触新闻,将产生三种后果。首先,品牌可能会在政治或危机新闻周期中犹豫是否在与 AI 生成的实时事件摘要相邻的位置投放广告,从而压低溢价定价。其次,如果答案具有误导性,搜索和社交可能出现较低的用户满意度和更高的跳出率,稀释生成式位置的价值。第三,作为原始素材的出版方将加大对许可费和更严格执法的要求,提高平台的流量获取和数据成本。悖论在于:助手很少说不。数据集中仅有 0.5% 涉及拒答,这意味着系统会自信地用某些内容填补沉默。这种自信是增长引擎,直到它不再是。
这并非空白地带。EBU 及其成员已在敦促欧盟和各国监管机构加强对现有信息完整性、数字服务和媒体多元性规则的执法。该区域运营的平台须履行有关风险评估、透明度报告和系统性风险缓解的义务,违规将面临严厉处罚。若有报告将失败描述为系统性、跨境且多语言,这正是监管者用以证明加强监督的框架。独立监测很可能成为一个经常性的特征,而非一次性审计。对投资者而言,这意味着经常性的合规开支、更慢推出高频特性,以及可能对新闻周围的广告形式施加限制。简言之,在欧洲,AI 整合的搜索和社交面临更高的监管贝塔,随着政治审查在 2026 年升级,这种影响将蔓延到美国。
该研究增强了出版方在数据、链接和摘要许可谈判中的杠杆。如果 AI 摘要通过弄错引用或语境损害品牌信任,出版方将要求更严格的控制或更高的付费——或两者兼施。预计会更多坚持可核查的引用、默认提供来源链接,以及执行摘录限制的机器可读信号。自动化更正机制可能成为桌面标配:可将出版方更新近实时传播到 AI 回答的标记。由 EBU 支持的 News Integrity in AI Assistants Toolkit 是设定护栏的早期尝试。对于平台,成本曲线在上移:更多法律审查、更多安全层级以及更结构化的数据合同。对投资者而言,除非通过更好的广告收益或订阅绑定抵消,否则这将压缩 AI 增强新闻界面的利润率。
在信息每小时变化的突发事件中,风险最为明显。本周发生的高调卢浮宫珠宝劫案——一批未投保的珍宝在精心策划的行动中被劫走,目前约有 100 名调查人员介入——占据了信息流并衍生出快速变化的细节。这类故事是 AI 助手急于去总结的。病毒式传播时的错误归因或过时说法可能对保险商、安全供应商、旅游与文化类公司等市场产生连锁反应。即便没有价格波动,风险也显而易见:错误事实广泛传播、更正滞后且信任被侵蚀。BBC-EBU 发现助手在不确定时几乎从不推迟回答,这预示着更多此类压力测试将到来。当新闻快速变化时,一个默认给出答案而非引用或推迟回答的系统,是伪装成便利性的风险。
下一步的操作手册已可见端倪。预计 AI 回答中会有更明确的引用、对新闻来源更严格的白名单,以及更清晰地区分分析与报道的标签。关注那些允许实时更新与更正传播的出版方选配合作,以及由独立机构运行、每季度公开给助手打分的审计机制。产品团队会在高频新闻场景下将拒答阈值上调,哪怕以牺牲参与度为代价。如果这些修复反映在使用与广告指标上——投诉率降低、对被引用来源的点击率上升——信任折扣将缩小。若不然,监管阴影将加重。无论如何,近期的投资问题是:AI 驱动的答案框能否比为 GOOGL、MSFT、AMZN 和 META 带来更高成本和更严格审查之前更快地提升收入。
AI 助手正成为年轻用户获取新闻的主要通道,而这是行业需要留住的群体。然而最新数据表明,这些系统在基本的新闻室纪律上表现不佳:核实、归属、情境化。投资者不要求完美,但需要一条可信的路径,将今日的错误率带到可接受的常态。接下来的几个季度将检验平台是否能在监管者和出版方替他们“修复”之前,自己设计出这条路径。在一个以时间和金钱奖励信任的市场中,搞错新闻是一个可衡量、可货币化的风险。