← 返回研究 AI 安全 · 推荐智能体 · 2026 年 6 月

SafeGEO

当年竞价排名把莆田系医院推到患者面前;如今推荐入口换成 AI 助手,同样的故事会不会重演?SafeGEO 给出第一组系统测量。

arXiv 已提交 · 链接即将更新
600推荐案例
22GEO 攻击变体
40,800物化样本
83.2%最高有害推荐提升
39.2%最高 Target@3 防御降幅

如今越来越多的购买决策,从向 AI 助手提一个问题开始:“哪款空气净化器值得买?”卖家们同样注意到了这一点——网页文案正越来越多地写给 AI 阅读,这种做法有个名字:生成式引擎优化(GEO,Generative Engine Optimization),相当于 AI 时代的 SEO(搜索引擎优化)。SafeGEO 要测量的问题随之而来:当一款有真实缺陷的商品把页面包装成“独立选购指南”,替用户做推荐的智能体能否守住判断?

SafeGEO 论文概览:卖家可控来源通过 GEO 改写影响推荐智能体,导致有缺陷目标商品进入推荐集合。
论文概览。SafeGEO 关注的对象是推荐链路:GEO 文本改变了智能体看到的证据平衡,把有缺陷目标商品推入推荐集合。

当网页文案写给 AI 看

推荐智能体(代替用户检索、比较并给出建议的 AI 系统)正在成为电商与内容平台的新入口。它的判断依据是网上能读到的材料——商品页、评测、FAQ;其中商品页这类卖家可控来源(由卖家自己撰写的信息源),天然存在被优化甚至被操纵的动机。

标题里的故事值得展开。十多年前的竞价排名时代,“平台被卖家优化、代价由用户承担”的剧本已经上演过一次:急于求医的患者,被推向出价最高而非医术最好的医院。如今入口从搜索框换成 AI 助手,同样的博弈换了一个战场——决定排名的不再是关键词出价,而是 AI 读到的“证据”。

GEO 本身并不必然有害:把页面写得更清楚,对人和 AI 都是好事。问题在于边界——当改写开始掩盖缺陷、伪造口碑、冒充“独立评测”时,智能体读到的证据就被系统性污染了。SafeGEO 是对这一风险的第一组受控测量:攻击能把推荐推离用户利益多远,现有防御又能挡回多少。

一个可控的测试场

SafeGEO 覆盖 6 类需要证据支撑的推荐垂直场景,包括 AI 会议转写工具、婴儿监视器、登机背包、空气净化器、降噪耳机和办公椅。每个案例固定候选商品、真实属性、非目标证据和隐藏效用标签(评测者掌握、模型看不到的商品真实优劣标注),只改写一个卖家可控来源——推荐结果的任何变化,都能干净地归因到这一处改写。

推荐案例600
平均候选商品数19.96
每案例 GEO 目标3
攻击变体22
总样本数40,800
评测指标Target@3、HCV@1、GT@3、uNDCG@5

基准统计。每个基础案例会展开为控制条件与攻击条件,保证推荐变化可以归因到单个被改写的卖家来源。

评测使用四个指标:Target@3(被攻击的缺陷商品进入前三推荐的比例)、HCV@1(缺陷商品占据推荐首位的比例)、GT@3(真正优质的商品仍留在前三的比例)和 uNDCG@5(前五推荐与用户真实效用的匹配程度)。40,800 个物化样本(同一案例在不同攻击条件下展开成的具体评测实例)保证每个条件都能两两对照。

SafeGEO 数据集构造流程:推荐场景、候选集合、隐藏效用与证据标注、GEO 攻击构造、实例物化和评测。
数据集构造流程。候选集合、隐藏效用与非目标证据保持不变;GEO 只改写一个目标商品的卖家可控来源。
条件平均源文本长度
No GEO3,911 [3,901, 3,921]
Truthful-rewrite3,905 [3,895, 3,915]
Avg. GEO, 22 variants3,925 [3,924, 3,926]

源文本长度控制。GEO 条件与控制条件长度接近,说明推荐偏移不是简单由更长上下文造成。

攻击能走多远

实验显示,GEO 攻击可以显著推动有缺陷目标商品进入推荐集。真实卖家页面风格的攻击尤其强:它们把错误适配、证据包装和显著性操控写成一篇看似可信的卖家材料,而非机械堆叠关键词。以 DeepSeek-V4-Flash 为例,无攻击时缺陷商品进入前三的比例只有 6.2%;换上“选择性对比笔记”式的真实风格攻击后,升至 82.3%。

22 类 GEO 攻击变体的 Target@3 uplift 柱状图,真实风格攻击整体最强。
22 类攻击变体的 Target@3 uplift。真实风格攻击整体最强,说明“像一篇可信卖家材料”比机械堆叠操控原语更危险。
代表性真实风格 GEO 攻击结果(DeepSeek-V4-Flash)
SettingTarget@3ΔHCV@1ΔGT@3ΔuNDCG@5Δ
No GEO6.2--24.5--66.7--77.0--
Truthful-rewrite control4.6--23.0--67.7--78.8--
Caveat-buried FAQ77.5+72.976.2+53.257.7-10.066.3-12.5
Popularity-heavy profile71.2+66.671.4+48.457.6-10.167.3-11.5
Citation-padded note78.7+74.178.4+55.458.1-9.666.2-12.7
Independent buyer guide77.9+73.377.3+54.356.5-11.266.0-12.9
False-fit checklist79.1+74.678.4+55.457.7-9.966.1-12.7
Selective comparison note82.3+77.781.8+58.856.9-10.865.4-13.5
Avg. realistic72.6+68.073.4+50.457.7-10.066.9-11.9
真实风格变体会同时提高 Target@3 和 HCV@1,并降低 utility quality。

机制上,攻击的成败几乎完全取决于能否“劫持”智能体的引用:攻击越能把模型引用导向误导性内容,缺陷商品的排名就越高——二者的相关性达到 r=0.91。

误导性 GEO 引用率和 Target@3 的散点图,显示二者高度相关。
机制分析。攻击越能把模型引用导向误导性 GEO 行,Target@3 越高;论文报告相关性达到 r=0.91。

防御能挡回多少

简单防御有帮助,但不充分。防御性提示(在指令中明确要求警惕营销操纵)能降低有害推荐;证据拆解(evidence breakdown——要求智能体在最终排序前列明每条候选的证据支持、缺失或冲突)效果最强,在 Qwen3.6 27B 上把 Target@3 压低 39.2 个百分点。但即便最强的防御,也无法把推荐完全恢复到无攻击水平。

Gemma 4 31B IT 上不同防御层对真实风格攻击的 Target@3 降幅热力图。
变体级防御效果。L3 Evidence sheet 的覆盖最广、降幅最大;提示级防御有用,但效果更不均匀。
同一批攻击实例上的防御效果(节选)
ModelMitigationTarget@3ΔHCV@1ΔGT@3ΔuNDCG@5Δ
Gemma 4 31B ITNo mitigation79.6--75.6--67.9--68.6--
Gemma 4 31B ITDefensive prompt64.5-15.160.8-14.869.3+1.372.6+4.0
Gemma 4 31B ITEvidence breakdown49.9-29.746.6-29.169.5+1.674.4+5.7
Qwen3.6 27BNo mitigation78.3--83.7--60.8--63.6--
Qwen3.6 27BDefensive prompt67.3-11.066.2-17.568.5+7.673.4+9.8
Qwen3.6 27BEvidence breakdown39.1-39.242.1-41.669.7+8.877.4+13.9
Devstral Small 2No mitigation90.9--90.7--47.9--59.2--
Devstral Small 2Evidence breakdown73.2-17.778.9-11.843.4-4.556.3-2.8
证据拆解通常是最强防御,但仍无法把推荐完全恢复到 No GEO 水平。

给智能体安全的提醒

把 GEO 风险具体化。从抽象的“可见度优化”落到推荐智能体如何选择商品。
评估卖家可控内容。关注真实推荐链路里容易被优化和操纵的信息源。
提示防御仍不充分。简单防御有效但不彻底,说明 GEO 仍是严肃的智能体安全问题。