GR4AD

Generative Recommendation for Large-Scale Advertising

这篇论文展示了一套真正可线上部署的广告生成式推荐系统。 它不是把传统推荐简单套上 LLM 外壳,而是围绕 表示层、学习层、服务层 做了完整共设计:用 UA-SID 重写广告 tokenization, 用 VSL + RSPO 把用户兴趣与商业价值统一到训练目标中, 再用 LazyAR + Dynamic Beam Serving 把生成式推荐拉回现实的时延与吞吐预算内。 最终系统已在快手广告场景落地,服务超过 4 亿用户,线上 A/B 收入最高提升 4.2%。

+4.2%
广告收入最高提升
4 亿+
服务用户规模
500+
QPS / L20
<100ms
线上延迟

🚀 核心创新

广告生成式推荐不是 LLM 配方的直接复用
论文指出,广告系统与通用文本生成有三点本质不同:
广告 tokenization 更复杂,因为 item 同时包含创意、商品、广告主和转化目标等多粒度信号。
优化目标是带商业价值约束的排序列表,而不是单个 token 的似然。
线上服务约束极强,需要在严格时延预算下生成多个高质量候选。

所以 `GR4AD` 真正解决的问题,不是“把推荐做成生成”,而是把广告生产系统重新设计成一个生成式、可持续在线更新的闭环。
三层共设计:表示层、学习层、服务层
`GR4AD` 的核心不在单点 trick,而在三层联动:
表示层:`UA-SID` 统一编码多模态内容、协同关系和业务属性。
学习层:`VSL + RSPO` 把兴趣建模和价值优化整合进同一训练流。
服务层:`LazyAR`、`DBS`、结果缓存和 beam-shared KV caching 把系统推进生产级吞吐。

这让论文不像传统推荐模型论文,更像一篇工业级生成式推荐系统总方案
最有说服力的部分:它真的已经在线上跑起来了
很多生成式推荐论文停留在离线指标或局部实验,但这篇论文直接给出生产部署结果:
• 收入相对 DLRM 基线最高提升 4.2%
• 实际服务快手广告全量大规模流量
• 在较强资源约束下仍能做到 500+ QPS / L20<100ms 延迟

这意味着生成式推荐在广告场景里,已经从“可研究”进入“值得替换传统栈”的阶段。
GR4AD 总览图
Figure 1: GR4AD 的整体架构与学习算法总览。

🧠 表示层:UA-SID

把广告从静态 item ID 变成可生成的统一语义 ID

1
先训练真正懂广告的 `UAE`
Instruction Tuning + Co-occurrence Learning
论文没有直接拿通用多模态 embedding 做量化,而是先构建 `UAE`(Unified Advertisement Embedding)。

两步增强:
• `Instruction Tuning`:让模型针对直播、实物商品、虚拟服务、广告视频等不同广告形态建立理解。
• `Co-occurrence Learning`:把用户行为共现关系注入表示层,让 embedding 不只懂“内容像不像”,还懂“哪些广告在真实行为里相关”。

这一步的本质,是先获得一个真正懂广告场景的底层表征,而不是一个只会看视觉和文本的通用 embedding。
2
MR + MG:减少 collision,提升 codebook 利用率
Multi-Resolution + Multi-Granularity
作者在量化阶段做了两个非常工业化的改造:
MR:前层给更大 codebook,后层给更小 codebook,让主导语义尽早分开。
MG:最后一层引入业务数值特征的 hash 映射,缓解仅凭内容语义导致的 SID 冲突。

这点在广告里尤其重要,因为两个创意很像的广告,可能因为账户、转化目标、投放策略不同而表现完全不同。 `UA-SID` 的高明之处在于:它不是纯语义离散化,而是把内容语义、协同关系、业务属性三者统一进 token 系统里。
UA-SID 示意图
Figure 2: UA-SID 统一广告语义 ID,把多模态与业务信号压缩成可生成 token。

⚙️ 解码与服务层

生成式推荐要落地,核心在于把 beam search 的代价压回生产预算

LazyAR:不是所有层都要严格自回归
`LazyAR`(Lazy AutoRegression)把“依赖上一个 token”的位置推迟到中间层:前 `K` 层只看位置和上下文,不看上一个 SID;之后再把 `s_(t-1)` 注入后半段解码器。

收益非常直接:
• 前 `K` 层可在不同生成层和不同 beam 间共享,显著减少重复计算。
• 第一层 token 的完整深度仍被保留,因此最关键的早期决策不容易掉。
• 配合辅助 `MTP` loss,前部共享层仍能学习到足够强的潜在表示。

这是一个典型的推荐场景特化优化,因为广告生成序列短、beam search 重、后层更像候选细化。
DBS:把 beam 预算和线上流量动态耦合
`Dynamic Beam Serving` 包括两个核心组件:
• `DBW`:不同生成层不再使用固定 beam,而是用类似 `[128, 256, 512]` 的递增策略,把预算集中在更重要的后层。
• `TABS`:根据线上即时 QPS 调整 beam 宽度,在低峰时放大搜索预算,用闲置算力换取更高收益。

这体现出很强的工业系统思维:不是追求静态最优,而是追求在流量波动下的动态最优
完整服务优化栈
除了 `LazyAR` 和 `DBS`,论文还补齐了多个关键工程优化:
• Beam-shared KV Cache:减少跨 beam 的冗余 KV 访问。
• TopK Pre-Cut:先分 beam 做局部 top-k,再做全局选择,提升并行度。
• FP8 低精度推理:进一步降低算力和带宽成本。
• Reco Result Cache:短时间窗口内直接重用推荐结果。

这些模块共同决定了 `GR4AD` 不是一个“能跑 demo 的模型”,而是一套可承载全量流量的线上推荐服务。
LazyAR 对比图
Figure 3: Vanilla AR、DeepSeek MTP 与 LazyAR 的对比,重点在于延迟注入 autoregressive dependency。

📚 学习层:VSL + RSPO

1
VSL:监督学习目标从“拟合点击”变成“价值感知”
Value-Aware Supervised Learning
`VSL` 在传统 next-token prediction 之外加入两类强化:
eCPM token prediction:把连续 eCPM 离散成 bucket,在 UA-SID 后额外预测价值 token。
value-aware sample weighting:按用户长期广告价值和行为深度给样本加权。

这相当于把广告系统里本来分散在 ranker、样本工程和业务规则里的经验, 直接写进生成模型训练目标,让模型学到的不只是“像不像用户点过的内容”,而是“哪些候选更有商业价值”。
2
RSPO:把 RL 从 pairwise 拉回 listwise ranking
Ranking-Guided Softmax Preference Optimization
这是我认为论文最有意思的部分。作者没有直接照搬 `DPO / GRPO`,而是意识到广告推荐天然优化的是排序列表

所以 `RSPO` 的核心不是构造 chosen/rejected pair,而是:
• 保持高价值 item 在生成概率上高于低价值 item;
• 让目标更接近 `NDCG` 一类 listwise ranking metric;
• 通过 ranking-guided 的 softmax 形式把排序结构写进 RL 优化。

这让 RL 更像 recommender system 的优化,而不是聊天模型偏好学习的简单移植。
3
Unified VSL + RSPO:在线广告不能分阶段训练
持续更新、非平稳环境下的统一学习
广告环境是持续变化的,不能像 LLM 那样先预训练、再 SFT、再单独 RL。

论文的统一训练流中:
• `VSL` 负责稳定建模用户兴趣分布;
• `RSPO` 负责在不偏离兴趣分布太远的前提下推高商业价值;
• sample-level alignment score 用来动态平衡 imitation 和 exploration。

这点非常工业化,因为现实广告系统最怕 RL 把分布“训飘”,而 unified learning 就是在做更安全的在线探索

🏭 生产部署闭环

不是只有模型,而是完整系统闭环
`GR4AD` 把训练、索引和服务都串起来了:
Reward System:在宽松时延下做更大 beam 和探索,产出 RL 奖励日志。
Online Learning:实时吸收请求与交互流,持续更新 `VSL + RSPO`。
Realtime Index:维护 `UA-SID ↔ Item ID` 双向映射,支持新 item 秒级进入系统。
Realtime Serving:在线请求实时生成候选并返回排序结果。

其中最关键的一点是:`SID-based index` 不再像传统 embedding retrieval 那样依赖频繁重建索引,这对广告冷启动与素材新鲜度非常重要。
训练与服务闭环
Figure 4: 训练、索引、实时服务和奖励系统组成的生产闭环。

📊 线上效果与 Scaling Law

从基线到 GR4AD 的收益爬升
模型设置 相对 DLRM 收入提升 相对 GR-Base QPS
OneRec-V2 (GR-Base) +1.68% -
+ UA-SID +1.92% 0%
+ VSL +2.80% -25%
+ VSL + RSPO +3.86% -25%
+ Unified VSL & RSPO +4.01% -25%
+ UVR + DBS +4.32% +20%
GR4AD (+ UVR + DBS + LazyAR) +4.28% +117%
这个表最强的地方在于,它展示的是沿完整系统链路逐层累加后的真实线上收益,而不是局部离线 ablation。
Scaling Law:模型更大、beam 更宽,收入继续涨
论文给出了两条很像 LLM 的扩展规律:
模型 scaling:从 `0.03B` 到 `0.32B`,收入单调提升。
推理 scaling:在固定模型规模下,beam 从 `128` 增长到 `1024`,收入持续上涨。

这说明广告生成式推荐的长期路线非常清楚:
训练时扩展模型容量,推理时扩展搜索预算
只要服务层效率还能继续优化,这条路的商业回报仍有空间。
Scaling law 图
Figure 5: 模型规模和 beam 宽度都表现出清晰的收入提升趋势。

💡 我的阅读结论

`UA-SID` 的真正价值是“语义 + 业务”统一建模
很多人看到 Semantic ID,第一反应是“把 item embedding 离散化”。但广告不一样,广告系统的复杂性来自内容、账户、投放目标和商业价值的交织。 `UA-SID` 高级的地方,是它把多模态语义、协同关系、业务字段全部压进了同一套 token 体系里,这才让后续生成模型真正“懂广告”。
`LazyAR` 是很典型的推荐问题特化创新
它并不是一个对所有生成任务都通用的 decoder trick,而是建立在“短序列、多候选、强 beam 搜索、早期 token 更关键”的推荐特性之上。 这类工作比单纯搬运 LLM 技巧更有价值,因为它体现出对推荐任务结构本身的理解。
`RSPO` 说明生成式推荐的 RL 应该回归推荐目标
推荐不是对话,广告也不是 chat alignment。`RSPO` 最重要的意义在于:它让 RL 不再模仿对话模型偏好学习,而是重新把 listwise ranking 拉回优化中心。这是生成式推荐下一步很关键的方向。
这篇论文的真正分量,在于“效果”和“可部署性”同时成立
许多推荐论文只能做到两件事中的一件:要么效果强、要么工程强。`GR4AD` 难得地把两边都做成了。它不是一个漂亮的模型点子,而是一套 可以替换传统广告工业栈的系统方案
局限性与后续方向
• `LazyAR` 带来巨大吞吐收益,但仍存在轻微效果 trade-off。
• `RSPO` 的效果仍依赖 reward system 质量,奖励偏差会直接影响在线更新方向。
• `UA-SID` 在不同广告平台和业务形态下的泛化能力,还需要更多跨域验证。
• beam 扩大虽然继续带来收益,但也持续抬高服务成本。

值得继续关注的方向包括:更强的 value-aware objective、更保守稳定的 online RL、生成式与传统检索混合架构,以及面向推荐的更专用解码器设计。
一句话总结
`GR4AD` 证明了生成式推荐在广告场景里已经不只是“模型范式创新”,而是一套从 tokenization、训练目标到在线服务都能真正替换传统工业栈的系统方案。 下一代广告推荐系统,很可能会越来越像一个可生成、可搜索、可持续在线优化的统一决策系统。
论文信息
标题:Generative Recommendation for Large-Scale Advertising
作者:Ben Xue 等,Kuaishou Technology
发布时间:2026 年
核心对象:大规模实时广告推荐
关键词:`GR4AD` | `UA-SID` | `LazyAR` | `VSL` | `RSPO` | `Dynamic Beam Serving`