GR4AD

Generative Recommendation for Large-Scale Advertising

这篇论文展示了一套真正可线上部署的广告生成式推荐系统。它不是把传统推荐简单套上 LLM 外壳，而是围绕表示层、学习层、服务层做了完整共设计：用 UA-SID 重写广告 tokenization，用 VSL + RSPO 把用户兴趣与商业价值统一到训练目标中，再用 LazyAR + Dynamic Beam Serving 把生成式推荐拉回现实的时延与吞吐预算内。最终系统已在快手广告场景落地，服务超过 4 亿用户，线上 A/B 收入最高提升 4.2%。

+4.2%

广告收入最高提升

4 亿+

服务用户规模

500+

QPS / L20

<100ms

线上延迟

🚀 核心创新

广告生成式推荐不是 LLM 配方的直接复用

论文指出，广告系统与通用文本生成有三点本质不同：
• 广告 tokenization 更复杂，因为 item 同时包含创意、商品、广告主和转化目标等多粒度信号。
• 优化目标是带商业价值约束的排序列表，而不是单个 token 的似然。
• 线上服务约束极强，需要在严格时延预算下生成多个高质量候选。

所以 `GR4AD` 真正解决的问题，不是“把推荐做成生成”，而是把广告生产系统重新设计成一个生成式、可持续在线更新的闭环。

三层共设计：表示层、学习层、服务层

`GR4AD` 的核心不在单点 trick，而在三层联动：
• 表示层：`UA-SID` 统一编码多模态内容、协同关系和业务属性。
• 学习层：`VSL + RSPO` 把兴趣建模和价值优化整合进同一训练流。
• 服务层：`LazyAR`、`DBS`、结果缓存和 beam-shared KV caching 把系统推进生产级吞吐。

这让论文不像传统推荐模型论文，更像一篇工业级生成式推荐系统总方案。

最有说服力的部分：它真的已经在线上跑起来了

很多生成式推荐论文停留在离线指标或局部实验，但这篇论文直接给出生产部署结果：
• 收入相对 DLRM 基线最高提升 4.2%
• 实际服务快手广告全量大规模流量
• 在较强资源约束下仍能做到 500+ QPS / L20 和 <100ms 延迟

这意味着生成式推荐在广告场景里，已经从“可研究”进入“值得替换传统栈”的阶段。

Figure 1: GR4AD 的整体架构与学习算法总览。

🧠 表示层：UA-SID

把广告从静态 item ID 变成可生成的统一语义 ID

先训练真正懂广告的 `UAE`

Instruction Tuning + Co-occurrence Learning

论文没有直接拿通用多模态 embedding 做量化，而是先构建 `UAE`（Unified Advertisement Embedding）。

两步增强：
• `Instruction Tuning`：让模型针对直播、实物商品、虚拟服务、广告视频等不同广告形态建立理解。
• `Co-occurrence Learning`：把用户行为共现关系注入表示层，让 embedding 不只懂“内容像不像”，还懂“哪些广告在真实行为里相关”。

这一步的本质，是先获得一个真正懂广告场景的底层表征，而不是一个只会看视觉和文本的通用 embedding。

MR + MG：减少 collision，提升 codebook 利用率

Multi-Resolution + Multi-Granularity

作者在量化阶段做了两个非常工业化的改造：
• MR：前层给更大 codebook，后层给更小 codebook，让主导语义尽早分开。
• MG：最后一层引入业务数值特征的 hash 映射，缓解仅凭内容语义导致的 SID 冲突。

这点在广告里尤其重要，因为两个创意很像的广告，可能因为账户、转化目标、投放策略不同而表现完全不同。 `UA-SID` 的高明之处在于：它不是纯语义离散化，而是把内容语义、协同关系、业务属性三者统一进 token 系统里。

Figure 2: UA-SID 统一广告语义 ID，把多模态与业务信号压缩成可生成 token。

⚙️ 解码与服务层

生成式推荐要落地，核心在于把 beam search 的代价压回生产预算

LazyAR：不是所有层都要严格自回归

`LazyAR`（Lazy AutoRegression）把“依赖上一个 token”的位置推迟到中间层：前 `K` 层只看位置和上下文，不看上一个 SID；之后再把 `s_(t-1)` 注入后半段解码器。

收益非常直接：
• 前 `K` 层可在不同生成层和不同 beam 间共享，显著减少重复计算。
• 第一层 token 的完整深度仍被保留，因此最关键的早期决策不容易掉。
• 配合辅助 `MTP` loss，前部共享层仍能学习到足够强的潜在表示。

这是一个典型的推荐场景特化优化，因为广告生成序列短、beam search 重、后层更像候选细化。

DBS：把 beam 预算和线上流量动态耦合

`Dynamic Beam Serving` 包括两个核心组件：
• `DBW`：不同生成层不再使用固定 beam，而是用类似 `[128, 256, 512]` 的递增策略，把预算集中在更重要的后层。
• `TABS`：根据线上即时 QPS 调整 beam 宽度，在低峰时放大搜索预算，用闲置算力换取更高收益。

这体现出很强的工业系统思维：不是追求静态最优，而是追求在流量波动下的动态最优。

完整服务优化栈

除了 `LazyAR` 和 `DBS`，论文还补齐了多个关键工程优化：
• Beam-shared KV Cache：减少跨 beam 的冗余 KV 访问。
• TopK Pre-Cut：先分 beam 做局部 top-k，再做全局选择，提升并行度。
• FP8 低精度推理：进一步降低算力和带宽成本。
• Reco Result Cache：短时间窗口内直接重用推荐结果。

这些模块共同决定了 `GR4AD` 不是一个“能跑 demo 的模型”，而是一套可承载全量流量的线上推荐服务。

Figure 3: Vanilla AR、DeepSeek MTP 与 LazyAR 的对比，重点在于延迟注入 autoregressive dependency。

📚 学习层：VSL + RSPO

VSL：监督学习目标从“拟合点击”变成“价值感知”

Value-Aware Supervised Learning

`VSL` 在传统 next-token prediction 之外加入两类强化：
• eCPM token prediction：把连续 eCPM 离散成 bucket，在 UA-SID 后额外预测价值 token。
• value-aware sample weighting：按用户长期广告价值和行为深度给样本加权。

这相当于把广告系统里本来分散在 ranker、样本工程和业务规则里的经验，直接写进生成模型训练目标，让模型学到的不只是“像不像用户点过的内容”，而是“哪些候选更有商业价值”。

RSPO：把 RL 从 pairwise 拉回 listwise ranking

Ranking-Guided Softmax Preference Optimization

这是我认为论文最有意思的部分。作者没有直接照搬 `DPO / GRPO`，而是意识到广告推荐天然优化的是排序列表。

所以 `RSPO` 的核心不是构造 chosen/rejected pair，而是：
• 保持高价值 item 在生成概率上高于低价值 item；
• 让目标更接近 `NDCG` 一类 listwise ranking metric；
• 通过 ranking-guided 的 softmax 形式把排序结构写进 RL 优化。

这让 RL 更像 recommender system 的优化，而不是聊天模型偏好学习的简单移植。

Unified VSL + RSPO：在线广告不能分阶段训练

持续更新、非平稳环境下的统一学习

广告环境是持续变化的，不能像 LLM 那样先预训练、再 SFT、再单独 RL。

论文的统一训练流中：
• `VSL` 负责稳定建模用户兴趣分布；
• `RSPO` 负责在不偏离兴趣分布太远的前提下推高商业价值；
• sample-level alignment score 用来动态平衡 imitation 和 exploration。

这点非常工业化，因为现实广告系统最怕 RL 把分布“训飘”，而 unified learning 就是在做更安全的在线探索。

🏭 生产部署闭环

不是只有模型，而是完整系统闭环

`GR4AD` 把训练、索引和服务都串起来了：
• Reward System：在宽松时延下做更大 beam 和探索，产出 RL 奖励日志。
• Online Learning：实时吸收请求与交互流，持续更新 `VSL + RSPO`。
• Realtime Index：维护 `UA-SID ↔ Item ID` 双向映射，支持新 item 秒级进入系统。
• Realtime Serving：在线请求实时生成候选并返回排序结果。

其中最关键的一点是：`SID-based index` 不再像传统 embedding retrieval 那样依赖频繁重建索引，这对广告冷启动与素材新鲜度非常重要。

Figure 4: 训练、索引、实时服务和奖励系统组成的生产闭环。

📊 线上效果与 Scaling Law

从基线到 GR4AD 的收益爬升

模型设置	相对 DLRM 收入提升	相对 GR-Base QPS
OneRec-V2 (GR-Base)	+1.68%	-
+ UA-SID	+1.92%	0%
+ VSL	+2.80%	-25%
+ VSL + RSPO	+3.86%	-25%
+ Unified VSL & RSPO	+4.01%	-25%
+ UVR + DBS	+4.32%	+20%
GR4AD (+ UVR + DBS + LazyAR)	+4.28%	+117%

这个表最强的地方在于，它展示的是沿完整系统链路逐层累加后的真实线上收益，而不是局部离线 ablation。

Scaling Law：模型更大、beam 更宽，收入继续涨

论文给出了两条很像 LLM 的扩展规律：
• 模型 scaling：从 `0.03B` 到 `0.32B`，收入单调提升。
• 推理 scaling：在固定模型规模下，beam 从 `128` 增长到 `1024`，收入持续上涨。

这说明广告生成式推荐的长期路线非常清楚：
训练时扩展模型容量，推理时扩展搜索预算。
只要服务层效率还能继续优化，这条路的商业回报仍有空间。

Figure 5: 模型规模和 beam 宽度都表现出清晰的收入提升趋势。

💡 我的阅读结论

`UA-SID` 的真正价值是“语义 + 业务”统一建模

很多人看到 Semantic ID，第一反应是“把 item embedding 离散化”。但广告不一样，广告系统的复杂性来自内容、账户、投放目标和商业价值的交织。 `UA-SID` 高级的地方，是它把多模态语义、协同关系、业务字段全部压进了同一套 token 体系里，这才让后续生成模型真正“懂广告”。

`LazyAR` 是很典型的推荐问题特化创新

它并不是一个对所有生成任务都通用的 decoder trick，而是建立在“短序列、多候选、强 beam 搜索、早期 token 更关键”的推荐特性之上。这类工作比单纯搬运 LLM 技巧更有价值，因为它体现出对推荐任务结构本身的理解。

`RSPO` 说明生成式推荐的 RL 应该回归推荐目标

推荐不是对话，广告也不是 chat alignment。`RSPO` 最重要的意义在于：它让 RL 不再模仿对话模型偏好学习，而是重新把 listwise ranking 拉回优化中心。这是生成式推荐下一步很关键的方向。

这篇论文的真正分量，在于“效果”和“可部署性”同时成立

许多推荐论文只能做到两件事中的一件：要么效果强、要么工程强。`GR4AD` 难得地把两边都做成了。它不是一个漂亮的模型点子，而是一套可以替换传统广告工业栈的系统方案。

局限性与后续方向

• `LazyAR` 带来巨大吞吐收益，但仍存在轻微效果 trade-off。
• `RSPO` 的效果仍依赖 reward system 质量，奖励偏差会直接影响在线更新方向。
• `UA-SID` 在不同广告平台和业务形态下的泛化能力，还需要更多跨域验证。
• beam 扩大虽然继续带来收益，但也持续抬高服务成本。

值得继续关注的方向包括：更强的 value-aware objective、更保守稳定的 online RL、生成式与传统检索混合架构，以及面向推荐的更专用解码器设计。

一句话总结

`GR4AD` 证明了生成式推荐在广告场景里已经不只是“模型范式创新”，而是一套从 tokenization、训练目标到在线服务都能真正替换传统工业栈的系统方案。下一代广告推荐系统，很可能会越来越像一个可生成、可搜索、可持续在线优化的统一决策系统。

论文信息