KIMI K2.5

Visual Agentic Intelligence — 视觉智能体革命

Moonshot AI 开源的首个多模态智能体模型，标志着通用智能体(General Agentic Intelligence)的重大突破。 K2.5 实现了文本与视觉的联合优化，让两种模态相互增强而非相互妥协。更令人惊艳的是其创新性的 Agent Swarm（智能体群）框架—— 通过并行编排多个专业化子智能体，在广域搜索场景中将推理延迟降低高达 4.5 倍，同时将 Item-F1 从 72.8% 提升至 79.0%。这一突破彻底改变了传统智能体"串行执行"的瓶颈。

1.04T

总参数量

15T

预训练 Token 数

4.5x

Agent Swarm 延迟降低

256K

上下文长度

🚀 核心创新

文本与视觉的联合优化

K2.5 打破了传统多模态模型的"后融合"范式。以往的视觉-语言模型通常在文本 LLM 训练后期才引入视觉 Token，这种做法本质上是把多模态能力当作"附加功能"。

颠覆性发现：通过大规模消融实验发现——
• 早期以较低比例融合视觉，效果反而最佳
• 在固定总 Token 预算下，视觉比例对最终性能影响极小
• 早期融合让模型从一开始就学习统一的多模态表示空间
• 避免了后期"模态域迁移"造成的表示崩溃

Zero-Vision SFT：文本激活视觉能力

这是 K2.5 最违反直觉的创新之一：在监督微调阶段，只用文本数据就能激活视觉推理和工具使用能力。

为什么可行？
• 预训练阶段已经建立了强大的视觉-文本对齐
• 能力可以自然地跨模态泛化
• 所有图像操作都通过 IPython 中的程序化操作代理
• 通过二值化和计数进行像素级操作（如物体尺寸估计）

实验表明：零视觉 SFT 的泛化性能优于传统的文本-视觉联合 SFT。

惊人发现：视觉 RL 提升文本能力

K2.5 在后训练阶段采用了联合 RL 策略，令人震惊的是：视觉 RL 不仅没有损害文本性能，反而显著提升了它。

性能提升：
• MMLU-Pro：84.7 → 86.4 (+1.7)
• GPQA-Diamond：84.3 → 86.4 (+2.1)
• LongBench v2：56.7 → 58.9 (+2.2)

原因分析：
视觉 RL 增强了模型在结构化信息提取方面的校准能力，降低了对类似视觉定位推理的查询的不确定性。这表明视觉 RL 贡献了跨模态泛化能力，改善文本推理而不会退化语言能力。

🐝 Agent Swarm：并行智能体编排

彻底改变传统智能体"串行执行"的瓶颈

传统智能体的致命缺陷

传统智能体系统的致命缺陷是串行执行推理和工具调用步骤。即使是能进行数百步推理的系统（如 Kimi K2-Thinking），也受困于线性时间扩展，导致：
• 不可接受的延迟
• 任务复杂度受限
• 当智能体工作负载扩展到大规模研究、设计、开发等场景时，串行范式效率极低

Agent Swarm 架构

Trainable Orchestrator + Frozen Subagents

核心设计：
• 可训练的编排器(Orchestrator)：负责任务分解和调度
• 冻结的子智能体(Frozen Subagents)：从固定的中间策略检查点实例化
• 动态任务分解：将复杂任务拆解为异构子问题
• 并行子任务调度：子智能体并发执行

关键理念：
并行性不是默认有利的——是否、何时、如何并行化，都是通过环境反馈和 RL 驱动的探索显式学习的。

Parallel-Agent RL (PARL)

解耦架构的智慧

为何解耦架构？
避免端到端协同优化的两大挑战：
1. 信用分配模糊性：正确答案不意味着所有子智能体执行完美
2. 训练不稳定性：多智能体联合优化的梯度极不稳定

解决方案：
• 冻结子智能体，将其输出视为环境观测而非可微决策点
• 解耦高层协调逻辑与低层执行熟练度
• 先用小型子智能体训练编排器，再过渡到大型模型

PARL 奖励函数：

r_PARL(x, y) = λ₁ · r_parallel + λ₂ · r_finish + r_perf(x, y)
              ⎣___________⎦   ⎣__________⎦   ⎣__________⎦
              实例化奖励      子智能体完成率    任务级结果

关键步数 (Critical Steps)

显式激励有效并行化

类比计算图中的关键路径，定义并行智能体环境中的时间成本：

CriticalSteps = Σ[t=1 to T] (S_main^(t) + max_i S_sub,i^(t))

核心思想：
• 每个阶段 t，主智能体执行 S_main^(t) 步
• 若并行启动多个子智能体，该阶段持续时间由最长运行的子智能体决定
• 总关键步数 = 所有阶段的关键路径之和

效果：通过约束关键步数而非总步数，框架显式激励有效并行化。良好平衡的任务分解可直接缩短关键步数。

Agent Swarm = 主动上下文管理

超越传统反应式策略

Agent Swarm 本质上是多智能体架构赋能的主动式智能上下文管理，区别于传统反应式策略（Hide-Tool-Result、Summary、Discard-all）。

主动式策略的优势：
• 通过显式编排实现主动上下文控制
• 长期任务分解为并行、语义隔离的子任务
• 每个子智能体有界的局部上下文
• 诱导上下文分片而非上下文截断
• 沿额外架构维度扩展有效上下文长度
• 保持模块化、信息局部性和推理完整性

📊 性能提升

Agent Swarm 性能对比

基准	K2.5 Agent Swarm	K2.5 单智能体	Claude Opus 4.5	GPT-5.2
BrowseComp	78.4	60.6	37.0	65.8
WideSearch	79.0	72.7	76.2	-
In-house Swarm Bench	58.3	41.6	45.8	-

关键发现：
• BrowseComp：+17.8% 绝对提升，超越 GPT-5.2 Pro
• WideSearch：Item-F1 提升 +6.3%，建立新 SOTA
• In-house Swarm Bench：+16.7%（该基准显式奖励并行分解）

在 WideSearch 基准上，Agent Swarm 将达到目标性能的执行时间减少 3× ~ 4.5×

⚡ Token 高效强化学习：Toggle 算法

解决长度过拟合问题

问题：严格预算约束下训练的模型无法泛化到更高计算规模，默认截断推理模式。

Toggle 启发式算法：每 m 次迭代交替两个优化阶段：

Phase 0（预算限制阶段）：
训练模型在任务相关 Token 预算内解决问题，仅当平均准确率超过阈值 λ 时强制执行（防止过早牺牲质量换效率）

Phase 1（标准扩展阶段）：
模型生成响应直至最大 Token 限制，鼓励模型利用计算实现更好的推理时扩展

效果：
• 在所有基准上输出长度平均减少 25~30%
• 性能影响可忽略不计
• 减少 CoT 中的冗余模式（重复验证、机械计算）
• 强域泛化：仅在数学和编程上训练，在 GPQA 和 MMLU-Pro 上也实现一致的 Token 减少

Token 高效 RL 后的性能与 Token 使用对比：实现了效率与性能的完美平衡

🏆 全面评估结果

推理与通用能力

数学推理：
• AIME 2025：96.1%（接近 GPT-5.2 的满分，超越 Claude Opus 4.5 的 92.8%）
• HMMT 2025：95.4%
• IMO-AnswerBench：81.8%

知识与科学推理：
• MMLU-Pro：87.1%
• GPQA-Diamond：87.6%
• SimpleQA Verified：36.9%

HLE（Humanity's Last Exam）：
• 无工具：30.1%（文本 31.5%，图像 21.3%）
• 启用工具：50.2%（文本 51.8%，图像 39.8%）
• 显著超越 Gemini 3 Pro（45.8%）和 GPT-5.2（45.5%）

长上下文：
• LongBench v2：61.0%

复杂编程与软件工程

• SWE-Bench Verified：76.8%
• SWE-Bench Multilingual：73.0%
• LiveCodeBench v6：85.0%（超越 DeepSeekV3.2 的 83.3% 和 Claude Opus 4.5 的 82.2%）
• CyberGym：41.3（在真实开源软件项目中仅根据高层描述查找已知漏洞）
• TerminalBench 2.0：50.8%
• PaperBench (CodeDev)：63.5%
• SciCode：48.7%

智能体能力

BrowseComp：
• 无上下文管理：60.6%
• Discard-all 上下文管理：74.9%
• Agent Swarm：78.4%
• 大幅超越 GPT-5.2 报告的 65.8%
• 显著超越 Claude Opus 4.5（37.0%）和 Gemini 3 Pro（37.8%）

其他智能体基准：
• WideSearch：72.7%（Agent Swarm：79.0%）
• DeepSearchQA：77.1%
• FinSearchComp T2&T3：67.8%
• Seal-0：57.4%

视觉推理、知识与感知

视觉推理：
• MMMU-Pro：78.5%
• MathVision：84.2%
• MathVista (mini)：90.1%
• BabyVision：36.5%

OCR 与文档理解：
• OCRBench：92.3%
• InfoVQA (test)：92.6%
• OmniDocBench 1.5：88.8%
• CharXiv (RQ)：77.5%

视觉感知：
• ZeroBench：9（无工具），11（有工具）
• BLINK：78.9%
• MMVP：87.0%

视频理解

• VideoMMMU：86.6%
• MMVU：80.4%
• MotionBench：70.4%
• Video-MME：87.4%
• LongVideoBench：79.8%（SOTA）
• LVBench：75.9%（SOTA，输入超过 2000 帧）

计算机使用能力

OSWorld-Verified：
• 63.3%（仅依赖 GUI 操作，无外部工具）
• 大幅超越开源模型 Qwen3-VL-235B-A22B（38.1%）
• 超越 OpenAI Operator (o3-based)（42.9%）
• 接近 Claude Opus 4.5（66.3%）

WebArena：
• 58.9%
• 超越 OpenAI Operator（58.1%）
• 接近 Claude Opus 4.5（63.4%）

🏗️ 技术架构亮点

MoonViT-3D：统一图像与视频

核心创新：将 NaViT 的"patch n' pack"理念扩展到时间维度。

工作原理：
• 最多 4 个连续帧视为时空体
• 2D patch 从这些帧中联合展平并打包成单个 1D 序列
• 相同的注意力机制无缝地跨空间和时间运作
• 轻量级时间池化在 MLP 投影器前进行，产生 4× 时间压缩

优势：
• 完全共享参数和嵌入空间
• 从静态图像到动态视频的知识泛化最大化
• 无需专门的视频模块或架构分支
• 可处理长达 4 倍的视频（在相同上下文窗口内）

Decoupled Encoder Process (DEP)

问题：传统多模态训练中，视觉编码器和文本嵌入共处于流水线并行(PP)的第 0 阶段，由于多模态输入大小变化，Stage-0 面临计算负载剧烈波动和内存使用大幅变化。

DEP 三阶段解决方案：
1. 平衡视觉前向：在所有 GPU 上复制小型视觉编码器，均匀分配计算
2. 主干训练：对主 Transformer 主干执行前向和反向传播
3. 视觉重计算与反向：重新计算视觉编码器前向传播并执行反向传播

效果：多模态训练效率达到纯文本训练的 90%

预训练数据的精心设计

文本数据增强：
• 大幅增加仓库级代码（跨文件推理和架构理解）
• Issues、代码审查、提交历史（真实开发模式）
• 从 PDF 和网页语料库检索的代码相关文档

视觉数据（7 大类别）：
1. Caption 数据：基础模态对齐
2. Image-Text Interleaving：来自书籍、网页、教程
3. OCR 数据：跨多语言文本、密集布局、多页文档
4. 知识数据：通过布局解析器处理的学术材料
5. 多模态问题解决语料库：STEM 领域（K-12 到大学）
6. 图像-代码配对数据：HTML、React、SVG 等代码格式
7. 智能体与时间理解：GUI 截图、动作轨迹、视频数据、新的轮廓级分割任务

🌟 对 AGI 的启示

1. 多模态不应是"附加功能"

传统做法：
文本 LLM (强) → 后期加视觉 (妥协) → 多模态模型 (弱)

K2.5 的范式：
文本 + 视觉 (从头联合) → 两者互相增强 → 多模态模型 (强)

启示：真正的多模态 AGI 应该从一开始就以统一方式处理所有模态，而非"拼接"不同模态的专家。

2. 串行智能体的天花板

瓶颈：
• 任务复杂度 ∝ 串行步数
• 延迟 ∝ 串行步数
• 当步数 → 数百步时，延迟 → 不可接受

Agent Swarm 的突破：
• 任务复杂度 ∝ 最长并行分支
• 延迟 ∝ max(各分支)，而非 Σ(各分支)
• 可扩展到极大规模任务

对 AGI 的意义：未来的 AGI 系统必须具备动态编排多个专业化子系统并行工作的能力，这是处理真实世界复杂任务的必要条件。

3. 跨模态能力迁移的潜力

K2.5 证明：
• 文本 SFT → 激活视觉推理
• 视觉 RL → 增强文本能力

深层含义：
• 人类智能也是高度整合的，各种能力相互支持
• AGI 应该追求统一的认知基础，而非"模态专家的集合"
• 在一个领域的学习应该自然地泛化到其他领域

类比：就像一个精通英语和法语的人（联合预训练），只需用英语例子（文本 SFT）学会编程，就能自然地用法语编程（视觉推理）。

4. 从"单一模型"到"模型编排"

传统范式：更大的单一模型 → 更强的能力

Agent Swarm 的启示：
• 编排多个专业化模型 > 单一巨型模型
• 关键是学习如何编排
• 编排器 + 专业子智能体 = 新的架构范式

对 AGI 的意义：未来的 AGI 可能不是"一个超级模型"，而是"一个超级编排器 + 大量专业化模型"的生态系统。

局限性与未来方向

当前局限：
• BabyVision 性能 36.5%，虽超越多数模型，但仍远低于人类（94.1%）
• Agent Swarm 最适合可并行分解的任务，对串行依赖性强的任务收益有限
• 子智能体冻结，无法从编排器的反馈中学习改进
• MoE 架构虽激活参数少，但总参数达 1.04T

未来研究方向：
• 更强的基础视觉能力（参考 BabyVision 基准）
• 动态子智能体创建（运行时动态生成/微调）
• 层次化 Agent Swarm（子智能体也可以是编排器）
• 端到端可训练的多智能体（解决信用分配和训练稳定性问题）
• 跨模态能力迁移的理论理解
• 更高效的并行化策略（自动学习最优的任务分解粒度）

总结

Kimi K2.5 代表了多模态智能体系统的重大突破。通过文本与视觉的深度联合优化，它证明了两种模态可以相互增强而非妥协。而 Agent Swarm 的创新则彻底改变了智能体的执行范式—— 从串行到并行，从单体到编排，为处理超大规模、高复杂度的真实世界任务开辟了全新的道路。

这不仅是一个技术突破，更是对未来 AGI 架构的重要启示：真正的智能不是单一巨型模型的独角戏，而是多个专业化智能体在智慧编排下的协同交响曲。

模型信息

团队：Kimi Team (Moonshot AI)
发表时间：2025 年
模型规模：
• 总参数：1.04 万亿
• 激活参数：320 亿
• 专家数：384（每 Token 激活 8 个，稀疏度 48）

训练数据：
• 预训练：15 万亿 Token（文本+视觉混合）
• 上下文长度：256K Token

核心技术：
联合文本-视觉预训练 | Zero-Vision SFT | 联合多模态强化学习 | Agent Swarm（并行智能体编排） | Parallel-Agent RL (PARL) | Token 高效 RL (Toggle) | MoonViT-3D（统一图像-视频编码器）

基于 Moonshot AI 发布的 KIMI K2.5 技术报告 | 论文原文 | 模型权重 | Kimi K2 Thinking