KIMI K2.5
Visual Agentic Intelligence — 视觉智能体革命
Moonshot AI 开源的首个多模态智能体模型,标志着通用智能体(General Agentic Intelligence)的重大突破。 K2.5 实现了文本与视觉的联合优化,让两种模态相互增强而非相互妥协。 更令人惊艳的是其创新性的 Agent Swarm(智能体群)框架—— 通过并行编排多个专业化子智能体,在广域搜索场景中将推理延迟降低高达 4.5 倍, 同时将 Item-F1 从 72.8% 提升至 79.0%。这一突破彻底改变了传统智能体"串行执行"的瓶颈。
1.04T
总参数量
15T
预训练 Token 数
4.5x
Agent Swarm 延迟降低
256K
上下文长度
🚀 核心创新
文本与视觉的联合优化
K2.5 打破了传统多模态模型的"后融合"范式。以往的视觉-语言模型通常在文本 LLM 训练后期才引入视觉 Token,
这种做法本质上是把多模态能力当作"附加功能"。
颠覆性发现:通过大规模消融实验发现——
• 早期以较低比例融合视觉,效果反而最佳
• 在固定总 Token 预算下,视觉比例对最终性能影响极小
• 早期融合让模型从一开始就学习统一的多模态表示空间
• 避免了后期"模态域迁移"造成的表示崩溃
颠覆性发现:通过大规模消融实验发现——
• 早期以较低比例融合视觉,效果反而最佳
• 在固定总 Token 预算下,视觉比例对最终性能影响极小
• 早期融合让模型从一开始就学习统一的多模态表示空间
• 避免了后期"模态域迁移"造成的表示崩溃
Zero-Vision SFT:文本激活视觉能力
这是 K2.5 最违反直觉的创新之一:在监督微调阶段,只用文本数据就能激活视觉推理和工具使用能力。
为什么可行?
• 预训练阶段已经建立了强大的视觉-文本对齐
• 能力可以自然地跨模态泛化
• 所有图像操作都通过 IPython 中的程序化操作代理
• 通过二值化和计数进行像素级操作(如物体尺寸估计)
实验表明:零视觉 SFT 的泛化性能优于传统的文本-视觉联合 SFT。
为什么可行?
• 预训练阶段已经建立了强大的视觉-文本对齐
• 能力可以自然地跨模态泛化
• 所有图像操作都通过 IPython 中的程序化操作代理
• 通过二值化和计数进行像素级操作(如物体尺寸估计)
实验表明:零视觉 SFT 的泛化性能优于传统的文本-视觉联合 SFT。
惊人发现:视觉 RL 提升文本能力
K2.5 在后训练阶段采用了联合 RL 策略,令人震惊的是:视觉 RL 不仅没有损害文本性能,反而显著提升了它。
性能提升:
• MMLU-Pro:84.7 → 86.4 (+1.7)
• GPQA-Diamond:84.3 → 86.4 (+2.1)
• LongBench v2:56.7 → 58.9 (+2.2)
原因分析:
视觉 RL 增强了模型在结构化信息提取方面的校准能力,降低了对类似视觉定位推理的查询的不确定性。 这表明视觉 RL 贡献了跨模态泛化能力,改善文本推理而不会退化语言能力。
性能提升:
• MMLU-Pro:84.7 → 86.4 (+1.7)
• GPQA-Diamond:84.3 → 86.4 (+2.1)
• LongBench v2:56.7 → 58.9 (+2.2)
原因分析:
视觉 RL 增强了模型在结构化信息提取方面的校准能力,降低了对类似视觉定位推理的查询的不确定性。 这表明视觉 RL 贡献了跨模态泛化能力,改善文本推理而不会退化语言能力。
🐝 Agent Swarm:并行智能体编排
彻底改变传统智能体"串行执行"的瓶颈
传统智能体的致命缺陷
传统智能体系统的致命缺陷是串行执行推理和工具调用步骤。
即使是能进行数百步推理的系统(如 Kimi K2-Thinking),也受困于线性时间扩展,导致:
• 不可接受的延迟
• 任务复杂度受限
• 当智能体工作负载扩展到大规模研究、设计、开发等场景时,串行范式效率极低
• 不可接受的延迟
• 任务复杂度受限
• 当智能体工作负载扩展到大规模研究、设计、开发等场景时,串行范式效率极低
1
Agent Swarm 架构
Trainable Orchestrator + Frozen Subagents
核心设计:
• 可训练的编排器(Orchestrator):负责任务分解和调度
• 冻结的子智能体(Frozen Subagents):从固定的中间策略检查点实例化
• 动态任务分解:将复杂任务拆解为异构子问题
• 并行子任务调度:子智能体并发执行
关键理念:
并行性不是默认有利的——是否、何时、如何并行化, 都是通过环境反馈和 RL 驱动的探索显式学习的。
• 可训练的编排器(Orchestrator):负责任务分解和调度
• 冻结的子智能体(Frozen Subagents):从固定的中间策略检查点实例化
• 动态任务分解:将复杂任务拆解为异构子问题
• 并行子任务调度:子智能体并发执行
关键理念:
并行性不是默认有利的——是否、何时、如何并行化, 都是通过环境反馈和 RL 驱动的探索显式学习的。
2
Parallel-Agent RL (PARL)
解耦架构的智慧
为何解耦架构?
避免端到端协同优化的两大挑战:
1. 信用分配模糊性:正确答案不意味着所有子智能体执行完美
2. 训练不稳定性:多智能体联合优化的梯度极不稳定
解决方案:
• 冻结子智能体,将其输出视为环境观测而非可微决策点
• 解耦高层协调逻辑与低层执行熟练度
• 先用小型子智能体训练编排器,再过渡到大型模型
PARL 奖励函数:
避免端到端协同优化的两大挑战:
1. 信用分配模糊性:正确答案不意味着所有子智能体执行完美
2. 训练不稳定性:多智能体联合优化的梯度极不稳定
解决方案:
• 冻结子智能体,将其输出视为环境观测而非可微决策点
• 解耦高层协调逻辑与低层执行熟练度
• 先用小型子智能体训练编排器,再过渡到大型模型
PARL 奖励函数:
r_PARL(x, y) = λ₁ · r_parallel + λ₂ · r_finish + r_perf(x, y)
⎣___________⎦ ⎣__________⎦ ⎣__________⎦
实例化奖励 子智能体完成率 任务级结果
3
关键步数 (Critical Steps)
显式激励有效并行化
类比计算图中的关键路径,定义并行智能体环境中的时间成本:
• 每个阶段 t,主智能体执行 S_main^(t) 步
• 若并行启动多个子智能体,该阶段持续时间由最长运行的子智能体决定
• 总关键步数 = 所有阶段的关键路径之和
效果: 通过约束关键步数而非总步数,框架显式激励有效并行化。 良好平衡的任务分解可直接缩短关键步数。
CriticalSteps = Σ[t=1 to T] (S_main^(t) + max_i S_sub,i^(t))
核心思想:• 每个阶段 t,主智能体执行 S_main^(t) 步
• 若并行启动多个子智能体,该阶段持续时间由最长运行的子智能体决定
• 总关键步数 = 所有阶段的关键路径之和
效果: 通过约束关键步数而非总步数,框架显式激励有效并行化。 良好平衡的任务分解可直接缩短关键步数。
4
Agent Swarm = 主动上下文管理
超越传统反应式策略
Agent Swarm 本质上是多智能体架构赋能的主动式智能上下文管理,
区别于传统反应式策略(Hide-Tool-Result、Summary、Discard-all)。
主动式策略的优势:
• 通过显式编排实现主动上下文控制
• 长期任务分解为并行、语义隔离的子任务
• 每个子智能体有界的局部上下文
• 诱导上下文分片而非上下文截断
• 沿额外架构维度扩展有效上下文长度
• 保持模块化、信息局部性和推理完整性
主动式策略的优势:
• 通过显式编排实现主动上下文控制
• 长期任务分解为并行、语义隔离的子任务
• 每个子智能体有界的局部上下文
• 诱导上下文分片而非上下文截断
• 沿额外架构维度扩展有效上下文长度
• 保持模块化、信息局部性和推理完整性
📊 性能提升
Agent Swarm 性能对比
| 基准 | K2.5 Agent Swarm | K2.5 单智能体 | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|---|
| BrowseComp | 78.4 | 60.6 | 37.0 | 65.8 |
| WideSearch | 79.0 | 72.7 | 76.2 | - |
| In-house Swarm Bench | 58.3 | 41.6 | 45.8 | - |
关键发现:
• BrowseComp:+17.8% 绝对提升,超越 GPT-5.2 Pro
• WideSearch:Item-F1 提升 +6.3%,建立新 SOTA
• In-house Swarm Bench:+16.7%(该基准显式奖励并行分解)
在 WideSearch 基准上,Agent Swarm 将达到目标性能的执行时间减少 3× ~ 4.5×
⚡ Token 高效强化学习:Toggle 算法
解决长度过拟合问题
问题:严格预算约束下训练的模型无法泛化到更高计算规模,默认截断推理模式。
Toggle 启发式算法:每 m 次迭代交替两个优化阶段:
Phase 0(预算限制阶段):
训练模型在任务相关 Token 预算内解决问题,仅当平均准确率超过阈值 λ 时强制执行(防止过早牺牲质量换效率)
Phase 1(标准扩展阶段):
模型生成响应直至最大 Token 限制,鼓励模型利用计算实现更好的推理时扩展
效果:
• 在所有基准上输出长度平均减少 25~30%
• 性能影响可忽略不计
• 减少 CoT 中的冗余模式(重复验证、机械计算)
• 强域泛化:仅在数学和编程上训练,在 GPQA 和 MMLU-Pro 上也实现一致的 Token 减少
Toggle 启发式算法:每 m 次迭代交替两个优化阶段:
Phase 0(预算限制阶段):
训练模型在任务相关 Token 预算内解决问题,仅当平均准确率超过阈值 λ 时强制执行(防止过早牺牲质量换效率)
Phase 1(标准扩展阶段):
模型生成响应直至最大 Token 限制,鼓励模型利用计算实现更好的推理时扩展
效果:
• 在所有基准上输出长度平均减少 25~30%
• 性能影响可忽略不计
• 减少 CoT 中的冗余模式(重复验证、机械计算)
• 强域泛化:仅在数学和编程上训练,在 GPQA 和 MMLU-Pro 上也实现一致的 Token 减少
Token 高效 RL 后的性能与 Token 使用对比:实现了效率与性能的完美平衡
🏆 全面评估结果
推理与通用能力
数学推理:
• AIME 2025:96.1%(接近 GPT-5.2 的满分,超越 Claude Opus 4.5 的 92.8%)
• HMMT 2025:95.4%
• IMO-AnswerBench:81.8%
知识与科学推理:
• MMLU-Pro:87.1%
• GPQA-Diamond:87.6%
• SimpleQA Verified:36.9%
HLE(Humanity's Last Exam):
• 无工具:30.1%(文本 31.5%,图像 21.3%)
• 启用工具:50.2%(文本 51.8%,图像 39.8%)
• 显著超越 Gemini 3 Pro(45.8%)和 GPT-5.2(45.5%)
长上下文:
• LongBench v2:61.0%
• AIME 2025:96.1%(接近 GPT-5.2 的满分,超越 Claude Opus 4.5 的 92.8%)
• HMMT 2025:95.4%
• IMO-AnswerBench:81.8%
知识与科学推理:
• MMLU-Pro:87.1%
• GPQA-Diamond:87.6%
• SimpleQA Verified:36.9%
HLE(Humanity's Last Exam):
• 无工具:30.1%(文本 31.5%,图像 21.3%)
• 启用工具:50.2%(文本 51.8%,图像 39.8%)
• 显著超越 Gemini 3 Pro(45.8%)和 GPT-5.2(45.5%)
长上下文:
• LongBench v2:61.0%
复杂编程与软件工程
• SWE-Bench Verified:76.8%
• SWE-Bench Multilingual:73.0%
• LiveCodeBench v6:85.0%(超越 DeepSeekV3.2 的 83.3% 和 Claude Opus 4.5 的 82.2%)
• CyberGym:41.3(在真实开源软件项目中仅根据高层描述查找已知漏洞)
• TerminalBench 2.0:50.8%
• PaperBench (CodeDev):63.5%
• SciCode:48.7%
• SWE-Bench Multilingual:73.0%
• LiveCodeBench v6:85.0%(超越 DeepSeekV3.2 的 83.3% 和 Claude Opus 4.5 的 82.2%)
• CyberGym:41.3(在真实开源软件项目中仅根据高层描述查找已知漏洞)
• TerminalBench 2.0:50.8%
• PaperBench (CodeDev):63.5%
• SciCode:48.7%
智能体能力
BrowseComp:
• 无上下文管理:60.6%
• Discard-all 上下文管理:74.9%
• Agent Swarm:78.4%
• 大幅超越 GPT-5.2 报告的 65.8%
• 显著超越 Claude Opus 4.5(37.0%)和 Gemini 3 Pro(37.8%)
其他智能体基准:
• WideSearch:72.7%(Agent Swarm:79.0%)
• DeepSearchQA:77.1%
• FinSearchComp T2&T3:67.8%
• Seal-0:57.4%
• 无上下文管理:60.6%
• Discard-all 上下文管理:74.9%
• Agent Swarm:78.4%
• 大幅超越 GPT-5.2 报告的 65.8%
• 显著超越 Claude Opus 4.5(37.0%)和 Gemini 3 Pro(37.8%)
其他智能体基准:
• WideSearch:72.7%(Agent Swarm:79.0%)
• DeepSearchQA:77.1%
• FinSearchComp T2&T3:67.8%
• Seal-0:57.4%
视觉推理、知识与感知
视觉推理:
• MMMU-Pro:78.5%
• MathVision:84.2%
• MathVista (mini):90.1%
• BabyVision:36.5%
OCR 与文档理解:
• OCRBench:92.3%
• InfoVQA (test):92.6%
• OmniDocBench 1.5:88.8%
• CharXiv (RQ):77.5%
视觉感知:
• ZeroBench:9(无工具),11(有工具)
• BLINK:78.9%
• MMVP:87.0%
• MMMU-Pro:78.5%
• MathVision:84.2%
• MathVista (mini):90.1%
• BabyVision:36.5%
OCR 与文档理解:
• OCRBench:92.3%
• InfoVQA (test):92.6%
• OmniDocBench 1.5:88.8%
• CharXiv (RQ):77.5%
视觉感知:
• ZeroBench:9(无工具),11(有工具)
• BLINK:78.9%
• MMVP:87.0%
视频理解
• VideoMMMU:86.6%
• MMVU:80.4%
• MotionBench:70.4%
• Video-MME:87.4%
• LongVideoBench:79.8%(SOTA)
• LVBench:75.9%(SOTA,输入超过 2000 帧)
• MMVU:80.4%
• MotionBench:70.4%
• Video-MME:87.4%
• LongVideoBench:79.8%(SOTA)
• LVBench:75.9%(SOTA,输入超过 2000 帧)
计算机使用能力
OSWorld-Verified:
• 63.3%(仅依赖 GUI 操作,无外部工具)
• 大幅超越开源模型 Qwen3-VL-235B-A22B(38.1%)
• 超越 OpenAI Operator (o3-based)(42.9%)
• 接近 Claude Opus 4.5(66.3%)
WebArena:
• 58.9%
• 超越 OpenAI Operator(58.1%)
• 接近 Claude Opus 4.5(63.4%)
• 63.3%(仅依赖 GUI 操作,无外部工具)
• 大幅超越开源模型 Qwen3-VL-235B-A22B(38.1%)
• 超越 OpenAI Operator (o3-based)(42.9%)
• 接近 Claude Opus 4.5(66.3%)
WebArena:
• 58.9%
• 超越 OpenAI Operator(58.1%)
• 接近 Claude Opus 4.5(63.4%)
🏗️ 技术架构亮点
MoonViT-3D:统一图像与视频
核心创新:将 NaViT 的"patch n' pack"理念扩展到时间维度。
工作原理:
• 最多 4 个连续帧视为时空体
• 2D patch 从这些帧中联合展平并打包成单个 1D 序列
• 相同的注意力机制无缝地跨空间和时间运作
• 轻量级时间池化在 MLP 投影器前进行,产生 4× 时间压缩
优势:
• 完全共享参数和嵌入空间
• 从静态图像到动态视频的知识泛化最大化
• 无需专门的视频模块或架构分支
• 可处理长达 4 倍的视频(在相同上下文窗口内)
工作原理:
• 最多 4 个连续帧视为时空体
• 2D patch 从这些帧中联合展平并打包成单个 1D 序列
• 相同的注意力机制无缝地跨空间和时间运作
• 轻量级时间池化在 MLP 投影器前进行,产生 4× 时间压缩
优势:
• 完全共享参数和嵌入空间
• 从静态图像到动态视频的知识泛化最大化
• 无需专门的视频模块或架构分支
• 可处理长达 4 倍的视频(在相同上下文窗口内)
Decoupled Encoder Process (DEP)
问题:传统多模态训练中,视觉编码器和文本嵌入共处于流水线并行(PP)的第 0 阶段,
由于多模态输入大小变化,Stage-0 面临计算负载剧烈波动和内存使用大幅变化。
DEP 三阶段解决方案:
1. 平衡视觉前向:在所有 GPU 上复制小型视觉编码器,均匀分配计算
2. 主干训练:对主 Transformer 主干执行前向和反向传播
3. 视觉重计算与反向:重新计算视觉编码器前向传播并执行反向传播
效果:多模态训练效率达到纯文本训练的 90%
DEP 三阶段解决方案:
1. 平衡视觉前向:在所有 GPU 上复制小型视觉编码器,均匀分配计算
2. 主干训练:对主 Transformer 主干执行前向和反向传播
3. 视觉重计算与反向:重新计算视觉编码器前向传播并执行反向传播
效果:多模态训练效率达到纯文本训练的 90%
预训练数据的精心设计
文本数据增强:
• 大幅增加仓库级代码(跨文件推理和架构理解)
• Issues、代码审查、提交历史(真实开发模式)
• 从 PDF 和网页语料库检索的代码相关文档
视觉数据(7 大类别):
1. Caption 数据:基础模态对齐
2. Image-Text Interleaving:来自书籍、网页、教程
3. OCR 数据:跨多语言文本、密集布局、多页文档
4. 知识数据:通过布局解析器处理的学术材料
5. 多模态问题解决语料库:STEM 领域(K-12 到大学)
6. 图像-代码配对数据:HTML、React、SVG 等代码格式
7. 智能体与时间理解:GUI 截图、动作轨迹、视频数据、新的轮廓级分割任务
• 大幅增加仓库级代码(跨文件推理和架构理解)
• Issues、代码审查、提交历史(真实开发模式)
• 从 PDF 和网页语料库检索的代码相关文档
视觉数据(7 大类别):
1. Caption 数据:基础模态对齐
2. Image-Text Interleaving:来自书籍、网页、教程
3. OCR 数据:跨多语言文本、密集布局、多页文档
4. 知识数据:通过布局解析器处理的学术材料
5. 多模态问题解决语料库:STEM 领域(K-12 到大学)
6. 图像-代码配对数据:HTML、React、SVG 等代码格式
7. 智能体与时间理解:GUI 截图、动作轨迹、视频数据、新的轮廓级分割任务
🌟 对 AGI 的启示
1. 多模态不应是"附加功能"
传统做法:
文本 LLM (强) → 后期加视觉 (妥协) → 多模态模型 (弱)
K2.5 的范式:
文本 + 视觉 (从头联合) → 两者互相增强 → 多模态模型 (强)
启示: 真正的多模态 AGI 应该从一开始就以统一方式处理所有模态,而非"拼接"不同模态的专家。
文本 LLM (强) → 后期加视觉 (妥协) → 多模态模型 (弱)
K2.5 的范式:
文本 + 视觉 (从头联合) → 两者互相增强 → 多模态模型 (强)
启示: 真正的多模态 AGI 应该从一开始就以统一方式处理所有模态,而非"拼接"不同模态的专家。
2. 串行智能体的天花板
瓶颈:
• 任务复杂度 ∝ 串行步数
• 延迟 ∝ 串行步数
• 当步数 → 数百步时,延迟 → 不可接受
Agent Swarm 的突破:
• 任务复杂度 ∝ 最长并行分支
• 延迟 ∝ max(各分支),而非 Σ(各分支)
• 可扩展到极大规模任务
对 AGI 的意义: 未来的 AGI 系统必须具备动态编排多个专业化子系统并行工作的能力, 这是处理真实世界复杂任务的必要条件。
• 任务复杂度 ∝ 串行步数
• 延迟 ∝ 串行步数
• 当步数 → 数百步时,延迟 → 不可接受
Agent Swarm 的突破:
• 任务复杂度 ∝ 最长并行分支
• 延迟 ∝ max(各分支),而非 Σ(各分支)
• 可扩展到极大规模任务
对 AGI 的意义: 未来的 AGI 系统必须具备动态编排多个专业化子系统并行工作的能力, 这是处理真实世界复杂任务的必要条件。
3. 跨模态能力迁移的潜力
K2.5 证明:
• 文本 SFT → 激活视觉推理
• 视觉 RL → 增强文本能力
深层含义:
• 人类智能也是高度整合的,各种能力相互支持
• AGI 应该追求统一的认知基础,而非"模态专家的集合"
• 在一个领域的学习应该自然地泛化到其他领域
类比: 就像一个精通英语和法语的人(联合预训练),只需用英语例子(文本 SFT)学会编程, 就能自然地用法语编程(视觉推理)。
• 文本 SFT → 激活视觉推理
• 视觉 RL → 增强文本能力
深层含义:
• 人类智能也是高度整合的,各种能力相互支持
• AGI 应该追求统一的认知基础,而非"模态专家的集合"
• 在一个领域的学习应该自然地泛化到其他领域
类比: 就像一个精通英语和法语的人(联合预训练),只需用英语例子(文本 SFT)学会编程, 就能自然地用法语编程(视觉推理)。
4. 从"单一模型"到"模型编排"
传统范式:更大的单一模型 → 更强的能力
Agent Swarm 的启示:
• 编排多个专业化模型 > 单一巨型模型
• 关键是学习如何编排
• 编排器 + 专业子智能体 = 新的架构范式
对 AGI 的意义: 未来的 AGI 可能不是"一个超级模型",而是"一个超级编排器 + 大量专业化模型"的生态系统。
Agent Swarm 的启示:
• 编排多个专业化模型 > 单一巨型模型
• 关键是学习如何编排
• 编排器 + 专业子智能体 = 新的架构范式
对 AGI 的意义: 未来的 AGI 可能不是"一个超级模型",而是"一个超级编排器 + 大量专业化模型"的生态系统。
局限性与未来方向
当前局限:
• BabyVision 性能 36.5%,虽超越多数模型,但仍远低于人类(94.1%)
• Agent Swarm 最适合可并行分解的任务,对串行依赖性强的任务收益有限
• 子智能体冻结,无法从编排器的反馈中学习改进
• MoE 架构虽激活参数少,但总参数达 1.04T
未来研究方向:
• 更强的基础视觉能力(参考 BabyVision 基准)
• 动态子智能体创建(运行时动态生成/微调)
• 层次化 Agent Swarm(子智能体也可以是编排器)
• 端到端可训练的多智能体(解决信用分配和训练稳定性问题)
• 跨模态能力迁移的理论理解
• 更高效的并行化策略(自动学习最优的任务分解粒度)
• BabyVision 性能 36.5%,虽超越多数模型,但仍远低于人类(94.1%)
• Agent Swarm 最适合可并行分解的任务,对串行依赖性强的任务收益有限
• 子智能体冻结,无法从编排器的反馈中学习改进
• MoE 架构虽激活参数少,但总参数达 1.04T
未来研究方向:
• 更强的基础视觉能力(参考 BabyVision 基准)
• 动态子智能体创建(运行时动态生成/微调)
• 层次化 Agent Swarm(子智能体也可以是编排器)
• 端到端可训练的多智能体(解决信用分配和训练稳定性问题)
• 跨模态能力迁移的理论理解
• 更高效的并行化策略(自动学习最优的任务分解粒度)
总结
Kimi K2.5 代表了多模态智能体系统的重大突破。通过文本与视觉的深度联合优化,
它证明了两种模态可以相互增强而非妥协。而 Agent Swarm 的创新则彻底改变了智能体的执行范式——
从串行到并行,从单体到编排,为处理超大规模、高复杂度的真实世界任务开辟了全新的道路。
这不仅是一个技术突破,更是对未来 AGI 架构的重要启示: 真正的智能不是单一巨型模型的独角戏,而是多个专业化智能体在智慧编排下的协同交响曲。
这不仅是一个技术突破,更是对未来 AGI 架构的重要启示: 真正的智能不是单一巨型模型的独角戏,而是多个专业化智能体在智慧编排下的协同交响曲。
模型信息
团队:Kimi Team (Moonshot AI)
发表时间:2025 年
模型规模:
• 总参数:1.04 万亿
• 激活参数:320 亿
• 专家数:384(每 Token 激活 8 个,稀疏度 48)
训练数据:
• 预训练:15 万亿 Token(文本+视觉混合)
• 上下文长度:256K Token
核心技术:
联合文本-视觉预训练 | Zero-Vision SFT | 联合多模态强化学习 | Agent Swarm(并行智能体编排) | Parallel-Agent RL (PARL) | Token 高效 RL (Toggle) | MoonViT-3D(统一图像-视频编码器)
发表时间:2025 年
模型规模:
• 总参数:1.04 万亿
• 激活参数:320 亿
• 专家数:384(每 Token 激活 8 个,稀疏度 48)
训练数据:
• 预训练:15 万亿 Token(文本+视觉混合)
• 上下文长度:256K Token
核心技术:
联合文本-视觉预训练 | Zero-Vision SFT | 联合多模态强化学习 | Agent Swarm(并行智能体编排) | Parallel-Agent RL (PARL) | Token 高效 RL (Toggle) | MoonViT-3D(统一图像-视频编码器)
基于 Moonshot AI 发布的 KIMI K2.5 技术报告 | 论文原文 | 模型权重 | Kimi K2 Thinking