BabyVision
Visual Reasoning Beyond Language — 超越语言的视觉推理
当今最先进的多模态大模型(MLLMs)在人类幼儿都能轻松解决的基础视觉任务上惨遭失败。 最强模型 Gemini3-Pro-Preview 仅获得 49.7 分, 而成年人平均高达 94.1 分,甚至落后于 6 岁儿童。 这揭示了一个残酷的事实:MLLMs 并非真正"看见"了图像,而是在用语言知识"猜测"答案。
44.4%
最强模型落后成人的差距
388
道独特测试题目
22
个子任务类别
~3岁
最强模型的等效视觉年龄
核心洞察:倒置的能力画像
人类的视觉理解发展路径是:先有视觉,后有语言。婴儿在出生后几个月内就能辨别形状、纹理、追踪运动物体。
然而,MLLMs 呈现出完全相反的能力画像:
• 基础视觉(形状、追踪、空间)→ 最先发展的能力 → MLLMs 极弱
• 语言理解 → 中期发展 → MLLMs 很强
• 知识推理(数学、专业知识)→ 最晚发展 → MLLMs 很强
然而,MLLMs 呈现出完全相反的能力画像:
• 基础视觉(形状、追踪、空间)→ 最先发展的能力 → MLLMs 极弱
• 语言理解 → 中期发展 → MLLMs 很强
• 知识推理(数学、专业知识)→ 最晚发展 → MLLMs 很强
为什么高级任务成功,基础任务失败?
语言先验的掩盖作用:高级任务(数学、知识问答)可以通过语言推理"绕过"视觉,但基础视觉任务无法用语言知识替代。
训练数据的偏差:大量训练数据是"图文对",模型学会了用文字描述图像,却很少有训练数据要求纯视觉推理。
BABYVISION 的价值:首个系统性评估"超越语言"视觉能力的基准测试。
训练数据的偏差:大量训练数据是"图文对",模型学会了用文字描述图像,却很少有训练数据要求纯视觉推理。
BABYVISION 的价值:首个系统性评估"超越语言"视觉能力的基准测试。
震撼对比:最强模型 Gemini3-Pro-Preview 勉强与 3 岁儿童打成平手,远远落后于 6 岁儿童
与不同年龄人类的对比
核心发现:系统性的视觉能力缺陷
• 最强模型 Gemini3-Pro-Preview(49.7%)仍比成人低 44.4%
• 所有模型在视觉追踪和空间感知上表现最差
• Claude-4.5-Opus 和 Grok-4 甚至不如随机猜测(25%)
• 这不是某一类任务的失败,而是系统性的视觉能力缺陷
• 所有模型在视觉追踪和空间感知上表现最差
• Claude-4.5-Opus 和 Grok-4 甚至不如随机猜测(25%)
• 这不是某一类任务的失败,而是系统性的视觉能力缺陷
BABYVISION 基准测试设计
设计哲学:最小化对语言知识的依赖,最大化对纯视觉感知的考察
| 类别 | 核心能力 | 典型任务 | 人类基准 |
|---|---|---|---|
| Fine-grained Discrimination 精细辨别 |
观察非语言细节 | 找相同/不同、数图案 | 92.3% |
| Visual Tracking 视觉追踪 |
流形理解 | 连线追踪、迷宫 | 94.6% |
| Spatial Perception 空间感知 |
空间想象 | 3D方块展开、视角转换 | 94.7% |
| Visual Pattern Recognition 视觉模式识别 |
模式归纳 | 逻辑图案、旋转/镜像规律 | 97.8% |
🎯 四大挑战:MLLMs 为何失败?
1
观察非语言细节
Observing Non-Verbal Details
问题:MLLMs 难以从复杂图像中精确识别和比较细微的视觉差异。
典型任务:给定一个蜂窝图案,找出其中缺失的部分。
失败原因:
典型任务:给定一个蜂窝图案,找出其中缺失的部分。
失败原因:
- 无法精确计数密集排列的元素
- 难以识别复杂图案中的空白区域
- 缺乏对几何形状精确匹配的能力
92.3%
人类表现
46.2%
最强模型
2
流形理解
Manifold Understanding
问题:MLLMs 在追踪交织的线条时会"丢失身份"——当多条曲线相交时,模型无法正确判断哪条线通向哪里。
典型任务:追踪一条从起点到终点的曲线,即使它与其他线条多次相交。
失败原因:
典型任务:追踪一条从起点到终点的曲线,即使它与其他线条多次相交。
失败原因:
- 流形身份丢失:在交叉点处错误切换到另一条线
- 缺乏对曲线连续性的理解
- 无法进行视觉上的"手指追踪"
94.6%
人类表现
43.4%
最强模型
3
空间想象
Spatial Imagination
问题:MLLMs 无法在脑海中对 3D 结构进行心理变换——旋转、展开、从不同角度观察。
典型任务:给定 3D 方块堆叠,判断从某个方向看会是什么形状。
失败原因:
典型任务:给定 3D 方块堆叠,判断从某个方向看会是什么形状。
失败原因:
- 空间想象失败:无法心理旋转 3D 物体
- 缺乏对遮挡关系的理解
- 无法将 2D 展开图映射回 3D 结构
94.7%
人类表现
53.7%
最强模型
4
视觉模式归纳
Visual Pattern Induction
问题:MLLMs 难以从视觉序列中归纳出潜在的变换规则,并预测下一个元素。
典型任务:观察一系列图形的变化规律(旋转、颜色交换等),预测下一个应该是什么。
失败原因:
典型任务:观察一系列图形的变化规律(旋转、颜色交换等),预测下一个应该是什么。
失败原因:
- 无法识别视觉元素的系统性变换
- 难以建立"变化规则"的抽象表示
- 缺乏对颜色、位置、方向的组合推理
97.8%
人类表现
53.9%
最强模型
闭源 MLLMs 在 BabyVision 各子任务上的详细性能:黄色高亮为各项最高分
各模型性能汇总
| 模型 | 总分 | 精细辨别 | 视觉追踪 | 空间感知 | 模式识别 |
|---|---|---|---|---|---|
| Human | 94.1 | 92.3 | 94.6 | 94.7 | 97.8 |
| Gemini3-Pro-Preview | 49.7 | 46.2 | 43.4 | 53.7 | 53.9 |
| GPT-5.2 | 34.4 | 27.3 | 34.9 | 35.2 | 54.9 |
| Doubao-1.8 | 30.2 | 39.2 | 15.7 | 24.7 | 37.7 |
| Qwen3-VL-Plus | 19.2 | 21.8 | 11.5 | 18.1 | 25.5 |
| Claude-4.5-Opus | 14.2 | 14.3 | 13.7 | 12.8 | 17.0 |
| Grok-4 | 16.2 | 11.0 | 24.1 | 13.2 | 24.8 |
雷达图:人类(黑色虚线)在所有 22 个子任务上都接近满分,而 MLLMs 在所有维度上都大幅塌缩
BABYVISION-GEN:生成式视觉推理
人类解决视觉问题时,往往是用视觉来解决视觉——画图、追踪、标记。
BABYVISION-GEN 要求模型不是输出文字答案,而是生成正确的图像来展示答案。
结论:即使是最先进的图像/视频生成模型,在视觉推理任务上也几乎完全失败。
BABYVISION-GEN 要求模型不是输出文字答案,而是生成正确的图像来展示答案。
| 模型 | 准确率 |
|---|---|
| Sora 2 | 3.3% |
| Veo 3 | 5.6% |
| BAGEL | 8.9% |
| Nano-Banana (SOTA) | 13.3% |
结论:即使是最先进的图像/视频生成模型,在视觉推理任务上也几乎完全失败。
GRPO 强化学习尝试
论文尝试使用 GRPO(Group Relative Policy Optimization) 对开源模型进行视觉推理强化学习:
发现:强化学习带来了一定提升,但距离人类水平仍有巨大差距。表明视觉能力的根本缺陷难以通过后训练弥补。
| 指标 | 原始模型 | GRPO 后 | 提升 |
|---|---|---|---|
| 平均准确率 | 13.1% | 17.9% | +4.8% |
发现:强化学习带来了一定提升,但距离人类水平仍有巨大差距。表明视觉能力的根本缺陷难以通过后训练弥补。
与现有基准的区别
| 基准 | 核心考察 | 可被语言绕过? |
|---|---|---|
| MMMU | 大学级专业知识 | ✅ 是 |
| MathVista | 数学推理 | 部分 |
| MME | 多模态理解 | ✅ 是 |
| BLINK | 视觉感知 | 部分 |
| BABYVISION | 纯视觉推理 | ❌ 否 |
对未来研究的启示
1. 视觉能力不应被忽视
当前 MLLM 的发展过于关注"更多知识"、"更强推理",却忽略了最基础的视觉感知能力。
2. 需要新的训练范式
加入更多纯视觉推理任务,减少对语言先验的依赖,从婴儿视觉发展中汲取灵感。
3. 架构创新的必要性
当前的 Vision Transformer + LLM 架构可能存在根本局限:图像被切分为 patch,丢失了全局结构;视觉信息被强制映射到语言空间。
当前 MLLM 的发展过于关注"更多知识"、"更强推理",却忽略了最基础的视觉感知能力。
2. 需要新的训练范式
加入更多纯视觉推理任务,减少对语言先验的依赖,从婴儿视觉发展中汲取灵感。
3. 架构创新的必要性
当前的 Vision Transformer + LLM 架构可能存在根本局限:图像被切分为 patch,丢失了全局结构;视觉信息被强制映射到语言空间。
类比理解
MLLMs 像一个博览群书但从未睁眼看世界的人:
📚 读过关于"苹果是红色的",但从未真正看过苹果
🧩 知道"迷宫可以用右手法则解",但无法真正追踪线条
🎲 学过"3D 物体可以旋转",但无法在脑海中旋转
BABYVISION 就是给它们做一次"视力检查"——结果是:近乎失明。
📚 读过关于"苹果是红色的",但从未真正看过苹果
🧩 知道"迷宫可以用右手法则解",但无法真正追踪线条
🎲 学过"3D 物体可以旋转",但无法在脑海中旋转
BABYVISION 就是给它们做一次"视力检查"——结果是:近乎失明。