BabyVision

Visual Reasoning Beyond Language — 超越语言的视觉推理

当今最先进的多模态大模型(MLLMs)在人类幼儿都能轻松解决的基础视觉任务上惨遭失败。 最强模型 Gemini3-Pro-Preview 仅获得 49.7 分, 而成年人平均高达 94.1 分,甚至落后于 6 岁儿童。 这揭示了一个残酷的事实:MLLMs 并非真正"看见"了图像,而是在用语言知识"猜测"答案

44.4%
最强模型落后成人的差距
388
道独特测试题目
22
个子任务类别
~3岁
最强模型的等效视觉年龄
核心洞察:倒置的能力画像
人类的视觉理解发展路径是:先有视觉,后有语言。婴儿在出生后几个月内就能辨别形状、纹理、追踪运动物体。

然而,MLLMs 呈现出完全相反的能力画像
基础视觉(形状、追踪、空间)→ 最先发展的能力 → MLLMs 极弱
语言理解 → 中期发展 → MLLMs 很强
知识推理(数学、专业知识)→ 最晚发展 → MLLMs 很强
为什么高级任务成功,基础任务失败?
语言先验的掩盖作用:高级任务(数学、知识问答)可以通过语言推理"绕过"视觉,但基础视觉任务无法用语言知识替代。

训练数据的偏差:大量训练数据是"图文对",模型学会了用文字描述图像,却很少有训练数据要求纯视觉推理。

BABYVISION 的价值:首个系统性评估"超越语言"视觉能力的基准测试。
人类与 MLLMs 性能对比
震撼对比:最强模型 Gemini3-Pro-Preview 勉强与 3 岁儿童打成平手,远远落后于 6 岁儿童
与不同年龄人类的对比
👶 3 岁儿童
~40%
🤖 Gemini3-Pro-Preview
~45%
🧒 6 岁儿童
~65%
👦 10 岁儿童
~74%
🧑 12 岁儿童
~87%
👨 成年人
~94%
核心发现:系统性的视觉能力缺陷
• 最强模型 Gemini3-Pro-Preview(49.7%)仍比成人低 44.4%
• 所有模型在视觉追踪空间感知上表现最差
Claude-4.5-Opus 和 Grok-4 甚至不如随机猜测(25%)
• 这不是某一类任务的失败,而是系统性的视觉能力缺陷
BABYVISION 基准测试设计
设计哲学:最小化对语言知识的依赖,最大化对纯视觉感知的考察

类别 核心能力 典型任务 人类基准
Fine-grained Discrimination
精细辨别
观察非语言细节 找相同/不同、数图案 92.3%
Visual Tracking
视觉追踪
流形理解 连线追踪、迷宫 94.6%
Spatial Perception
空间感知
空间想象 3D方块展开、视角转换 94.7%
Visual Pattern Recognition
视觉模式识别
模式归纳 逻辑图案、旋转/镜像规律 97.8%

🎯 四大挑战:MLLMs 为何失败?

1
观察非语言细节
Observing Non-Verbal Details
问题:MLLMs 难以从复杂图像中精确识别和比较细微的视觉差异。

典型任务:给定一个蜂窝图案,找出其中缺失的部分。

失败原因
  • 无法精确计数密集排列的元素
  • 难以识别复杂图案中的空白区域
  • 缺乏对几何形状精确匹配的能力
挑战1示例
92.3%
人类表现
46.2%
最强模型
2
流形理解
Manifold Understanding
问题:MLLMs 在追踪交织的线条时会"丢失身份"——当多条曲线相交时,模型无法正确判断哪条线通向哪里。

典型任务:追踪一条从起点到终点的曲线,即使它与其他线条多次相交。

失败原因
  • 流形身份丢失:在交叉点处错误切换到另一条线
  • 缺乏对曲线连续性的理解
  • 无法进行视觉上的"手指追踪"
挑战2示例
94.6%
人类表现
43.4%
最强模型
3
空间想象
Spatial Imagination
问题:MLLMs 无法在脑海中对 3D 结构进行心理变换——旋转、展开、从不同角度观察。

典型任务:给定 3D 方块堆叠,判断从某个方向看会是什么形状。

失败原因
  • 空间想象失败:无法心理旋转 3D 物体
  • 缺乏对遮挡关系的理解
  • 无法将 2D 展开图映射回 3D 结构
挑战3示例
94.7%
人类表现
53.7%
最强模型
4
视觉模式归纳
Visual Pattern Induction
问题:MLLMs 难以从视觉序列中归纳出潜在的变换规则,并预测下一个元素。

典型任务:观察一系列图形的变化规律(旋转、颜色交换等),预测下一个应该是什么。

失败原因
  • 无法识别视觉元素的系统性变换
  • 难以建立"变化规则"的抽象表示
  • 缺乏对颜色、位置、方向的组合推理
挑战4示例
97.8%
人类表现
53.9%
最强模型
闭源模型详细性能
闭源 MLLMs 在 BabyVision 各子任务上的详细性能:黄色高亮为各项最高分
各模型性能汇总
模型 总分 精细辨别 视觉追踪 空间感知 模式识别
Human 94.1 92.3 94.6 94.7 97.8
Gemini3-Pro-Preview 49.7 46.2 43.4 53.7 53.9
GPT-5.2 34.4 27.3 34.9 35.2 54.9
Doubao-1.8 30.2 39.2 15.7 24.7 37.7
Qwen3-VL-Plus 19.2 21.8 11.5 18.1 25.5
Claude-4.5-Opus 14.2 14.3 13.7 12.8 17.0
Grok-4 16.2 11.0 24.1 13.2 24.8
各类别差距雷达图
雷达图:人类(黑色虚线)在所有 22 个子任务上都接近满分,而 MLLMs 在所有维度上都大幅塌缩
BABYVISION-GEN:生成式视觉推理
人类解决视觉问题时,往往是用视觉来解决视觉——画图、追踪、标记。

BABYVISION-GEN 要求模型不是输出文字答案,而是生成正确的图像来展示答案。

模型 准确率
Sora 2 3.3%
Veo 3 5.6%
BAGEL 8.9%
Nano-Banana (SOTA) 13.3%

结论:即使是最先进的图像/视频生成模型,在视觉推理任务上也几乎完全失败。
GRPO 强化学习尝试
论文尝试使用 GRPO(Group Relative Policy Optimization) 对开源模型进行视觉推理强化学习:

指标 原始模型 GRPO 后 提升
平均准确率 13.1% 17.9% +4.8%

发现:强化学习带来了一定提升,但距离人类水平仍有巨大差距。表明视觉能力的根本缺陷难以通过后训练弥补
与现有基准的区别
基准 核心考察 可被语言绕过?
MMMU 大学级专业知识 ✅ 是
MathVista 数学推理 部分
MME 多模态理解 ✅ 是
BLINK 视觉感知 部分
BABYVISION 纯视觉推理 ❌ 否
对未来研究的启示
1. 视觉能力不应被忽视
当前 MLLM 的发展过于关注"更多知识"、"更强推理",却忽略了最基础的视觉感知能力。

2. 需要新的训练范式
加入更多纯视觉推理任务,减少对语言先验的依赖,从婴儿视觉发展中汲取灵感。

3. 架构创新的必要性
当前的 Vision Transformer + LLM 架构可能存在根本局限:图像被切分为 patch,丢失了全局结构;视觉信息被强制映射到语言空间。
类比理解
MLLMs 像一个博览群书但从未睁眼看世界的人

📚 读过关于"苹果是红色的",但从未真正看过苹果
🧩 知道"迷宫可以用右手法则解",但无法真正追踪线条
🎲 学过"3D 物体可以旋转",但无法在脑海中旋转

BABYVISION 就是给它们做一次"视力检查"——结果是:近乎失明。

基于 UniPat AI、Peking University、Tsinghua University 等机构联合发布的 BabyVision 研究论文 | 论文原文 | 官方主页 | GitHub 项目

Kcores LLM Arena Logo