视觉错觉图揭示AI时间盲视现象- DoNews

一张漂浮心形的视觉错觉图近期引发关注，被用作测试AI视觉识别能力的工具。该图像在连续观看时呈现心形左右移动的动态效果，但所有测试的AI模型均未能识别出心形存在。

测试涵盖Gemini 2.5 Pro、GPT-5-Thinking、GPT-5 Pro及国产模型豆包、Qwen、元宝等，结果无一例外未能发现图像中的心形。研究者指出，问题根源在于当前多模态AI处理视频和动态图像的方式本质为静态帧分析。

主流AI模型通过抽帧方式将视频分解为一系列静态图片进行识别，忽略帧间的时间序列信息。而此类视觉错觉的关键信息恰恰存在于时间维度中，即人眼因微小运动导致感知变化所形成的动态错觉。

论文《Time Blindness: Why Video-Language Models Can’t See What Humans Can?》提出“时间盲视”概念，并构建SpookyBench基准测试集，包含451段由噪点组成但播放时可辨识出形状的视频。人类识别准确率超98%，AI模型准确率为0%。

研究显示，无论模型架构、训练规模或提示策略如何调整，AI均无法捕捉帧间连续运动模式。其根本原因在于AI系统具有“空间偏见”，仅能分析单帧内的空间特征，缺乏对时间连续性的感知机制。

人类视觉依赖格式塔心理学中的“共同命运法则”，自动将同向运动元素整合为整体。例如，在噪点视频中，大脑会根据像素点的同步移动轨迹识别出隐藏图形，如鹿的轮廓。这种能力源于进化过程中对环境中运动物体的快速反应需求。

相比之下，AI无法建立跨帧的运动关联。即便能够识别基本几何形状，也无法理解仅通过时间流动才能显现的图案。这一局限表明，当前AI视觉系统与人类存在本质差异：人类感知的是连续流动的过程，AI处理的是离散静止的物体。

进一步分析指出，静态视觉错觉图的动态效果来源于人眼不自主的微动。20世纪50年代实验表明，眼球持续微运动会维持视觉感知，若图像绝对静止则会在1至3秒内消失，此现象称为特克斯勒消逝效应。

视觉科学认为，“没有变化，则等于没有信息”。动态错觉图正是利用人眼自然运动触发感知变化，从而产生运动幻觉。AI因无真实眼球运动机制，且处理方式为非连续采样，故无法复现该过程。

尽管DeepSeek因无多模态功能未参与测试，其余主流模型均暴露出在时间维度上的根本缺陷。现有技术路径下，单纯增加训练数据或优化模型结构均未能解决该问题，显示“时间盲视”非局部漏洞而是系统性限制。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。