一张漂浮心形的视觉错觉图近期引发关注,被用作测试AI视觉识别能力的工具。该图像在连续观看时呈现心形左右移动的动态效果,但所有测试的AI模型均未能识别出心形存在。
测试涵盖Gemini 2.5 Pro、GPT-5-Thinking、GPT-5 Pro及国产模型豆包、Qwen、元宝等,结果无一例外未能发现图像中的心形。研究者指出,问题根源在于当前多模态AI处理视频和动态图像的方式本质为静态帧分析。
主流AI模型通过抽帧方式将视频分解为一系列静态图片进行识别,忽略帧间的时间序列信息。而此类视觉错觉的关键信息恰恰存在于时间维度中,即人眼因微小运动导致感知变化所形成的动态错觉。
论文《Time Blindness: Why Video-Language Models Can’t See What Humans Can?》提出“时间盲视”概念,并构建SpookyBench基准测试集,包含451段由噪点组成但播放时可辨识出形状的视频。人类识别准确率超98%,AI模型准确率为0%。
研究显示,无论模型架构、训练规模或提示策略如何调整,AI均无法捕捉帧间连续运动模式。其根本原因在于AI系统具有“空间偏见”,仅能分析单帧内的空间特征,缺乏对时间连续性的感知机制。
人类视觉依赖格式塔心理学中的“共同命运法则”,自动将同向运动元素整合为整体。例如,在噪点视频中,大脑会根据像素点的同步移动轨迹识别出隐藏图形,如鹿的轮廓。这种能力源于进化过程中对环境中运动物体的快速反应需求。
相比之下,AI无法建立跨帧的运动关联。即便能够识别基本几何形状,也无法理解仅通过时间流动才能显现的图案。这一局限表明,当前AI视觉系统与人类存在本质差异:人类感知的是连续流动的过程,AI处理的是离散静止的物体。
进一步分析指出,静态视觉错觉图的动态效果来源于人眼不自主的微动。20世纪50年代实验表明,眼球持续微运动会维持视觉感知,若图像绝对静止则会在1至3秒内消失,此现象称为特克斯勒消逝效应。
视觉科学认为,“没有变化,则等于没有信息”。动态错觉图正是利用人眼自然运动触发感知变化,从而产生运动幻觉。AI因无真实眼球运动机制,且处理方式为非连续采样,故无法复现该过程。
尽管DeepSeek因无多模态功能未参与测试,其余主流模型均暴露出在时间维度上的根本缺陷。现有技术路径下,单纯增加训练数据或优化模型结构均未能解决该问题,显示“时间盲视”非局部漏洞而是系统性限制。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



