作者|洋紫
“夏日午后,休息时凝视远山或树枝,直到 ‘灵韵降临’,人与景物产生一种神秘共鸣。”
德国哲学家本雅明在代表作《机械复制时代的艺术作品》中,如是形容这种独一无二、物我两忘的审美体验。这是一种难以复刻的独特感受,与AI支配下泥沙俱下、批量生产的虚幻景观大相径庭。
人类如芦苇般孱弱,却因思想而拥有尊严。我们可以听见声音、接收画面、有身体的触感,也可以知道空间感的放大缩小、呼吸的节律,以及细默之处未曾言明的情感表达。这些细腻幽微的情绪,是人类最难以被模拟与替代的部分。
“Technology is an extension of life.(技术是生命的一种延伸)”。凯文凯利在《科技想要什么》一书中曾表达过同样的观点,如果人类与 AI 发展的终极理想,是实现人与技术的共生共舞,让人工智能真正拥有接近人的思考、生命力与表达力,那么一个不容忽视的现实是:时至今日,人与 AI 最主流的交互方式,依然停留在文字层面。
这也成为人机协同路上一道难以绕开的障碍 —— 我们大量的所见、所思、所感,仍无法与 AI 实现真正的身临其境。譬如一位痴迷奇石、对石头怀有极致热爱的人,若想将他眼中万千石头的肌理、气韵与特质传递给 AI,单纯的文字描述远不足够。一个集图像、视觉、声音于一体的 “石头数字馆”,才能真正支撑他与 AI 并肩鉴赏、共情共鸣。
那么,什么才是对于用户来说更自然、更具有粘性的交互方式?

过去半年,一款名为Chance AI的app快速在纽约大学(NYU)、南加州大学(USC)等北美校园风靡,学生们用Chance AI看穿搭、逛展览、比较球鞋和卡牌、记录皮肤状态、观察植物与宠物,甚至看图写诗。其独特性在于,Chance AI 提出了一个新的产品形态,即Visual Agent:在视觉之上建立解释层,让AI不仅看到事物,更参与解释其意义,进而帮助用户形成判断与品味。
在Chance AI看来,视觉不是输入方式,而是人类的认知系统。“对人类来说,视觉才是最直觉的操作系统,而不是输入框。”Chance AI创始人兼CEO曾熙告诉霞光社,“从第一天开始做产品,我们的首页就是没有任何输入框的。在我们的产品里面唯一的输入框就是出现在评论区,但是现在更多人是用语音,点开只有一个拍照按键,进来以后用户不用输入prompt,one tap,因为这才是人类最直觉的方式。”
使用方式也很简单,只需要通过Chance AI拍摄任何图片,Chance AI就会快速将图片内容转为对于图片深层次含义的解读。每一个图片都不只限于“阅读”,更多在于“理解”,即在认识的基础上解释看见事物的意义;
此外,Chance AI也有Live模式,即实时视觉交互系统(Real-time Visual Intelligence System),在Live模式中,用户可以一边看,一边与Chance AI交流,它还会做出对于画面的实时视觉理解(Real-time perception)以及连续推理(Continuous reasoning,而非单次响应)。
巴塞尔艺术周现场,观众使用Chance AI「Visual Agent – Live」,在观看作品的过程中与AI实时交流与理解
Chance AI的交互方式,打破了过去两年间,AI通过输入框提问、随后获得答案的主流形态。曾熙向霞光社表示,产品设计的差异源自年轻人认识世界的底层逻辑不同,对从小使用emoji、meme和缩写沟通的Gen Z来说,他们本身就是visual native:更习惯通过图像和直觉理解世界,而不是先组织语言再提问。也就是说,越来越多的年轻人对于现实世界的认知方式是从“先提问再理解” 转变为“先看见再理解”。
对图像的精准理解离不开Chance AI的技术突破。MMMMU-Pro 是目前最严苛的多模态基准测试之一,它通过过滤纯文本可解题、增加选项干扰,并将问题嵌入图像中,真正考察 AI 是否具备人类级别的视觉理解与跨学科推理能力,而非依赖模式匹配或文字捷径。Chance AI Visual Agent 在 MMMU 相关评测中以 86.07% 的准确率位列世界第一,在艺术理解、结构分析与跨语境解释等任务上表现优秀,甚至超越了人类在2024年的成绩。
实际操作上也可见Chance AI的出色表现,如下图所示,为一块坐标于洛杉矶的市中心的石头,在Chance AI的“看见”里,不只有关于石头的来历故事——即一位艺术家把这个石头从内华达州搬过来花了1300万美金,还有这一故事背后的意义:这场搬运是为了体现美国的种族和阶级对立的问题。

更重要的是,Chance AI真正意义上做到了千人千面地帮助人理解世界。在Chance AI,每个人的页面都是个性化的,因为不同人看见、感受的世界存在差异。而在Chance AI已经布局的不同国家/地区,用户之间的差异化也能反馈出地区的特性,这是Chance AI的独特价值——勾勒用户眼中的世界。
在效率工具泛滥的当下,Chance AI的魅力在于,当用户以主动探索的方式理解事物,他会逐渐形成自己的判断:什么是好的,什么是有价值的。也正因此,人们在使用AI过程中常出现的顾虑,如是否会面对更为千篇一律的AI流水线产品、AI是否会让人丧失思考的能力,似乎不再需要犹疑。个性化的反馈、对事物更深的理解,都能让用户开始重新激发好奇心——那些曾经习以为常的东西,会再次变得值得被解读。
一些北美高校学生们表示,“有时候我不是想问什么,我只是想看看它会怎么看。”“I started noticing things I used to ignore”,这或许也符合了Chance AI对于年轻一代认知世界的判断:“视觉让理解更直接,也让好奇心重新成为驱动力。用眼睛理解世界,正在成为一种新的基础行为。”而这一“主动探索”的体验感,形成了用户与Chance AI的持续使用粘性。
事实上,人类对现实的认知,往往始于视觉,先看见,再感受,然后逐渐形成判断。“visual reasoning是帮助你找到它的Perception跟knowledge,然后再加上connection就是它的社会共识,这样组成了今天的产品形态。”曾熙告诉霞光社。
与此同时,行业层面也展现出了年轻用户倾向于使用视觉交互的趋势:其一是,多模态交互(Lens / Circle to Search / AI Overviews)在年轻用户中的增长最快;其二,Google Lens每月产生超过三十五亿次级视觉搜索请求。
截至目前,Chance AI的全球年轻用户已突破20万,在iOS欧美多个国家进入下载榜Top 3,并在Product Hunt上两次获得当日最佳产品(Product of the Day)。在刚刚过去的香港Art Central艺术展上,Chance AI也作为官方创新合作伙伴,深度融入观众的观展体验,这一能力也首次得到了真实场景的验证。
面向未来的可能性,曾熙表示,手机拍照分享目前是图片数据来源最直接、量最大的场景。“现在我们的数据是,每个北美的女生每天会拍2.8次的穿搭,这是非常海量的数据。”而视觉数据本身就创造了价值,“我们想把Visual Agent engine这‘发动机’给搭好,以后我们会有更丰富的数据,会形成视觉的社区,这就是最大的价值。”
曾熙早年在 University of Barcelona 获得博士学位,研究方向集中在认知科学与当代艺术,关注人类如何通过视觉理解世界、形成判断与意义。 随后,他先后在 OnePlus、OPPO 负责产品与设计,并参与构建面向数亿用户的硬件定义与系统体验。 在ByteDance期间,他在Flow担任产品与设计高级总监,参与AI相关产品从0到1的探索(豆包)体系的早期构建。豆包代表了这一代 AI 产品的典型形态:以对话为核心入口。
这段经历让他意识到一个结构性问题:当前AI已经非常擅长“生成语言”和“回答问题”(尤其是大厂的必争之地,因为离LLM很近),但对于人类如何在现实世界中形成理解,尤其是基于视觉的直觉判断——仍然缺乏支持。因为这直接决定了,每一个事物的“意义”。
在他看来,这不是一个功能缺失,而是一个交互范式的空白:AI已经很会“说”,但还不够会“看”。Chance AI正是在这个判断下诞生:如果AI的下一阶段不只是回答问题,而是参与人类理解世界的过程,那么视觉能力可能会成为新的入口。他正在为了下一个时代的AI终端做准备。
我们处在一个科技大发展的时代,无数高速迭代的科技产品快速出现、又快速成为旧闻,科技已经包围、席卷了人的工作与生活。对科技产品的赞叹和恐惧,交织在一起,成为现代人普遍的心理情结。
而在每一场技术的变迁中,一个有趣的现象是:如何落地从来不是由发明者决定的,而是由用户和它如何交互决定。比如作为通信工具的手机,最终演变成了触屏的交互方式,才能变为用户日日、时时无法离身的“肉体外挂”。
AI时代的交互或许也是无处不在的。在谈及“Chance”这一名称的由来时,曾熙表示,这个名字源于他对当下生活方式的一种观察。在高度算法化的环境中,人们越来越习惯沿着被推荐的路径前行,日常经验变得可预测且重复,而真正具有启发性的时刻,往往来自那些未被预设的“偶然”。
这些“偶然”的瞬间,或许才是生命特有的视角。不再来自技术的机械和重复,而是一个充满“人味儿”的生命脉动。
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)



