Chance AI 走红北美年轻用户，重构人与AI交互方式- DoNews专栏

作者｜洋紫

“夏日午后，休息时凝视远山或树枝，直到 ‘灵韵降临’，人与景物产生一种神秘共鸣。”

德国哲学家本雅明在代表作《机械复制时代的艺术作品》中，如是形容这种独一无二、物我两忘的审美体验。这是一种难以复刻的独特感受，与AI支配下泥沙俱下、批量生产的虚幻景观大相径庭。

人类如芦苇般孱弱，却因思想而拥有尊严。我们可以听见声音、接收画面、有身体的触感，也可以知道空间感的放大缩小、呼吸的节律，以及细默之处未曾言明的情感表达。这些细腻幽微的情绪，是人类最难以被模拟与替代的部分。

“Technology is an extension of life.（技术是生命的一种延伸）”。凯文凯利在《科技想要什么》一书中曾表达过同样的观点，如果人类与 AI 发展的终极理想，是实现人与技术的共生共舞，让人工智能真正拥有接近人的思考、生命力与表达力，那么一个不容忽视的现实是：时至今日，人与 AI 最主流的交互方式，依然停留在文字层面。

这也成为人机协同路上一道难以绕开的障碍 —— 我们大量的所见、所思、所感，仍无法与 AI 实现真正的身临其境。譬如一位痴迷奇石、对石头怀有极致热爱的人，若想将他眼中万千石头的肌理、气韵与特质传递给 AI，单纯的文字描述远不足够。一个集图像、视觉、声音于一体的 “石头数字馆”，才能真正支撑他与 AI 并肩鉴赏、共情共鸣。

那么，什么才是对于用户来说更自然、更具有粘性的交互方式？

过去半年，一款名为Chance AI的app快速在纽约大学（NYU）、南加州大学（USC）等北美校园风靡，学生们用Chance AI看穿搭、逛展览、比较球鞋和卡牌、记录皮肤状态、观察植物与宠物，甚至看图写诗。其独特性在于，Chance AI 提出了一个新的产品形态，即Visual Agent：在视觉之上建立解释层，让AI不仅看到事物，更参与解释其意义，进而帮助用户形成判断与品味。

在Chance AI看来，视觉不是输入方式，而是人类的认知系统。“对人类来说，视觉才是最直觉的操作系统，而不是输入框。”Chance AI创始人兼CEO曾熙告诉霞光社，“从第一天开始做产品，我们的首页就是没有任何输入框的。在我们的产品里面唯一的输入框就是出现在评论区，但是现在更多人是用语音，点开只有一个拍照按键，进来以后用户不用输入prompt，one tap，因为这才是人类最直觉的方式。”

使用方式也很简单，只需要通过Chance AI拍摄任何图片，Chance AI就会快速将图片内容转为对于图片深层次含义的解读。每一个图片都不只限于“阅读”，更多在于“理解”，即在认识的基础上解释看见事物的意义；

此外，Chance AI也有Live模式，即实时视觉交互系统（Real-time Visual Intelligence System），在Live模式中，用户可以一边看，一边与Chance AI交流，它还会做出对于画面的实时视觉理解（Real-time perception）以及连续推理（Continuous reasoning，而非单次响应）。

巴塞尔艺术周现场，观众使用Chance AI「Visual Agent – Live」，在观看作品的过程中与AI实时交流与理解

Chance AI的交互方式，打破了过去两年间，AI通过输入框提问、随后获得答案的主流形态。曾熙向霞光社表示，产品设计的差异源自年轻人认识世界的底层逻辑不同，对从小使用emoji、meme和缩写沟通的Gen Z来说，他们本身就是visual native：更习惯通过图像和直觉理解世界，而不是先组织语言再提问。也就是说，越来越多的年轻人对于现实世界的认知方式是从“先提问再理解” 转变为“先看见再理解”。

对图像的精准理解离不开Chance AI的技术突破。MMMMU-Pro 是目前最严苛的多模态基准测试之一，它通过过滤纯文本可解题、增加选项干扰，并将问题嵌入图像中，真正考察 AI 是否具备人类级别的视觉理解与跨学科推理能力，而非依赖模式匹配或文字捷径。Chance AI Visual Agent 在 MMMU 相关评测中以 86.07% 的准确率位列世界第一，在艺术理解、结构分析与跨语境解释等任务上表现优秀，甚至超越了人类在2024年的成绩。

实际操作上也可见Chance AI的出色表现，如下图所示，为一块坐标于洛杉矶的市中心的石头，在Chance AI的“看见”里，不只有关于石头的来历故事——即一位艺术家把这个石头从内华达州搬过来花了1300万美金，还有这一故事背后的意义：这场搬运是为了体现美国的种族和阶级对立的问题。

更重要的是，Chance AI真正意义上做到了千人千面地帮助人理解世界。在Chance AI，每个人的页面都是个性化的，因为不同人看见、感受的世界存在差异。而在Chance AI已经布局的不同国家/地区，用户之间的差异化也能反馈出地区的特性，这是Chance AI的独特价值——勾勒用户眼中的世界。

在效率工具泛滥的当下，Chance AI的魅力在于，当用户以主动探索的方式理解事物，他会逐渐形成自己的判断：什么是好的，什么是有价值的。也正因此，人们在使用AI过程中常出现的顾虑，如是否会面对更为千篇一律的AI流水线产品、AI是否会让人丧失思考的能力，似乎不再需要犹疑。个性化的反馈、对事物更深的理解，都能让用户开始重新激发好奇心——那些曾经习以为常的东西，会再次变得值得被解读。

一些北美高校学生们表示，“有时候我不是想问什么，我只是想看看它会怎么看。”“I started noticing things I used to ignore”，这或许也符合了Chance AI对于年轻一代认知世界的判断：“视觉让理解更直接，也让好奇心重新成为驱动力。用眼睛理解世界，正在成为一种新的基础行为。”而这一“主动探索”的体验感，形成了用户与Chance AI的持续使用粘性。

事实上，人类对现实的认知，往往始于视觉，先看见，再感受，然后逐渐形成判断。“visual reasoning是帮助你找到它的Perception跟knowledge，然后再加上connection就是它的社会共识，这样组成了今天的产品形态。”曾熙告诉霞光社。

与此同时，行业层面也展现出了年轻用户倾向于使用视觉交互的趋势：其一是，多模态交互（Lens / Circle to Search / AI Overviews）在年轻用户中的增长最快；其二，Google Lens每月产生超过三十五亿次级视觉搜索请求。

截至目前，Chance AI的全球年轻用户已突破20万，在iOS欧美多个国家进入下载榜Top 3，并在Product Hunt上两次获得当日最佳产品（Product of the Day）。在刚刚过去的香港Art Central艺术展上，Chance AI也作为官方创新合作伙伴，深度融入观众的观展体验，这一能力也首次得到了真实场景的验证。

面向未来的可能性，曾熙表示，手机拍照分享目前是图片数据来源最直接、量最大的场景。“现在我们的数据是，每个北美的女生每天会拍2.8次的穿搭，这是非常海量的数据。”而视觉数据本身就创造了价值，“我们想把Visual Agent engine这‘发动机’给搭好，以后我们会有更丰富的数据，会形成视觉的社区，这就是最大的价值。”

曾熙早年在 University of Barcelona 获得博士学位，研究方向集中在认知科学与当代艺术，关注人类如何通过视觉理解世界、形成判断与意义。随后，他先后在 OnePlus、OPPO 负责产品与设计，并参与构建面向数亿用户的硬件定义与系统体验。在ByteDance期间，他在Flow担任产品与设计高级总监，参与AI相关产品从0到1的探索（豆包）体系的早期构建。豆包代表了这一代 AI 产品的典型形态：以对话为核心入口。

这段经历让他意识到一个结构性问题：当前AI已经非常擅长“生成语言”和“回答问题”（尤其是大厂的必争之地，因为离LLM很近），但对于人类如何在现实世界中形成理解，尤其是基于视觉的直觉判断——仍然缺乏支持。因为这直接决定了，每一个事物的“意义”。

在他看来，这不是一个功能缺失，而是一个交互范式的空白：AI已经很会“说”，但还不够会“看”。Chance AI正是在这个判断下诞生：如果AI的下一阶段不只是回答问题，而是参与人类理解世界的过程，那么视觉能力可能会成为新的入口。他正在为了下一个时代的AI终端做准备。

我们处在一个科技大发展的时代，无数高速迭代的科技产品快速出现、又快速成为旧闻，科技已经包围、席卷了人的工作与生活。对科技产品的赞叹和恐惧，交织在一起，成为现代人普遍的心理情结。

而在每一场技术的变迁中，一个有趣的现象是：如何落地从来不是由发明者决定的，而是由用户和它如何交互决定。比如作为通信工具的手机，最终演变成了触屏的交互方式，才能变为用户日日、时时无法离身的“肉体外挂”。

AI时代的交互或许也是无处不在的。在谈及“Chance”这一名称的由来时，曾熙表示，这个名字源于他对当下生活方式的一种观察。在高度算法化的环境中，人们越来越习惯沿着被推荐的路径前行，日常经验变得可预测且重复，而真正具有启发性的时刻，往往来自那些未被预设的“偶然”。

这些“偶然”的瞬间，或许才是生命特有的视角。不再来自技术的机械和重复，而是一个充满“人味儿”的生命脉动。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)