高开低走、测评翻车?快乐马难解阿里视频大模型的“基因之痛”

仅仅一个月,阿里视频生成大模型“快乐马”便经历了从“行业惊叹”到“遭受质疑”的戏剧性转折。

这一转变,既源于用户实测中暴露出的推理质量短板,也折射出阿里对其独特的定位——不追求全能推理,而专注“电影级画质”。

在阿里看来,快乐马的发布不仅是一款AI视频模型,更是在快手、抖音等对手已占据视频内容生态的背景下,一次产品线的关键补齐。

因此,相比打造十全十美的产品,阿里选择了更侧重效率与单一亮点的策略。正是这种取舍,让快乐马在画质上惊艳四座,却在动态叙事与多物体交互上频频露怯,引发了关于技术路线与商业落地的广泛讨论。

01  从屠榜黑马到争议焦点

4月8日,快乐马一炮而红,在Artificial Analysis的AI Video Arena排行榜上,快乐马如同一匹黑马,以1333 Elo分登顶,在文本到视频、图像到视频等核心赛道超越Seedance 2.0,成为当时全球排名最高的开源视频生成模型。

随后阿里官方承认,快乐马是其ATH旗下创新事业部研发的模型,目前正处于内测中。

彼时所有人都惊叹快乐马的视频生成能力,视频AI生成专业作者Flova团队向媒体表示:HappyHorse 1.0在镜头真实感与叙事能力上表现优异,尤其适合叙事性内容、广告类、纪录片风格的题材,它的焦段运用接近实拍,显著减轻了视频的“AI感”,相比于其他模型,其观感更加真实。

但随着测试人数的增多,一度被捧上神坛的快乐马也受到了质疑。

智东西测试制作咖啡拉花视频时发现:Seedance制作时,牛奶缓缓倒入咖啡中自然溶解,爱心图案一点一点成形,极具真实感。而快乐马则完全相反,画面中倒出的牛奶与杯中拉花的形成过程完全不同步。

其实发现这一点的不止智东西,国联民生证券在做测试时,也发现了快乐马能够将画面处理得很好,但是在叙事逻辑上,却出现严重问题:当动作复杂度提升后,模型容易出现动作理解不到位、肢体关系错乱、连贯性下降。

这意味着快乐马的画面渲染能力很强,但视频内容中更重要的“剪分镜能力”和多物体交互能力,却是一个弱项。

对此国联民生证券更是给出了一个结论:快乐马更像一个很会拍漂亮镜头的摄影师,但还不是一个真正成熟的动作导演。

但阿里希望快乐马只是一个摄影师吗?

02  “重画质、轻分镜”背后的选择

对于阿里来说,快乐马“重画面,轻剪分镜”的问题,并不是技术偏科,而是为了公司战略的自主选择——为了快速补齐自身AI板块,快乐马不得不割舍,只保留最重要的电影级画质。

我们先分析一下为什么阿里会上线快乐马?原因也很简单——基于阿里内外部的需要。

内部业务布局上,在阿里的AI版图中,形成了通义家族为代表的模型层,百炼为代表的平台层,以及以悟空、AI店小蜜、JVS Claw为代表的应用层,阿里AI的生态体系很完整。

但在商家层面,此前在阿里体系中,没有这样一款视频生成类的产品,而反观友商,字节旗下有侧重长视频的Seedance,快手拥有聚焦竖屏短视频的可灵,两者都弥补了自身生态下的内容生产能力。

阿里需要一款自己AI产品去帮助他们完成电商短视频、虚拟模特等工作,已经落后的阿里来说,必须提高速度,将视频生成大模型短期内快速上线。

为了快速补缺,快乐马在设计上,强调画质感,将核心算力、算法资源倾斜到静态画质、光影质感、风格化渲染上,弱化了多物体交互逻辑等模块的研发投入,这就使得快乐马在动态分镜、多物体交互方面出现了问题。

也正是时间的原因,快乐马的KPI就以“屠榜”为短期目标,希望通过跑分上榜来实现后来者居上。

可以说,阿里打造快乐马的意义并非单纯打造一款爆款C端视频工具,而是一个完成ATH事业群大模型+多模态工具+开放生态的战略拼图。

这解释了为什么快乐马电影画质这么强,但会出现咖啡拉花动作不协调的问题。

03  阿里基因决定快乐马的B端属性

“在多模态生成方面,AIGC正以前所未有的效率重塑电商场景的内容生态”,在CNCC2025大会上,快乐马团队负责人、原淘天集团算法技术负责人郑波认为AI的主要作用是重复阿里的电商内容。

如以往商家展示商品,需要邀请专业模特摆拍,图片宣传单一,但有了快乐马之后,商家可以利用其图片生成视频的能力,让单调的图片变成鲜活的视频秀,不仅提高了营销宣传的效果,更能大幅度降低成本。

郑波表示,淘宝全模态大模型TStars-Omni重点打磨了语音识别能力,尤其是电商场景的用户语音,在语音合成方面优化了情感合成、音色克隆等能力,以适配不同场景的配音需求。

同时泛娱乐内容制作也是未来快乐马的方向之一,因为快乐马擅长电影级光影质感直出专业画面,未来随着多物体交互能力的增强,快乐马可以为短剧、微短剧、漫剧等厂商用于文字生成视频或是图片生成视频。

目前快乐马已经开始在B端商业化运营,其中分辨率720P、1080P的价格分为0.9元/秒、1.6元/秒,专业会员价为0.44元/秒、0.78元/秒,这些客户应用场景主要包括几方面。

而在C端上快乐马的前景受到了广泛质疑,这不是否定快乐马的能力,而是阿里本身的底层基因,因为快乐马融入“千问”App的生态中,千问APP本身就是工具属性,不是像微信、抖音一样的社交属性,因此很难复制“抖音-剪映”这样的成功路径。

04  商业落地成快乐马新挑战

在大模型发展的早期,经常会遇到“模型跑分数据很高,但实际应用拉跨”的问题,原因之一在于,在行业的起步期,厂商为了吸引流量、吸引资本、吸引行业关注,会内卷参数、一味追求单帧视频效果的现象。

但如今,随着多模态大模型逐渐走向商业落地,对于行业和市场来说,一款视频大模型的好坏不再是参数性能,而是真正的效果。

对于要立足电商,服务阿里生态的快乐马来说,未来其核心的KPI不只是参赛夺得冠军,而且要适配电商的工业化生产能力,通过降低token定价,实现音画多要素能力。

快乐马的“高开低走”并非偶然,而是阿里在AI视频赛道一次主动的战略取舍:以“电影级画质”为矛,快速补齐视频生成产品的空白,优先服务电商与泛娱乐的B端需求。

未来随着行业竞争从“跑分炫技”转向“效果落地”,快乐马真正的考验才刚刚开始。它能否在阿里庞大的电商生态中,将静态画质的优势转化为稳定、可控的工业化生产能力?答案藏在接下来的每一次版本更新与合作落地中。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签: 快乐马 阿里 AI
Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号