阿里HappyHorse-1.0视频模型宣布开源

DoNews4月9日消息,据AIPress报道,刚刚,拳打字节Seedance2.0,脚踢快手可灵的AI视频生成模型Happy Horse 1.0开源了。目前在官网可通过文本生成和图片生成两种方式体验生成视频。不同模型对制作时长的限制各不相同。

Happy Horse 1.0的核心卖点,是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是:先生成一段没有声音的视频,再找另一个模型配音,再找另一个工具做口型对齐,几道工序下来,时间和误差都在叠加。

而Happy Horse 1.0用一个统一的Transformer同时处理视频和音频,一次前向推理直接输出带声音的成片,口型、脚步声、环境音全部在同一个过程里生成,不需要任何后期拼接。

模型参数量是150亿,架构上是纯自注意力Transformer,没有交叉注意力,没有独立的音频分支,也没有专门的条件网络。整体设计刻意追求极简——把所有模态(文本、图像、视频、音频)的token拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。

在结构上,40层Transformer采用了一种“三明治”布局:头4层和尾4层用模态专属的投影层处理各自的输入输出,中间32层则是所有模态共享参数。实际的跨模态推理就发生在这32层里,这也是整个架构参数效率最高的地方。

此外,每个注意力头都有一个可学习的标量门控,用sigmoid激活,专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传,很容易互相打架。

速度方面,模型采用了DMD-2蒸馏技术(Distribution Matching Distillation v2),把去噪步数从通常的25到50步压缩到了8步,同时不需要无分类器引导(CFG),这一项本身就能砍掉将近一半的计算量。再配合MagiCompiler全图编译运行时带来的约1.2倍额外加速,在单张H100上,生成一段1080p视频只需要大约38秒,256p的预览版本则在2秒左右就能出来。

同时,模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步,这些语言的口型、语调和语音时序是和视频一起联合训练出来的,不是后期贴上去的。

阿里HappyHorse-1.0视频模型宣布开源
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1