阿里HappyHorse-1.0视频模型宣布开源- DoNews

DoNews4月9日消息，据AIPress报道，刚刚，拳打字节Seedance2.0，脚踢快手可灵的AI视频生成模型Happy Horse 1.0开源了。目前在官网可通过文本生成和图片生成两种方式体验生成视频。不同模型对制作时长的限制各不相同。

Happy Horse 1.0的核心卖点，是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是：先生成一段没有声音的视频，再找另一个模型配音，再找另一个工具做口型对齐，几道工序下来，时间和误差都在叠加。

而Happy Horse 1.0用一个统一的Transformer同时处理视频和音频，一次前向推理直接输出带声音的成片，口型、脚步声、环境音全部在同一个过程里生成，不需要任何后期拼接。

模型参数量是150亿，架构上是纯自注意力Transformer，没有交叉注意力，没有独立的音频分支，也没有专门的条件网络。整体设计刻意追求极简——把所有模态（文本、图像、视频、音频）的token拼成同一个序列，让模型在去噪过程中自己学会跨模态对齐。

在结构上，40层Transformer采用了一种“三明治”布局：头4层和尾4层用模态专属的投影层处理各自的输入输出，中间32层则是所有模态共享参数。实际的跨模态推理就发生在这32层里，这也是整个架构参数效率最高的地方。

此外，每个注意力头都有一个可学习的标量门控，用sigmoid激活，专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传，很容易互相打架。

速度方面，模型采用了DMD-2蒸馏技术（Distribution Matching Distillation v2），把去噪步数从通常的25到50步压缩到了8步，同时不需要无分类器引导（CFG），这一项本身就能砍掉将近一半的计算量。再配合MagiCompiler全图编译运行时带来的约1.2倍额外加速，在单张H100上，生成一段1080p视频只需要大约38秒，256p的预览版本则在2秒左右就能出来。

同时，模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步，这些语言的口型、语调和语音时序是和视频一起联合训练出来的，不是后期贴上去的。