字节跳动发布OmniHuman-1.5视频生成模型

近日,字节跳动推出视频生成模型OmniHuman-1.5。据Github页面显示,该模型可基于单张图像和一段语音轨道,生成与语音节奏、韵律及语义内容一致的角色动画,支持通过可选文本提示优化输出。

OmniHuman-1.5架构受大脑“系统1与系统2”认知理论启发,结合多模态大语言模型与扩散Transformer,模拟两种思维模式:缓慢审慎的规划与快速直觉的反应。该协同机制支持生成时长超一分钟的视频,实现高度动态动作、连续镜头移动及复杂多角色互动。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1