京东发布JoyAI-Echo长视频生成框架,攻克时序一致性难题

京东正式推出并开源JoyAI-Echo长音视频生成框架,聚焦AI长视频生成领域公认的三大技术瓶颈:角色一致性崩坏、声音频繁变化及生成速度过慢。

JoyAI-Echo内置跨模态音视频记忆库,可在多镜头生成过程中持续记录并调用角色外观特征与音色信息,实测支持长达5分钟的视频生成,期间人物身份、视觉形象及声音音色保持高度统一。

该框架通过“记忆驱动后训练流程”,融合监督微调(SFT)、跨模态基于人类反馈的强化学习(RLHF)及分布匹配蒸馏(DMD)技术,其中DMD实现约7.5倍推理速度提升,显著增强实时生产能力。

JoyAI-Echo新增“对话式编辑”功能,依托Director Agent机制,支持以自然语言对特定镜头、场景或角色内容进行局部修改,无需整体重生成,推动AI视频从静态生成工具向动态协作工具演进。

在产业应用层面,该框架契合电商行业“内容驱动消费”趋势,可嵌入京东商家后台,降低中小商家短视频与直播内容制作门槛,提升平台内容供给效率与商业化转化能力。

京东已构建完整AI产品矩阵,包括JoyAI基础大模型、JoyAI-RA具身智能模型、JoyInside、AI数字人及智能体“京言”。2024年推出的“采销东哥”AI数字人直播首秀,30分钟观看量破千万,40分钟订单超10万,成交额逾5000万元;2025年12月起,京东数字人直播向全量商家免费开放,并配套公域流量支持。

2026年2月,快手上线可灵3.0系列模型;5月,字节跳动发布Seedance 2.0,火山引擎上线“火山剧创1.0”,阿里云推出整合HappyHorse等多模型的“万镜一刻”AI视频创作平台,均体现行业正从单一生成能力转向覆盖剧本、分镜、运镜、生成的全流程工业化能力竞争。

当前AI长视频仍面临算力成本高、复杂剧情稳定性不足、细节控制有限及版权与数据合规等挑战。但技术加速推进已成共识,其影响将延伸至广告、教育、游戏、短剧、虚拟主播、数字人直播及互动影视等多个领域。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号