京东发布JoyAI-Echo长视频生成框架，攻克时序一致性难题- DoNews

京东正式推出并开源JoyAI-Echo长音视频生成框架，聚焦AI长视频生成领域公认的三大技术瓶颈：角色一致性崩坏、声音频繁变化及生成速度过慢。

JoyAI-Echo内置跨模态音视频记忆库，可在多镜头生成过程中持续记录并调用角色外观特征与音色信息，实测支持长达5分钟的视频生成，期间人物身份、视觉形象及声音音色保持高度统一。

该框架通过“记忆驱动后训练流程”，融合监督微调（SFT）、跨模态基于人类反馈的强化学习（RLHF）及分布匹配蒸馏（DMD）技术，其中DMD实现约7.5倍推理速度提升，显著增强实时生产能力。

JoyAI-Echo新增“对话式编辑”功能，依托Director Agent机制，支持以自然语言对特定镜头、场景或角色内容进行局部修改，无需整体重生成，推动AI视频从静态生成工具向动态协作工具演进。

在产业应用层面，该框架契合电商行业“内容驱动消费”趋势，可嵌入京东商家后台，降低中小商家短视频与直播内容制作门槛，提升平台内容供给效率与商业化转化能力。

京东已构建完整AI产品矩阵，包括JoyAI基础大模型、JoyAI-RA具身智能模型、JoyInside、AI数字人及智能体“京言”。2024年推出的“采销东哥”AI数字人直播首秀，30分钟观看量破千万，40分钟订单超10万，成交额逾5000万元；2025年12月起，京东数字人直播向全量商家免费开放，并配套公域流量支持。

2026年2月，快手上线可灵3.0系列模型；5月，字节跳动发布Seedance 2.0，火山引擎上线“火山剧创1.0”，阿里云推出整合HappyHorse等多模型的“万镜一刻”AI视频创作平台，均体现行业正从单一生成能力转向覆盖剧本、分镜、运镜、生成的全流程工业化能力竞争。

当前AI长视频仍面临算力成本高、复杂剧情稳定性不足、细节控制有限及版权与数据合规等挑战。但技术加速推进已成共识，其影响将延伸至广告、教育、游戏、短剧、虚拟主播、数字人直播及互动影视等多个领域。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。