字节Seed发布全双工语音模型Seeduplex，豆包实现边说边听- DoNews

4月9日，字节跳动旗下AI研究团队Seed发布新语音模型Seeduplex，并完成在豆包App的全量上线。

Seeduplex采用原生音频全双工架构，使模型在输出语音的同时持续处理麦克风输入，实时区分用户语音、背景噪声与思考停顿，不再依赖独立VAD（语音活动检测）模块进行机械式音频分割。该模型将声学特征与语义上下文统一交由同一LLM决策，相较此前半双工框架，判停MOS分提升8%，对话流畅度MOS分提升12%。

技术指标显示，判停延迟降低约250ms，复杂场景下AI抢话比例减少40%，用户意图打断时响应延迟缩短约300ms，误回复率与误打断率在复杂声学干扰场景下降50%。真人对比测试中，Seeduplex在判停准确率上优于半双工方案，在响应打断能力上略超人人对话平均水平，但整体对话流畅度仍低于真人交流。

实际应用中，Seeduplex可在车载广播与导航混响环境下识别用户提问；区分朋友招呼、快递敲门等非指令性声音；支持英语口语练习中对停顿、改口的自然响应；并首次实现AI在用户说话间隙给出“嗯”“好的”等即时反馈信号，以及对“等一下”等打断意图的语义级理解与即时中止。

该模型属于原生音频全双工技术路线，与法国Kyutai的Moshi、NVIDIA的PersonaPlex同属前沿方向，但Seeduplex是当前唯一在亿级用户产品中稳定落地的全双工语音模型。字节指出，落地过程中需解决高并发下的延迟抖动、音频输入输出卡顿及服务稳定性等工程难题，此类问题在学术环境中未被覆盖。

字节承认，Seeduplex尚未解决多方对话、视觉-语音协同、边听边搜索等更深层交互挑战，其定位为全双工语音演进路径中的关键节点，而非终点。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。