4月9日,字节跳动旗下AI研究团队Seed发布新语音模型Seeduplex,并完成在豆包App的全量上线。
Seeduplex采用原生音频全双工架构,使模型在输出语音的同时持续处理麦克风输入,实时区分用户语音、背景噪声与思考停顿,不再依赖独立VAD(语音活动检测)模块进行机械式音频分割。该模型将声学特征与语义上下文统一交由同一LLM决策,相较此前半双工框架,判停MOS分提升8%,对话流畅度MOS分提升12%。
技术指标显示,判停延迟降低约250ms,复杂场景下AI抢话比例减少40%,用户意图打断时响应延迟缩短约300ms,误回复率与误打断率在复杂声学干扰场景下降50%。真人对比测试中,Seeduplex在判停准确率上优于半双工方案,在响应打断能力上略超人人对话平均水平,但整体对话流畅度仍低于真人交流。
实际应用中,Seeduplex可在车载广播与导航混响环境下识别用户提问;区分朋友招呼、快递敲门等非指令性声音;支持英语口语练习中对停顿、改口的自然响应;并首次实现AI在用户说话间隙给出“嗯”“好的”等即时反馈信号,以及对“等一下”等打断意图的语义级理解与即时中止。
该模型属于原生音频全双工技术路线,与法国Kyutai的Moshi、NVIDIA的PersonaPlex同属前沿方向,但Seeduplex是当前唯一在亿级用户产品中稳定落地的全双工语音模型。字节指出,落地过程中需解决高并发下的延迟抖动、音频输入输出卡顿及服务稳定性等工程难题,此类问题在学术环境中未被覆盖。
字节承认,Seeduplex尚未解决多方对话、视觉-语音协同、边听边搜索等更深层交互挑战,其定位为全双工语音演进路径中的关键节点,而非终点。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



