作业帮教育科技(北京)有限公司一种基于多模态语音识别模型预测语音内容的方法及装置专利公布(语音技术专利快讯)

天眼查App显示,2025年6月6日,「一种基于多模态语音识别模型预测语音内容的方法及装置」正式进入专利公布阶段。申请人为作业帮教育科技(北京)有限公司,该项语音技术专利涉及多模态语音识别模型的构建与训练,旨在解决固定语言模型参数不能很好适配实际场景需求的技术问题。据专利信息显示,该发明在模型适配性方面实现显著优化。发明人为郑思远、付凯奇、杨帆和周舒然。

专利摘要指出,本发明公开了一种基于多模态语音识别模型预测语音内容的方法及装置,多模态语音识别模型包括语音转文本大模型、模态适应层、Embedding层和大语言模型。其训练流程分为两个阶段:第一阶段使用自动语音识别数据训练多模态语音识别模型,其中大语言模型和Embedding层的模型参数保持固定;第二阶段在第一阶段完成后,固定语音转文本大模型的参数,对大语言模型采用优化微调策略。通过这种方法,有效提升了模型在实际应用场景中的适配能力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1