天眼查App显示,科大讯飞股份有限公司近日公开了一项名为“音频识别方法、系统、电子设备及存储介质”的发明专利(专利号:CN202411542639.2)。该发明旨在通过一种创新的音频识别方法,提升说话人数目估计的准确性和音频识别的适应性,同时降低配置成本。具体而言,该方法首先将单一通道的待识别音频声学特征输入至音频识别模型中的转换点检测器,以获取说话人转换点的时间戳向量。随后,将这些时间戳向量与声学特征一起输入片段检测器,从而区分出单一说话人的音频片段和多个说话人的重叠音频片段。最后,根据各片段的声纹特征确定输入信息,并通过估计器得出待识别音频中的说话人数目。此发明有望在保障准确性的同时,显著提高音频识别系统的效率和实用性。
风险警告:本文根据网络内容由AI生成,内容仅供参考,不应作为专业建议或决策依据。用户应自行判断和验证信息的准确性和可靠性,本站不承担可能产生的任何风险和责任。内容如有问题,可联系本站删除。