科技媒体marktechpost报道,英伟达近日推出开源自动语音识别(ASR)模型Parakeet TDT 0.6B,在Hugging Face平台公开。该模型以速度和精度见长,仅需1秒即可处理60分钟音频,速度达主流开源ASR模型的50倍,字错率(WER)低至6.05%,位居开源ASR领域前列。
Parakeet TDT 0.6B基于Transformer架构,针对英伟达硬件优化,支持实时转录、语音分析等企业级应用。其6亿参数的编码-解码结构结合量化和融合内核,显著提升推理效率,并具备时间戳、数字格式化及标点恢复功能。此外,该模型创新支持歌曲转歌词转录,适用于音乐索引和媒体平台,实时率(RTF)高达3386。
这一模型的推出,为会议记录、法律转录、医疗记录等场景提供了高效解决方案,同时降低了后期处理成本,展现出强大的商业应用潜力。