OpenAI于3月20日发布博文,宣布推出语音转文本和文本转语音两大模型,进一步提升语音处理能力。新推出的gpt-4o-transcribe与gpt-4o-mini-transcribe两款语音转文本模型,在单词错误率、语言识别及准确性上超越现有Whisper系列,支持超100种语言,尤其在嘈杂环境、口音及不同语速下表现更佳。
与此同时,OpenAI还推出了gpt-4o-mini-tts文本转语音模型,开发者可通过指令控制语音风格,如“模拟耐心客服”或“生动故事叙述”,适用于客服体验优化及创意内容生成。三款模型费用透明,为开发者提供了灵活选择,助力构建更精准、可定制的语音交互系统,推动人工智能语音技术的商业化进程。