FFmpeg新增AI音频转写工具af_whisper,支持实时流与多格式输出

开源媒体框架FFmpeg近日集成全新af_whisper音频工具,通过内置的自动语音识别(ASR)功能,用户可直接在FFmpeg生态中实现高效音频转文本。该工具基于whisper.cpp库,支持选择AI模型、指定语言及输出格式(文本、SRT或JSON),并可处理预录文件与实时音频流,结合语音激活检测(VAD)提升准确率。

此外,GPU加速功能的加入大幅缩短转写时间,将复杂的外部流程简化为单一命令行操作,为媒体处理提供更高效的解决方案。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1