FFmpeg新增AI语音识别功能 支持自动生成字幕

FFmpeg 是一个流行的开源媒体播放器通用框架,最新版本中加入了 af_whisper 音频工具,可在其生态系统内实现自动语音识别(ASR)。

该工具基于 whisper.cpp 库开发,为媒体处理流程引入 AI 模型,支持灵活的音频转文本操作,包括选择 AI 模型、指定语言及设定输出格式如文本、SRT 或 JSON。

af_whisper 可处理预录制文件和实时音频流,同时提供语音激活检测(VAD)功能,以提升转写准确率与效率。

此外,该工具支持 GPU 加速,大幅提升转写速度。用户无需依赖外部、多步骤的转写流程,即可通过单命令行完成任务。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1