FFmpeg新增AI语音识别功能支持自动生成字幕- DoNews

DoNews > 公司新闻 > FFmpeg新增AI语音识别功能支持自动生成字幕

FFmpeg新增AI语音识别功能支持自动生成字幕

推荐 2025-08-13 23:08:03

FFmpeg 是一个流行的开源媒体播放器通用框架，最新版本中加入了 af_whisper 音频工具，可在其生态系统内实现自动语音识别（ASR）。

该工具基于 whisper.cpp 库开发，为媒体处理流程引入 AI 模型，支持灵活的音频转文本操作，包括选择 AI 模型、指定语言及设定输出格式如文本、SRT 或 JSON。

af_whisper 可处理预录制文件和实时音频流，同时提供语音激活检测（VAD）功能，以提升转写准确率与效率。

此外，该工具支持 GPU 加速，大幅提升转写速度。用户无需依赖外部、多步骤的转写流程，即可通过单命令行完成任务。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

风云X3系列双车上市，三大豪华同源8.99万元起售价极具竞争力全铝车身豪华同源，时尚户外方盒风云X3家族双车上市

电影《浪浪山小妖怪》票房破8亿；Meta总市值首次升破2万亿美元；阿里通义千问多个产品升级｜Do早报今日早报已为你呈上～

嘉楠科技第二季营收1亿美元：净亏1106万美元嘉楠科技2025年Q2营收1亿美元，同比增长39.5%；毛利930.6万美元，实现扭亏为盈。

银诺医药港股上市：大涨206%，市值262亿港元银诺医药港股上市，募资6.83亿港元，核心产品即将商业化，2025年前5月亏损9788万元。

文远知行获Grab投资数千万美元文远知行获Grab数千万美元投资，加速东南亚L4级Robotaxi部署，推动AI出行与司机转型。

新一代智己LS6预售权益价20.99万起，开创智能出行新品类颠覆20万级大五座SUV格局

东方财富上半年净利润为55.67亿元同比增长37.27% 东方财富2025年上半年营收68.57亿元，净利55.67亿元，证券业务稳健发展，布局做市业务。

富士康母公司二季度净利大增27%，但全年营收增速或低于预期鸿海2025上半年业绩亮眼，AI服务器需求激增推动营收3.44万亿新台币，Q2净利润同比大增27%。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号