美国科技公司微软宣布,由其AI超级智能团队自主研发的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款模型正式投入广泛商用,覆盖语音转录、语音生成和图像创建三大核心企业AI能力。
MAI-Transcribe-1在多语言测试中平均错误率为3.9%,低于OpenAI GPT-Transcribe的4.2%及Gemini 3.1 Flash的4.9%。MAI-Voice-1宣称可在单块GPU上实现不到一秒生成60秒音频,并支持长内容中语音一致性保持。MAI-Image-2于3月19日首发,本次同步商用,在‘大模型竞技场’文生图榜单中位列第三,仅次于谷歌Nano Banana 2与OpenAI GPT-Image 1.5。
价格方面,MAI-Image-2文本输入起价为每100万词元5美元,图像输出起价为每100万词元33美元;对比显示,Gemini 3 Pro图像生成报价为120美元,Gemini 3.1 Flash为60美元。
该举措源于微软与OpenAI于2024年10月达成的合作关系重组,新协议允许微软独立或联合第三方开发通用人工智能系统,此前协议曾限制其研发竞争性AI模型。微软AI首席执行官穆斯塔法·苏莱曼表示,团队目标是到2027年实现文本、图像与音频模型全面达到世界最先进水平。
自2024年10月起,微软已开始部署英伟达GB200芯片以构建训练算力,计划在约12至18个月内逐步提升至前沿规模计算能力。苏莱曼于2024年11月全职领导AI超级智能团队,职责聚焦模型开发;其原负责的Copilot产品线已由前Snap高管雅各布·安德里欧接管。
微软强调将持续托管第三方模型,同时推进自身AI能力长期自主战略。其对OpenAI知识产权的深度访问权限将于2032年到期,自研模型亦构成关键风险对冲安排。
当前MAI系列仍存功能局限:MAI-Image-2仅支持1:1纵横比,缺乏横向/竖向选项及图像编辑、参考图支持;MAI-Transcribe-1尚不支持说话人区分、上下文偏置与流式传输,相关功能均处于开发阶段。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



