微软推出自研AI三模型MAI系列，目标2027年实现大模型自主- DoNews

美国科技公司微软宣布，由其AI超级智能团队自主研发的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款模型正式投入广泛商用，覆盖语音转录、语音生成和图像创建三大核心企业AI能力。

MAI-Transcribe-1在多语言测试中平均错误率为3.9%，低于OpenAI GPT-Transcribe的4.2%及Gemini 3.1 Flash的4.9%。MAI-Voice-1宣称可在单块GPU上实现不到一秒生成60秒音频，并支持长内容中语音一致性保持。MAI-Image-2于3月19日首发，本次同步商用，在‘大模型竞技场’文生图榜单中位列第三，仅次于谷歌Nano Banana 2与OpenAI GPT-Image 1.5。

价格方面，MAI-Image-2文本输入起价为每100万词元5美元，图像输出起价为每100万词元33美元；对比显示，Gemini 3 Pro图像生成报价为120美元，Gemini 3.1 Flash为60美元。

该举措源于微软与OpenAI于2024年10月达成的合作关系重组，新协议允许微软独立或联合第三方开发通用人工智能系统，此前协议曾限制其研发竞争性AI模型。微软AI首席执行官穆斯塔法·苏莱曼表示，团队目标是到2027年实现文本、图像与音频模型全面达到世界最先进水平。

自2024年10月起，微软已开始部署英伟达GB200芯片以构建训练算力，计划在约12至18个月内逐步提升至前沿规模计算能力。苏莱曼于2024年11月全职领导AI超级智能团队，职责聚焦模型开发；其原负责的Copilot产品线已由前Snap高管雅各布·安德里欧接管。

微软强调将持续托管第三方模型，同时推进自身AI能力长期自主战略。其对OpenAI知识产权的深度访问权限将于2032年到期，自研模型亦构成关键风险对冲安排。

当前MAI系列仍存功能局限：MAI-Image-2仅支持1:1纵横比，缺乏横向/竖向选项及图像编辑、参考图支持；MAI-Transcribe-1尚不支持说话人区分、上下文偏置与流式传输，相关功能均处于开发阶段。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。