AI生成苹果Metal内核实现PyTorch推理提速87%

Gimlet Labs研究显示,AI可自动生成适用于苹果设备的Metal内核,在测试中实现PyTorch推理速度提升87%

实验覆盖215个PyTorch模块,AI生成的Metal内核平均加速1.87倍,部分工作负载提速超过9000倍。

研究人员使用来自Anthropic、DeepSeek和OpenAI的8个模型生成GPU内核,测试平台为搭载Apple M4 Max芯片的Mac Studio设备。

实验采用KernelBench数据集,将测试模块分为三级:一级为简单操作(如矩阵乘法、卷积);二级由一级操作组成的多操作序列;三级为完整模型架构(如AlexNet、VGG)。

测试流程包括接收提示和PyTorch代码、生成Metal内核、验证正确性,若失败则最多重试5次。以o3为例,首次尝试约60%概率生成可用内核,第5次可达94%。

实验结果显示,GPT-5在一个Mamba 25状态空间模型上实现4.65倍加速,主要通过内核融合减少调用开销并优化内存访问。

尽管GPT-5在34%问题上生成最优解,但其他模型在30%问题表现更优。研究人员采用智能体群体策略,相较单个模型提升性能。

智能体群体在各层级平均加速31%,Level 2问题加速42%。引入额外上下文(如CUDA实现、gputrace性能分析)后,平均加速提升至1.87倍。

部分专家指出,研究采用的PyTorch eager mode通常用于调试而非部署,与实际优化后的内核相比不具备可比性。

研究人员回应称,该研究旨在验证AI自动生成内核的可行性,而非展示最终性能极限。目标是通过AI实现部分内核工程自动化。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1