微软发布开源三值大模型BitNet b1.58 2B4T,能效比显著提升

微软研究团队近日推出开源大型语言模型BitNet b1.58 2B4T,采用创新的1.58位低精度架构原生训练,性能接近同规模全精度模型,但资源占用大幅降低。该模型仅需0.4GB非嵌入内存,远低于Gemma-3 1B等竞品。

BitNet的核心突破在于其三值权重系统(-1、0、+1),结合8位整数量化激活值,形成W1.58A8配置,并通过改进Transformer架构确保训练稳定性。测试显示,其在数学、物理常识等任务中表现优异,能耗低至每token 0.028焦耳。

目前,该模型已开源,但需配合微软专用框架以发挥效能优势。未来微软计划扩展多语言支持及硬件优化,进一步挖掘低位模型的潜力。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1