在大模型训练中,强化学习算法是提升性能的关键,但面临计算资源高、速度慢等问题。近日,360数字安全集团冰刃实验室主导开发了RL-LoRA训练方案,实现了轻量化和高性能的突破。
RL-LoRA将LoRA技术引入强化学习全流程,在保持泛化能力的同时,显著降低资源需求。以往8卡A100难以支持的32B+模型,如今可轻松扩展至70B甚至更大规模。实际测试显示,LoRA_rank=32的0.5B模型采用RL-LoRA训练,收敛速度与常规GRPO训练相当,同时大幅节省算力。
该方案具备多项优势:降低显存尖峰以支持更多批次处理,提高训练效率;生成的LoRA Adapter体积仅为全参数模型的1%-5%,极大简化部署难度。
360安全大模型已深度融合RL-LoRA技术,通过紧凑型多专家协同架构(CCoE),针对安全研判、分析等任务设计独立“专家”模块,实现高效扩展。目前,360已推出100+安全专家智能体,并为近500家用户提供服务,助力多个行业智能化转型。
RL-LoRA相关核心代码现已开放下载。未来,360将继续探索AI+安全实践,推动国内AI生态发展。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。