腾讯混元发布SRPO算法解决生图模型皮肤过油问题

腾讯混元生图团队于9月10日发布新研究SRPO,旨在优化文生图模型中人像皮肤质感“过油”的问题,显著提升图像真实感。

该技术全称为语义相对偏好优化(Semantic Relative Preference Optimization),通过在线调整奖励偏好和优化生成轨迹的前半段,提升生成质量。

Flux是当前开源文生图社区广泛使用的基础模型,但其生成的人像常存在皮肤反光过强、质感不真实的问题。SRPO针对此缺陷提出解决方案。

研究团队联合香港中文大学(深圳)与清华大学,提出通过控制提示词如“真实感”来定向调整奖励模型的优化目标,增强特定维度的表现力。

为防止语义引导导致的奖励破解(reward hacking)问题,SRPO采用正向词与负向词并行的相对偏好策略,利用负向梯度中和奖励模型偏差,保留语义差异中的特定偏好。

传统方法如ReFL和DRaFT通常仅优化生成轨迹后半段,易引发对高频信息的过拟合,表现为偏色、过饱和或过曝区域评分虚高。

为此,团队提出Direct-Align策略:通过可控噪声注入输入图像,并以单步推理重建图像,将注入噪声作为“参考锚点”,降低重建误差,实现更精准的奖励信号传导。

该策略支持对生成轨迹前半段进行有效优化,缓解过拟合现象。

实验结果显示,SRPO在训练效率上表现突出,仅需10分钟训练即可超越DanceGRPO的效果。

定量评估中,SRPO达到SOTA水平,人类评估的真实度与美学优秀率提升超过3倍,训练时间较DanceGRPO减少75倍。

项目发布后登上Hugging Face热度榜榜首,社区量化版本下载量达25K,GitHub Star数超过700。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1