腾讯发布AI图像生成技术新突破:SRPO研究

AI资讯2个月前发布 ainav
51 0

9月17日讯,腾讯混元团队于今晚在其官方公众号发布重要公告称,其生图研究小组在9月10日推出了全新研究成果SRPO(Semantic Relative Preference Optimization),这一创新算法主要针对开源文生图模型Flux在生成人像时皮肤质感“过于油腻”的问题进行了深度优化。据称,通过SRPO技术,人像的真实感得到了显著提升,官方宣称效果提升了3倍。

自发布以来,SRPO项目迅速引发关注,在Hugging Face平台的热度榜上一举夺冠,社区量化版本下载量达到25K次,GitHub上的Star数更是突破700大关。这一成绩充分证明了该技术在开源文生图领域的影响力。

目前,Flux是开源文生图领域使用最为广泛的基线模型之一。针对其生成的人像皮肤质感“过油”的问题,SRPO团队提出了一套创新解决方案。具体来说,这项技术通过在线调整奖励偏好优化生成轨迹的前半段等手段,有效解决了传统方法仅优化后半段导致的过拟合问题。

腾讯发布AI图像生成技术新突破:SRPO研究

据官方介绍,腾讯混元团队与香港中文大学(深圳)和清华大学的研究人员共同开发了这一技术。SRPO的核心创新在于通过语义偏好优化奖励模型的在线调整能力。具体实施中,研究人员为奖励模型添加了特定的控制提示词,例如“真实感”,以此来定向增强其在特定维度上的优化效果。实验数据显示,这些控制词能够显著提升奖励模型对图像真实度等关键指标的优化效率。

然而,团队在研究过程中发现,单纯依靠语义引导仍然存在“奖励破解”的风险。对此,SRPO提出了一种独特的“相对偏好优化”策略:通过同时引入正向和负向词作为引导信号,并利用负向梯度有效抵消奖励模型的普遍偏差,同时保留语义差异中的特定偏好,从而实现了更稳定和可靠的优化效果。

传统的文生图方法(如ReFL、DRaFT)往往只关注生成轨迹的后半段优化,这种策略容易导致奖励模型在高频信息上出现过拟合现象。例如,HPSv2奖励模型偏好红色调图像,PickScore倾向于紫色图像,而ImageReward则会对过曝区域产生过高评分。

腾讯发布AI图像生成技术新突破:SRPO研究

为了解决这一问题,研究团队提出了Direct-Align策略。该方法通过在输入图像中注入可控噪声,并利用单步推理的方式,将注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,使得奖励信号的传导更加精准,从而能够有效优化生成轨迹的前半段,从根本上解决了过拟合问题。

SRPO在性能指标上达到了当前最优水平(SOTA)。与传统方法相比,其人类评估的真实度和美学优秀率提升了超过3倍。更值得关注的是,SRPO的训练效率实现了质的飞跃:仅需10分钟即可完成训练,而对比组DanceGRPO则需要漫长的750分钟才能达到相似效果。

腾讯发布AI图像生成技术新突破:SRPO研究

以下是相关链接:

  • 论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

  • 论文链接:https://arxiv.org/abs/2509.06942

  • 项目主页:https://tencent.github.io/srpo-project-page/

  • GitHub:https://github.com/Tencent-Hunyuan/SRPO

© 版权声明

相关文章