新闻动态

DPO或组更好?共同发布香港,中国,北京大学的

作者:365bet体育 时间:2025/06/22 点击:

近年来,强化学习(RL)表现出了改善大型语言模型(LLM),两种常规算法,直接优先优化(DPO)和相对战略优化(GRPO)组的链条思维推理能力(COT)的巨大潜力。如今,这浪RL也倒入了图像生成领域。此外,当我们将自动图像的产生视为序列化推断的过程时,中心问题的表面是:DPO和小组将如何在这个新的战场上进行?每个人的优势,挑战和最佳实践是什么?最近,中国大学,北京大学和香港上海人工智能研究所的新研究给出了答案。这项研究首次提供了自我代表性图像中算法应用程序和DPO的完整详细比较。除了评估性能和外部领域外,e还仔细检查了几种奖励模型和能力扩展策略的影响。文档标题:用于使用COT生成图像的钻探RL:DPO与Grupo纸链接的研究:https://arxiv.org/abs/2505.17017代码链接:https://github.com/ziyuguo99/image-generage-cot-cot conformenty of y Imagement of The Image the Image of Image of Image of Image of Image of Image of Image of Image of Image of Image of Image of Image of Image of Image of图像的图像(图1的复杂模型。 (域,副本文本)数据的数据基于自动列为i的最新模型法师世代,Janus-Pro。可以在三个主要方面总结细胞核的发现:1。在Dominiornd内部和门诊域的概括:DPO和GRPO在田间DPO中有很大的运气并占据了域。实验结果表明,政治外部的DPO方法优于主体内任务中的GPO。性能数据集T2i-Compbench DPO比平均GPO收益率高约11.53%。通过使用官方评估工具作为奖励信号,DPO甚至可以达到7.8%的最大增加。这突出了DPO对内部通信任务的有效性和鲁棒性。 GRPO更广泛。政治团体是一种肿瘤石器时代,在领土以外的概括功能方面更好地发挥作用。使用Gineval数据集,GRPO总是比DPO执行更好的概括。通过使用HPS奖励模型,最大GRPO增加比DPO高2.42%。 2。奖励模型的影响:DPO更感官ITIVE和高质量奖励模型使RL广义DPO对选择奖励模型更敏感:我们发现,DPO的广义性能比GRPO更敏感。 Gineval中GRPO的Varianza性能为0.5486,显着少于DPO的0.9547。奖励模型的内部概括能力很重要。具有更强内部概括能力的奖励模型可以提高RL算法的概括的一般性能。在这项研究中,各种Gineval Rewards模型的性能分类(例如HPS,Imagerward,Unified Reports)与GRPO或DPO优化的RL模型的性能分类非常吻合。 3。研究有效的扩展策略:根据DPO和GRPO策略的教育大不相同。研究团队系统地研究了三种常规扩展策略。扩张每个通知产生的示例图像数量,扩大域内的多样性和训练数据的数量,并使用IT培训方法。对于GRPO:改进的采样图像可以导致更有效的内部沟通改进。采样量表的中等尺度和内部通信数据可以帮助提高概括能力,但过度尺度会导致过度。对于DPO:重复训练倾向于最大化神圣的表现,但在多次迭代后会影响概括。平均采样可以提高其首选比较,并优化性能和外部域。但是,Overmore引入了偏见。内部通信数据量表可以同时改善域内的性能,从而放宽了小数据集带来的偏好限制。研究和信息详细信息研究团队首先揭示了任务环境:生成自动式图像的模型(如Calln,Show-O,JanuS-Prop)通过将图像转换为离散令牌序列进行预测,并且DPO和GRPO丢失的机制是没有COSIS的,因为它们的过程与LLM文本的产生相似。在DPO和GRPO之间的比较中,研究人员在计算成本方面确保了两种可比性。例如,DPO中每个指标生成的图像数量与组大小一致,并使用相同的奖项。结果清楚地表明,由于有效利用预先使用的静态数据,DPO在ITACIANIALS方案中最有效,例如T2i -Companch的复杂长期描述。 GRPO通过迭代优化策略和在线抽样适应了复杂任务的分布,该策略显示了外部领域场景中更强烈的概括(例如,Gineval播种的简短描述)。图2:比较内部性能域的视觉结果。分析奖励模型的影响时,研究人员研究了三种类型的奖励模型。基于人类偏好(HP,图像的图像),问题和视觉答案模型(unifyOward,ft.orm)和公制奖励模型的模型。一个有趣的发现是,奖励模型本身的概括能力(通过最佳和策略在日内瓦评估)是RL(DPO或GRPO​​)算法)与训练后模型的概括分类非常一致。这表明,提高奖励模型本身的概括是改善RL泛化的重要方法。图3:不同奖励模型的影响的视觉结果。在研究规模策略时,研究人员提出了针对GRPO和DPO特征的不同优化途径。例如,在Gropo中,增加数字图像可以提高经济领域内的性能,从而增加数据或训练迭代的数量。对于DPO,迭代trai宁(例如DPO-IR)可以显着提高委托委托的评分,但可以导致瓶颈,概括能力降低和具有超级乳液的训练偏好数据。同时,扩大了通信数据的多样性和数量,DPO可以帮助克服小型首选数据集的局限性,从而同时提高了造术内部和域的性能。图4:比例策略影响的视觉结果。总结和Outlook本研究提供了DPO和GRPO在自代表图像领域中应用的清晰图像。它不仅揭示了DPO在子宫内部的任务中的优势,而且还强调了高度概括的高质量奖励模型的重要性,并为两个RL范式提供了客观规模策略的建议。这些发现为未来开发更有效的RL算法开发了新的形式,以实现更多的RO自我代表性图像领域的胸围推断。研究人员希望这项研究能够刺激更多的监测研究,并共同促进AI在视觉创造力中的限制。

鱼丸游戏飞禽走兽电玩城_森林舞会电玩城游戏大厅

客服热线:400-123-4567

邮箱:[email protected]
地址:广东省广州市天河区88号

首页
电话
短信
联系