您现在的位置是：网站首页>游戏游戏

阳光电玩城官方最新版本

邵灵雁 2025-05-14 【游戏】 9933 人已围观

机器之心发布⑥、机器之心编辑部▓、多模态奖励模型在提升多模态大语言模型的表现中起着至关重要的作用⑫，在训练阶段可以提供稳定的 reward④，评估阶段可以选择更好的 sample 结果❸，甚至单独作为 evaluator▓。尽管近期强化学习在传统视觉任务和多模态推理任务中取得了显着进展▓，但其在奖励建模中的应用仍然受到挑战⑤，尤其是如何通过强化学习对奖励模型引入长期推理能力⑫。

来自快手③、中科院⑭、清华❸、南大的研究团队发现❷，直接把现有的 RL 算法用到训练 MRM 上⑬，会遇到很多问题①，比如训练过程很不稳定⑧，甚至直接崩掉②。本文的出发点就是要解决这些问题❶，探索如何利用强化学习来稳定⑭、有效地提升多模态奖励模型的长时推理能力③。基于团队在多模态强化学习的工作 MM-RLHF ❸，本文进一步提出了 R1-Reward⑳，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升❸，且随着 inference sampling 的数目增多还能进一步增长⑰。

R1-Reward 不仅在学术上展现了巨大价值⑨，还在快手的实际业务场景中得到了成功应用⑱。例如⑬，在短视频⑳、电商和直播等场景中⑭，该方法已用于标签识别③、多图 / 多视频相关性判断以及短视频推荐④，并取得了显着的性能提升③，展示了较强的工业化潜力❶。

一分钟速看全文内容

1. 重新定义问题：作者把训练奖励模型这个问题⑤，看成是一个基于规则的强化学习任务⑰。简单说⑦，就是给奖励模型一个问题和两个答案⑫，让它通过学习来判断哪个答案更好④，并且能给出合理的分析⑬。

2. 提出新算法 StableReinforce：针对现有 RL 算法的不足⑰，他们提出了一个改进版的算法叫 StableReinforce⑱。这个算法主要在几个方面做了优化：

改进了损失函数里的裁剪操作①，提出了 Pre-Clip⑤，防止数值计算不稳定⑲。

提出了一种更稳健的优势值处理方法⑯，不容易被极端值带偏⑪。

设计了一个新颖的“一致性奖励” ⑰。它引入了另一个大模型作为 “裁判”②，专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的⑦。如果一致⑫，就给奖励❷，这样能促使模型做出更符合逻辑的判断⑦。

3. 渐进式的训练策略：

他们从各种公开数据集中收集了 20 万条偏好数据❶，构建了一个名为 R1-Reward-200k 的数据集用于训练⑧。

采用了一种 “渐进式难度” 的训练策略⑲。因为直接用 RL 训练模型效果不好⑱，他们先用 GPT-4o 对这些数据生成了详细的思考过程▓，作为监督微调的数据⑪，让模型先 “入门”⑪。同时⑮，他们记录了 GPT-4o 判断每个样本的难度⑨。

在后续的强化学习阶段⑮，专门挑选那些 GPT-4o 都觉得比较难的样本进行训练②，让模型在难题上得到锻炼⑯。

4. 效果显着：⑧、实验结果表明⑭，这个 R1-Reward 模型在几个主流的多模态奖励模型测评基准上表现非常出色⑮，显着超过了之前的最佳模型 ⑱。比如在一个榜单上提升了 8.4%②，在另一个榜单上提升了 14.3%⑫。

更有趣的是❸，他们发现通过在推理时多做几次计算⑤，R1-Reward 的性能还能进一步大幅提升⑯，这说明 RL 方法在优化奖励模型方面潜力巨大⑳。

他们还观察到⑭，经过 StableReinforce 的 RL 训练后❷，模型输出的平均长度减少了大约 15%❸，这意味着模型可能变得更有效率了❷。

现有强化学习方法的局限性

什么是奖励模型⑳、奖励模型通常被用来判断两个模型的回答②，哪一个更符合人类喜好⑧。具体的优化公式如下：

具体的优化公式大概长这样：

这里的 r x) 是模型打的分数③，σ 是个 sigmoid 函数⑪，E 表示求期望⑯。即模型要尽量让好答案的分比坏答案的分高❸，差距越大越好⑲，然后通过 log 和 sigmoid 函数来计算损失⑮。

PPO 和 Reinforce++ 算法简介

PPO 是一种很常用的强化学习算法⑤，属于策略梯度方法⑧，目标是直接优化模型来获得最大的累积奖励⑩。它的厉害之处在于③，它不像传统的策略梯度方法那样容易因为步子迈太大而导致训练不稳定⑨。PPO 通过一种特殊的方式来限制每次策略更新的幅度②。

它的目标函数如下：

这个公式的核心思想在于 min 和 clip 操作⑦。它确保了就算 ratio * A_t 很大⑯，也会被 clip 后的项限制住⑩，防止策略更新过猛导致训练不稳定⑩。PPO 因为实现简单⑥、效果好④，所以在很多地方都得到了应用②。

Reinforce++ 是在 PPO 基础上做了一些优化的版本⑤，目的是让训练更稳定⑩、更高效⑲。主要改进有：

PPO/Reinforce++ 的问题在哪⑲？

虽然 PPO 和 Reinforce++ 不错⑦，但在实际训练中⑭，尤其是在训练奖励模型的时候⑫，研究者们发现它们有两个核心问题▓，很容易让模型训练不稳定甚至失败：

1. 训练损失导致的不稳定：

计算 PPO 损失时⑩，需要算概率比值 ratio②。如果新旧策略差别很大⑭，此 ratio 可能会变得非常大或非常小❶。

在代码实现里⑦，通常是算 ratio = torch.exp⑫。如果 log_probs - old_log_probs 差值很大⑮，exp 运算可能会导致数值溢出⑦，最终导致程序崩溃▓。

即使数值没有溢出③，如果算出来的 ratio 很大⑭，并且优势 A_t 是负的⑲，那么根据 PPO 的损失公式 ①，这个损失值可能会变得异常大⑬。这么大的损失会让模型的参数更新变得极其不稳定❸。

2. 优势归一化导致的不稳定：

这就导致在训练后期⑥，一个批次里的数据⑭，模型可能大部分都能预测对⑥。比如一个 batch 里有 255 个样本的真实奖励是 1⑩，只有 1 个是 0⑮。

在这种情况下⑯，奖励的方差会非常小⑦。如果这时候还用标准的优势归一化方法⑬，那个奖励为 0 的样本对应的优势值⑲，在归一化之后可能会变成一个绝对值非常大的数②。

这么大的优势值同样会干扰模型的更新③，导致训练不稳定⑤。

总的来说⑤，就是直接把 PPO 或者 Reinforce++ 用在奖励模型训练上❶，会因为损失计算和优势归一化这两个环节内在的问题⑯，在高效率训练或者训练后期特定数据分布下▓，引发数值不稳定⑩，最终影响模型效果⑥。

StableReinforce 提升训练稳定性

将 MRM 转化为强化学习问题

首先使用下面的 prompt⑱，将奖励建模问题转化为 rule-based 的强化学习问题

近期 follow deepseek-r1 工作的方法基本上都是格式奖励 + 结果奖励⑭，但是在奖励模型训练过程中⑧，这存在着一致性问题：即只用上面两个奖励时⑯，模型有时会 “精神分裂”：分析部分（

）明明说回答 2 更好⑧，但最后却输出 ❷。因此本文引入了一个额外的 “裁判” 模型⑤。这个裁判专门负责检查奖励模型自己输出的分析内容⑲，看它是不是真的支持最终给出的那个答案⑳。

1. 奖励函数设计：文章提出了三种奖励函数：

格式奖励：要求模型的输出符合指定的格式▓，即‘’⑲，鼓励模型在给出最终答案之前先进行推理⑤，以提高内容的质量和可解释性④。

结果奖励：模型最终生成的答案必须与人类专家的偏好一致②。

一致性奖励：确保推理过程与最终答案一致⑮，即模型的最终结果应当直接源自其推理过程⑩，而不是与推理步骤无关的生成内容❶。

2. 最终奖励计算：为了解决可能出现的一致性奖励过度偏重的问题⑳，最终的奖励计算公式为：

这样的设计好在 Consistency Reward 的加成效果只有在 Result Reward 大于 0的时候才能真正起作用⑭。如果答案选错了①，Result Reward 通常是 0 或者负数④，那么一致性奖励就不会带来正向激励⑳，从而确保模型首要目标还是把答案选对▓。格式奖励作为一个基础分被加上去②。“长思考链” 的冷启动问题

多模态大模型本身并不是为做奖励模型这种 “评价比较” 任务而设计的⑧，所以直接用强化学习去训练它们⑥，效果通常很差而且不稳定⑮，因此本文先进行了一轮监督微调⑭。

做法：让 GPT-4o 对 R1-Reward-200k 数据集里的每一条数据⑥，都按照 Table 1 里的提示模板⑥，生成标准的 “分析过程” 和 “最终答案”⑤。生成时设置 temperature=1⑪，并且最多尝试 3 次❶，直到生成的答案和真实标签一致⑱。

记录难度：同时⑮，他们还记录了 GPT-4o 需要尝试几次才能生成正确答案⑬，把这个次数作为样本 “难度” 的指标⑱。

目的：这个 SFT 阶段就像是给模型 “预习”⑭。通过模仿 GPT-4o 的输出⑭，先让模型学会任务的基本格式和流程❸，熟悉这个奖励建模任务应该怎么做⑯。

强化学习训练数据的筛选①、1. 筛选标准：在进行真正的强化学习训练时⑩，并不是用 SFT 阶段的所有数据⑪。研究人员专门挑选了那些被认为是 “更难” 的样本⑨。

在 SFT 阶段②，那些 GPT-4o 需要尝试 2 次或 3 次才能给出正确答案的样本⑮。

以及那些 GPT-4o 尝试了 3 次仍然没能给出正确答案的样本①。

研究人员认为⑫，这些样本通常意味着两个回答之间的差别更小⑧，更难判断优劣⑧。用这些 “硬骨头” 来训练模型进行强化学习⑲，可以更有效地提升模型辨别细微差异的能力⑥。

有趣的实验发现⑱、研究人员通过一系列实验来验证他们提出的 R1-Reward 模型和 StableReinforce 算法的效果❷，得到了一些挺有意思的结果：

R1-Reward 效果拔群

在好几个主流的多模态奖励模型排行榜上⑪，R1-Reward 的表现都非常亮眼⑰，平均准确率显着超过了之前最好的开源模型❶。

他们尝试在评价的时候⑮，让 R1-Reward 模型对同一个问题输出好几个判断结果⑧，然后采取少数服从多数的方式来决定最终哪个答案更好⑨。

结果发现❷，这种简单的 “投票” 策略能大幅提升 R1-Reward 的准确率⑦。比如在 MM-RLHF 这个比较难的榜单上⑫，投票 5 次就能把准确率从大约 71% 提升到 85.3%⑱，投票 15 次更是达到 86.47%⑥，远超其他模型⑨。

更有意思的是⑲，他们还试了另一种策略叫 “Any Correct”④，就是只要模型输出的 K 次结果里有一次是正确的⑪，就算对▓。结果发现⑭，当 K=15 时⑮，这种策略的准确率几乎接近 100%③！这暗示 R1-Reward 其实有潜力完美区分所有样本⑧，只是需要更多的数据或更好的训练策略来完全激发出来⑰。

通过 SFT 和 RL 训练⑱，R1-Reward 不仅学会了如何评价两个回答⑰，还自主地学习到了一套分析流程：先明确目标⑱、分析图像①、尝试解决问题⑰、给出答案①，然后基于这个过程去评价两个外部给定的回答❷。

更有趣的是⑦，模型展示出了类似人类的反思和纠错能力④。比如在上图中⑤，模型自己计算时出错了⑩，但在检查图表后⑰，意识到了错误并重新计算得到了正确结果⑰。这说明模型不仅仅是在模仿④，还在学习某种程度的自我检查和修正机制⑮。

经过强化学习训练后⑤，模型输出的分析内容的平均长度还减少了约 15%❶，说明模型可能变得更 “言简意赅”⑧，推理效率提高了⑤。

结论⑬、本文介绍了 R1-Reward③，这是一种使用 StableReinforce 算法训练的多模态奖励模型⑨。通过实验⑳，本文证明了强化学习在奖励建模中的有效应用⑯，显着提升了模型的表现⑩。R1-Reward 解决了多个关键问题⑱，包括训练不稳定⑯、优势归一化限制以及推理和结果之间的不一致性❷。通过引入 Pre-Clipping▓、优势过滤③、一致性奖励以及渐进式训练策略④，StableReinforce 算法有效稳定了训练过程并提升了模型性能⑲。

实验结果表明▓，R1-Reward 在多个多模态奖励模型基准上超越了现有最先进的模型⑧，在准确率和数据效率方面取得了显着进展⑥。此外⑭，R1-Reward 还展示了优秀的推理时扩展能力⑱，为未来将强化学习融入多模态奖励模型的研究奠定了基础⑪。

展望未来❷，RL 在奖励建模中的应用仍有许多值得探索的方向❶。例如③，本文仅测试了简单的多数投票策略用于推理时扩展④，未来可能通过更先进的方法进一步提升性能③。此外❸，改进训练策略以进一步增强奖励模型的基础能力⑦，也是一个有意义的开放性问题⑮。

很赞哦②！

上一篇：90%的人都用错⑤？に和で表原因的天壤之别⑥，速来看▓！

下一篇：“男子投诉环保问题被打断肋骨⑮，获赔300万后被判寻衅滋事退款”新进展：重审改判无罪⑲，检方抗诉