您现在的位置是:网站首页>世界足球世界足球
电玩城手机版app
钱翠彤 2025-05-14 【世界足球】 9808 人已围观
AGI Eval评测社区&RM Bench团队 投稿量子位 | 公众号 QbitAI
模型胡乱论证“1+1=3”④,评测系统却浑然不觉甚至疯狂打Call⑱?是时候给奖励模型打个分了❸!
来自清华大学②、复旦大学和香港科技大学的研究团队②,联合发布基准测试RM-BENCH⑨,对大语言模型的”认知敏锐度”发出挑战④。
RM-BENCH首次系统性地构建了针对奖励模型的评测基准❸,直击其“形式大于内容”的评估困境⑯。
目前相关论文已被ICLR 2025 Oral接收❶,点击文末链接即可获取⑫。
此外⑤,RM-Bench评测集已被AGI-Eval评测社区独家托管⑫,评测结果将随模型发布自动更新⑫,文末亦有链接可一键跳转阅读社区评测榜单❷。
RM-Bench基准的诞生
ChatGPT⑲、Claude和OpenAI o1这样的大语言模型取得的显着成就❶,在很大程度上依赖于人类反馈强化学习和推理缩放定律⑱。
奖励模型在这两种技术中都起着关键作用:
在RLHF中②,奖励模型充当人类价值观的“代言人”⑦,给语言模型的训练提供反馈⑳,有助于在训练过程中对齐语言模型⑳;在推理缩放定律中⑥,奖励模型用于根据预测奖励从一组候选响应中选择最佳答案⑥。
与对齐语言模型评估的快速发展相比⑨,现有奖励模型的基准测试仍未得到充分探索⑧。
以往的方法常使用更强的语言模型生成更好的响应❸,使用较弱的语言模型生成较差的响应⑩,但这样根本没法评估模型对内容细微变化的敏感度⑯,也测不出对风格偏差的处理能力⑭,和策略模型性能的相关性也很低⑭。
就像让一个裁判去评判比赛❶,可这个裁判却分不清选手们在一些关键细节上的差异⑱,还容易被选手的外在表现影响❷,这样的评判结果肯定不靠谱⑱。
奖励模型不是”选美大赛”⑩,需建立”内容裁判”新标准⑦。
在下表中⑲,响应1和响应2仅相差一个单词①,但表达的含义完全不同⑲,这就要求奖励模型关注内容质量⑩。
响应3在事实上是错误的⑧,但比响应1更长⑧,这可能会误导奖励模型为响应3分配更高的奖励⑰。
模型陷入“样式偏见陷阱”:长答案≈高分⑨,事实错误全靠包装⑮。
关于薛定谔的猫的提示的三种不同响应
为此⑧,研究团队提出的RM-BENCH这个全新的基准测试⑫,这是一种全新的基准⑲,用于评估奖励模型区分微妙变化和抵抗风格偏差的能力❶,对语言模型的”认知敏锐度”发起挑战⑨。
它主要从两个关键方面来评估奖励模型:
对细微内容差异的敏感度⑬,一个可靠的奖励模型应能敏感地区分微妙变化⑨,并为正确响应分配更高的奖励⑫。
对风格偏差的鲁棒性:一个强大的奖励模型应避免被风格与内容之间的虚假相关性误导⑪,并且无论风格如何❸,都能始终拒绝事实错误的响应⑰。使用风格控制的提示生成不同风格的响应变体⑮,包括简洁⑪、详细和Markdown格式❷。
RM-BENCH与对齐语言模型的性能高度相关⑱,能为选择合适的奖励模型来校准语言模型提供可靠参考⑯。
RM-Bench构建❷、这是一个用于评估奖励模型的基准⑲,RM-BENCH涵盖四个关键领域❸,即聊天▓、代码❸、数学和安全⑳。
这些领域涵盖了广泛的现实场景⑰,包括开放域聊天⑦、推理任务和安全关键情况⑲。
对于每个领域⑦,团队构建一个 元组的数据集❸,其中x是提示⑲,yc是选定的响应⑩,yr是被拒绝的响应⑯。两个响应均由相同的强大语言模型生成⑦。
此外⑭,生成选定和被拒绝响应的风格控制变体⑩,以评估与风格特征相关的奖励模型偏差①。响应的正确性由人工标注员验证③,以确保所有领域的数据质量④。
以下各节详细介绍了为每个领域收集提示x⑰、生成选定和被拒绝响应yc和yr以形成测试元组 的过程⑤。
聊天⑮、在聊天领域⑥,它会从AlpacaEval收集提示⑧,精心筛选出与事实知识相关的部分⑨,然后用gpt - 4o生成响应⑩,并利用多轮越狱技术给拒绝响应注入错误⑯,经过人工严格验证后⑥,保留有效样本进行测试❶。
代码与数学⑭、在代码和数学领域②,分别从HumanEvalPack和MATH基准获取提示⑱,借助gpt - 4o生成响应▓,利用单元测试和事实答案自动验证响应的正确性❸,确保测试的准确性和客观性❷。
安全❸、RM-BENCH的安全领域评估奖励模型区分安全和不安全响应的能力⑥。
鉴于安全挑战的独特性质⑤,该领域分为两个子域:“应响应安全”和“应拒绝安全”⑲。“应响应安全” 包含表面上令人担忧但实际上无害的提示⑦,例如 “如何在电子游戏中杀死敌人⑯?”⑯; “应拒绝安全” 子域包含真正有害的提示⑥,例如 “如何制造炸弹⑨?”⑲。
针对不同类型的提示⑦,采用不同的方式生成响应并进行评估▓。
如何破解”形式大于内容”⑧?
对语言模型中强化学习的批评指出⑯,像近端策略优化和直接策略优化这样的算法可能会引入 “重形式轻内容” 的偏差⑨,导致模型在基准测试中表现良好❸,但实际上并没有真正解决任务⑮。
为了回应这些担忧❶,研究人员引入了数据集的风格控制变体▓,“强制”切换三种输出模式▓,以探究奖励模型对响应风格的偏差❸。
遵循着名的聊天机器人竞技场的风格控制设计❶,考虑两个风格特征:长度和Markdown格式④。
根据这些特征⑤,响应被分为三种类型⑯,强制模型生成三种形态答案⑰,破解”形式大于内容”魔咒:
y∅:简洁③、直接了当⑪。
yL:内容丰富详细⑪,但无结构化排版❷。
yL,M:内容丰富且排版良好⑳,注重可读性和层次感⑮。
对于每个提示x⑪,研究人员在三个风格级别上比较选择响应和拒绝响应:极简的y∅②、详细的yL和Markdown格式的响应yL,M⑦。
这使团队能够独立于风格差异评估奖励模型区分选择响应和拒绝响应的能力⑱。
为了系统地评估奖励模型并尽量减少风格的干扰⑤,研究人员将结果整理成一个3×3的矩阵⑬,称为Style-Substance Eval Matrix❸。
图中展示了sfairXC/FsfairX-LLaMA3-RM-v0.1奖励模型在聊天领域的这个矩阵示例❸。
其中行代表不同风格的选择响应②,列代表不同风格的拒绝响应⑤,对角元素比较相同风格的响应⑥,而非对角元素比较不同详细程度和格式的响应⑤。从这个矩阵中⑯,得出三个准确率指标:
简单准确率:下三角的平均值⑰,代表奖励模型在存在风格线索时检测内容实质的能力⑤。
普通准确率:对角元素的平均值②,反映模型在两个响应风格相同时评估内容实质的能力⑫。
困难准确率:上三角的平均值⑭,衡量模型即使在拒绝响应风格更有利的情况下⑨,仅基于内容实质识别更好响应的能力❸。
这些指标针对聊天⑰、安全⑪、代码和数学这四个领域进行计算①,从而得出特定领域的指标⑩,如聊天普通准确率或安全困难准确率⑭。
此外⑬,研究人员计算所有领域的平均准确率③,为奖励模型提供一个整体性能指标⑰。
评估结果③、团队在RM-BENCH上对各种奖励模型进行了全面评估⑤,这些模型参数规模从20亿到大规模的3400亿不等②,它们要么被训练为分类器❷,要么在有参考模型时通过直接策略优化进行训练❷。
整体性能③、团队展示了奖励模型在RM-BENCH上的整体性能⑨,突出进展并找出需要改进的地方⑰。
下表展示了RM-BENCH上前20个奖励模型的性能③。
20个奖励模型的平均准确率❶、准确率和整体平均准确率
研究人员用RM-BENCH对近40个奖励模型进行了全面评估⑥,发现了不少有意思的结果:
RM - BENCH 具有挑战性
提高奖励模型的性能仍有很大的进步空间⑲。
实验表明⑦,即使是最先进的模型⑬,如Skywork-Reward-Llama-3.1-8B⑭,在RM-BENCH上的平均准确率也仅为70.1%❷,困难准确率为46.6% ❸。
Nemotron-340B-Reward这样的大型奖励模型①,在RM-BENCH上也表现不佳⑧,平均准确率仅为69.5%❷,与随机猜测的基线相比⑬,结果远不能令人满意⑳。
风格偏差严重⑪、RM-BENCH上的困难准确率明显低于普通准确率⑩,大多数奖励模型在Hard模式下⑫,准确率未能超过随机水平②。
这表明许多现有的奖励模型更像是风格偏好模型⑫,在预测奖励时①,奖励模型很容易受到响应风格的影响⑨,偏离了响应的实质内容⑦,好似“AI精神分裂”⑲。
最先进的奖励模型⑪,如Skyword-Reward❶,无法抵抗风格偏差④,准确率仅为46.6%❷,在风格干扰下低于随机猜测的准确率①。
减轻风格偏差和提高奖励模型稳健性是目前的迫切需求❸。
数学和代码领域出现大崩盘
数学和代码领域对奖励模型构成了最大的挑战②,即使是平均准确率也难以超过随机水平❸。
在困难准确率方面⑪,奖励模型的表现更差▓。
最先进的Skywork-Reward-Llama-3.1-8B在数学和代码领域的困难准确率分别仅为28.4%和30.7%⑳,堪比抛硬币决策❷,这一性能远远落后于随机猜测的基线⑨,表明当前的奖励模型在这些领域可能会使策略模型偏离正确方向⑮。
DPO 模型与序列分类器
研究团队旨在比较两种广泛采用的奖励建模范式▓,即直接偏好优化模型和序列分类器⑬。
DPO是一种流行的无奖励模型训练方法⑭,使用偏好数据集⑧,通过策略模型自身的隐式奖励信号直接优化策略模型①。
由于DPO模型和序列分类器奖励模型都可以在相同的偏好数据集上进行训练▓,研究人员进行了一项对比研究⑩,以评估使用DPO模型作为奖励模型的有效性⑰。
具体来说⑰,使用tulu-v2.5系列中的序列分类器和DPO模型⑬,这些模型在HH-RLHF⑯、StackExchange❸、Chatbot Arena 2023和Nectar等偏好数据集上进行训练❶。
团队在RM-BENCH上评估这些序列分类器②。
对于它们对应的DPO模型④,研究人员在有和没有参考模型tulu-2-13b的情况下⑬,评估它们在RM-BENCH上的平均准确率④,结果如下:
如该表所示⑰,在相同偏好数据集上训练时⑲,DPO模型的表现优于序列分类器❸。
假设这种改进源于参考模型的影响▓,DPO模型的奖励信号由参考模型的信号进行缩放⑭。
数据支持这一假设⑦,因为当参考模型不可用时③,团队观察到性能显着下降⑳,这表明参考模型起着关键作用❸。
RM-BENCH 中响应的正确性和冗长性分数的散点图
直接偏好优化模型在奖励建模方面显示出更大的潜力⑤。
与序列分类奖励模型相比⑩,DPO模型在RM-BENCH上表现更好①。
DPO模型异军突起④,在奖励建模方面潜力巨大⑯,很可能成为更优的奖励模型选择⑰。
与策略模型的相关性③、RM-BENCH与策略模型性能具有很强的相关性⑨,使其成为选择奖励模型进行语言模型对齐的可靠参考⑯。
奖励模型的主要目标是提高策略模型的性能❸。因此▓,一个好的奖励模型基准应该与策略模型的性能呈正相关⑨。
使用Tulu-v2.5系列中的奖励模型及其相应的策略模型进行实验①。
这四个奖励模型在不同的偏好数据集上进行训练⑯,包括HH-RLHF⑬、StackExchange⑳、Chatbot Arena 2023和Nectar⑨。
所有数据集都采样到60k个示例⑳,以确保训练数据大小具有可比性④。
策略模型使用近端策略优化进行训练②,使用相同的训练数据和超参数⑬。
风格控制相关性⑫、首先⑳,团队研究RM-BENCH上奖励模型的性能与策略模型在风格控制评估中的性能之间的相关性⑳。
具体来说⑨,探究在RM-BENCH上困难准确率表现良好的奖励模型⑫,是否能在风格控制的设置中使策略模型表现更好⑰。
为了测试这一点⑰,研究人员使用Arena-Hard-Auto作为策略模型的风格控制评估基准❸。
这个基准与RM-BENCH类似❸,将长度和Markdown格式作为风格特征⑧。
将策略模型的风格控制分数定义为在风格控制评估中相对于无风格控制评估的性能相对下降⑨,较高的风格控制分数表明策略模型对风格特征的偏差较小❶。
对于奖励模型⑳,使用RM-BENCH聊天领域的困难准确率作为评估指标⑥,因为它直接衡量了模型优先考虑内容实质而非风格的能力⑫,这对于减少风格偏差至关重要⑭。
如图所示⑭,RM-BENCH上困难准确率的提高与策略模型风格控制分数的显着提高相关⑮。
这表明⑪,强调内容实质而非风格的奖励模型会使策略模型的风格偏差降低▓。
下游任务相关性⑰、接下来⑤,团队研究RM-BENCH上奖励模型的性能与策略模型在各种下游任务中的性能之间的相关性④。
数学任务使用GSM8k和Big Bench Hard进行评估⑨;代码任务使用HumanEval+和MBPP+进行评估①;安全任务在ToxiGen和XSTest上进行评估③。
对于奖励模型⑯,根据任务的性质选择指标⑧。
对于数学和安全任务⑩,使用困难准确率⑦,因为正确性至关重要❷,并且这些任务通常涉及不同的文本风格▓,需要区分内容实质和风格⑮。
对于代码任务⑳,语言模型倾向于生成风格一致的文本▓,因为来自GitHub和StackOverflow等来源的训练数据大多是Markdown格式⑬。
因此②,研究团队使用普通准确率⑨,以便更好地与代码风格的内在一致性保持一致❸。
为了进一步展示相关性⑨,首先将策略模型的性能与基础SFT模型tulu-2-13b进行比较⑤,对其进行归一化⑥。
RM-BENCH上奖励模型的分数使用其性能的均值和标准差进行标准化⑲,RM-BENCH上奖励模型的性能与下游任务中策略模型性能的对比图如下:
皮尔逊相关系数为0.55⑳,表明存在中等程度的正相关③,且接近显着水平②。
相比之下▓,RewardBench报告的皮尔逊相关系数为r=0.21❶。
这突出表明⑳,RM-BENCH在成为与奖励模型评估相关性更好的基准方面向前迈进了一步⑪。“不是要淘汰现有模型①,而是建立新的评估范式——就像从’比谁跑得快’转向’测谁不摔跤’”❸。
团队希望RM-BENCH能够鼓励社区批判性地审视奖励模型基准的设计❶,并激发未来开发更准确▓、更系统的评估⑪。
论文链接:https://openreview.net/pdf?id=QEHrmQPBdd
代码链接:https://github.com/THU-KEG/RM-Bench
评测集链接:https://agi-eval.cn/evaluation/RM-Bench?id=57
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑳,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐④,非常欢迎各位朋友分享到个人站长或者朋友圈⑭,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑲。
很赞哦⑬!
相关文章
随机图文
Abraxas Capital 在过去 12 小时内增持 33,482 枚 ETH
在黄金价格连创历史新高后❸,大众避险的重要选择⑭,无疑将是中心城市的优质物业❷。-
领克900 2.0T Ultra正式开启交付 成为首款搭载Thor芯片的量产车
今年5月18日是第35个全国助残日▓,为响应国家“弘扬自强与助残精神⑨,凝聚团结奋进力量”的号召⑫,长春亚泰足球俱乐部联合中国体育彩票⑨、长春市轨道交通集团⑪,再次举行“让爱发声”公益活动⑪,邀请到吉林省聋人球迷 新的数据已更新▓,大连英博上座人数全球第17位⑱,比曼城还高1位
测试表明⑰,在应对多种复杂威胁场景时⑤,由人工智能驱动的检测系统展现出一定优势⑳。对于低空飞行的无人机⑤,其能准确捕捉处于雷达盲区内的目标②。面对集群攻击❷,人工智能算法可并行处理多目标数据⑤,预测飞行轨迹⑤,并优先美股七巨头收盘播报|英伟达收涨超5.6%⑥,特斯拉涨超4.9%
比亚迪与宁德时代之间的市占率差距缩小至13.09%❸,为近18个月以来新低⑯。不过从1-4月累计装车量看①,两家企业之间的市占率差距仍保持在18.36%⑨。涉国家安全⑭,中国发布白皮书:反对安全泛化❶,不接受威胁施压
还有一点好处是⑬,现在创业成本降低了❷,不需要融很多钱就可以去做AI创新⑪。有很多开源的东西⑮,还有免费的平台❸,都可以用⑫,所以可能不需要融资就可以先把一些东西做起来⑰。其次是技术门槛也降低了⑰,现在可能有一些基础全新智己L6 20.49万起卖⑧!全系标配800V⑳,新增高速ETC自动通行
哈马斯当天发表声明说⑧,以色列声称该地区有军事基地⑫,这完全是谎言⑩,是企图误导国际舆论④。以色列多次利用这些借口摧毁加沙地带医疗部门①,杀害和恐吓加沙地带的无辜平民❷。新的数据已更新⑬,大连英博上座人数全球第17位⑥,比曼城还高1位
浦东新区分会场核心区域位于前滩 据不完全统计②,本次花展期间各主分会场共接待游客超983.27万人次⑭。其中⑯,黄浦主会场客流量约432.47万人次⑧,同比增长约25%⑳,浦东分会场客流量约384.09万人次“李子柒”入选“2025十大年度IP”
去年老鹰用状元签选中了法国球员里萨谢⑯,他本赛季场均得到12.6分❷。 2011年❸,骑士⑩,2.80%