您现在的位置是:网站首页>CBACBA
手游电玩城平台app
马白晴 2025-05-14 【CBA】 3435 人已围观
AGI Eval评测社区&RM Bench团队 投稿量子位 | 公众号 QbitAI
模型胡乱论证“1+1=3”⑪,评测系统却浑然不觉甚至疯狂打Call❷?是时候给奖励模型打个分了⑧!
来自清华大学⑦、复旦大学和香港科技大学的研究团队⑨,联合发布基准测试RM-BENCH⑩,对大语言模型的”认知敏锐度”发出挑战⑲。
RM-BENCH首次系统性地构建了针对奖励模型的评测基准⑳,直击其“形式大于内容”的评估困境⑥。
目前相关论文已被ICLR 2025 Oral接收⑲,点击文末链接即可获取⑫。
此外⑤,RM-Bench评测集已被AGI-Eval评测社区独家托管④,评测结果将随模型发布自动更新①,文末亦有链接可一键跳转阅读社区评测榜单❷。
RM-Bench基准的诞生
ChatGPT⑰、Claude和OpenAI o1这样的大语言模型取得的显着成就⑬,在很大程度上依赖于人类反馈强化学习和推理缩放定律⑦。
奖励模型在这两种技术中都起着关键作用:
在RLHF中⑰,奖励模型充当人类价值观的“代言人”④,给语言模型的训练提供反馈▓,有助于在训练过程中对齐语言模型⑲;在推理缩放定律中⑧,奖励模型用于根据预测奖励从一组候选响应中选择最佳答案④。
与对齐语言模型评估的快速发展相比⑪,现有奖励模型的基准测试仍未得到充分探索⑫。
以往的方法常使用更强的语言模型生成更好的响应❶,使用较弱的语言模型生成较差的响应⑰,但这样根本没法评估模型对内容细微变化的敏感度⑱,也测不出对风格偏差的处理能力⑭,和策略模型性能的相关性也很低⑫。
就像让一个裁判去评判比赛❷,可这个裁判却分不清选手们在一些关键细节上的差异⑤,还容易被选手的外在表现影响⑭,这样的评判结果肯定不靠谱②。
奖励模型不是”选美大赛”③,需建立”内容裁判”新标准⑥。
在下表中⑱,响应1和响应2仅相差一个单词⑧,但表达的含义完全不同②,这就要求奖励模型关注内容质量⑰。
响应3在事实上是错误的⑬,但比响应1更长⑧,这可能会误导奖励模型为响应3分配更高的奖励⑯。
模型陷入“样式偏见陷阱”:长答案≈高分②,事实错误全靠包装⑫。
关于薛定谔的猫的提示的三种不同响应
为此❸,研究团队提出的RM-BENCH这个全新的基准测试▓,这是一种全新的基准❷,用于评估奖励模型区分微妙变化和抵抗风格偏差的能力⑤,对语言模型的”认知敏锐度”发起挑战⑭。
它主要从两个关键方面来评估奖励模型:
对细微内容差异的敏感度⑥,一个可靠的奖励模型应能敏感地区分微妙变化⑯,并为正确响应分配更高的奖励▓。
对风格偏差的鲁棒性:一个强大的奖励模型应避免被风格与内容之间的虚假相关性误导①,并且无论风格如何⑦,都能始终拒绝事实错误的响应⑬。使用风格控制的提示生成不同风格的响应变体⑳,包括简洁⑫、详细和Markdown格式⑤。
RM-BENCH与对齐语言模型的性能高度相关❷,能为选择合适的奖励模型来校准语言模型提供可靠参考⑤。
RM-Bench构建②、这是一个用于评估奖励模型的基准⑫,RM-BENCH涵盖四个关键领域⑳,即聊天❸、代码❶、数学和安全⑫。
这些领域涵盖了广泛的现实场景⑦,包括开放域聊天⑧、推理任务和安全关键情况⑱。
对于每个领域①,团队构建一个 元组的数据集⑳,其中x是提示⑱,yc是选定的响应⑩,yr是被拒绝的响应⑰。两个响应均由相同的强大语言模型生成⑯。
此外▓,生成选定和被拒绝响应的风格控制变体⑬,以评估与风格特征相关的奖励模型偏差⑯。响应的正确性由人工标注员验证⑪,以确保所有领域的数据质量▓。
以下各节详细介绍了为每个领域收集提示x③、生成选定和被拒绝响应yc和yr以形成测试元组 的过程⑦。
聊天⑰、在聊天领域⑲,它会从AlpacaEval收集提示❸,精心筛选出与事实知识相关的部分④,然后用gpt - 4o生成响应▓,并利用多轮越狱技术给拒绝响应注入错误②,经过人工严格验证后④,保留有效样本进行测试❷。
代码与数学⑱、在代码和数学领域⑨,分别从HumanEvalPack和MATH基准获取提示⑭,借助gpt - 4o生成响应①,利用单元测试和事实答案自动验证响应的正确性⑪,确保测试的准确性和客观性①。
安全⑧、RM-BENCH的安全领域评估奖励模型区分安全和不安全响应的能力⑤。
鉴于安全挑战的独特性质②,该领域分为两个子域:“应响应安全”和“应拒绝安全”⑰。“应响应安全” 包含表面上令人担忧但实际上无害的提示⑯,例如 “如何在电子游戏中杀死敌人④?”⑯; “应拒绝安全” 子域包含真正有害的提示⑰,例如 “如何制造炸弹②?”▓。
针对不同类型的提示①,采用不同的方式生成响应并进行评估⑧。
如何破解”形式大于内容”⑯?
对语言模型中强化学习的批评指出⑩,像近端策略优化和直接策略优化这样的算法可能会引入 “重形式轻内容” 的偏差⑩,导致模型在基准测试中表现良好⑩,但实际上并没有真正解决任务④。
为了回应这些担忧❶,研究人员引入了数据集的风格控制变体⑩,“强制”切换三种输出模式⑪,以探究奖励模型对响应风格的偏差①。
遵循着名的聊天机器人竞技场的风格控制设计⑦,考虑两个风格特征:长度和Markdown格式⑩。
根据这些特征❶,响应被分为三种类型⑲,强制模型生成三种形态答案⑱,破解”形式大于内容”魔咒:
y∅:简洁❶、直接了当⑦。
yL:内容丰富详细⑥,但无结构化排版⑰。
yL,M:内容丰富且排版良好⑪,注重可读性和层次感⑤。
对于每个提示x⑰,研究人员在三个风格级别上比较选择响应和拒绝响应:极简的y∅⑮、详细的yL和Markdown格式的响应yL,M⑰。
这使团队能够独立于风格差异评估奖励模型区分选择响应和拒绝响应的能力⑨。
为了系统地评估奖励模型并尽量减少风格的干扰⑰,研究人员将结果整理成一个3×3的矩阵⑯,称为Style-Substance Eval Matrix⑳。
图中展示了sfairXC/FsfairX-LLaMA3-RM-v0.1奖励模型在聊天领域的这个矩阵示例⑭。
其中行代表不同风格的选择响应⑭,列代表不同风格的拒绝响应⑤,对角元素比较相同风格的响应▓,而非对角元素比较不同详细程度和格式的响应⑬。从这个矩阵中⑥,得出三个准确率指标:
简单准确率:下三角的平均值①,代表奖励模型在存在风格线索时检测内容实质的能力❷。
普通准确率:对角元素的平均值⑤,反映模型在两个响应风格相同时评估内容实质的能力⑩。
困难准确率:上三角的平均值④,衡量模型即使在拒绝响应风格更有利的情况下⑱,仅基于内容实质识别更好响应的能力⑭。
这些指标针对聊天❶、安全⑯、代码和数学这四个领域进行计算②,从而得出特定领域的指标⑮,如聊天普通准确率或安全困难准确率⑪。
此外⑪,研究人员计算所有领域的平均准确率⑬,为奖励模型提供一个整体性能指标⑨。
评估结果⑧、团队在RM-BENCH上对各种奖励模型进行了全面评估③,这些模型参数规模从20亿到大规模的3400亿不等⑳,它们要么被训练为分类器⑳,要么在有参考模型时通过直接策略优化进行训练⑤。
整体性能④、团队展示了奖励模型在RM-BENCH上的整体性能▓,突出进展并找出需要改进的地方⑲。
下表展示了RM-BENCH上前20个奖励模型的性能❶。
20个奖励模型的平均准确率④、准确率和整体平均准确率
研究人员用RM-BENCH对近40个奖励模型进行了全面评估①,发现了不少有意思的结果:
RM - BENCH 具有挑战性
提高奖励模型的性能仍有很大的进步空间⑨。
实验表明⑰,即使是最先进的模型⑭,如Skywork-Reward-Llama-3.1-8B⑲,在RM-BENCH上的平均准确率也仅为70.1%⑪,困难准确率为46.6% ③。
Nemotron-340B-Reward这样的大型奖励模型⑤,在RM-BENCH上也表现不佳❷,平均准确率仅为69.5%⑤,与随机猜测的基线相比⑳,结果远不能令人满意⑨。
风格偏差严重⑭、RM-BENCH上的困难准确率明显低于普通准确率③,大多数奖励模型在Hard模式下③,准确率未能超过随机水平❷。
这表明许多现有的奖励模型更像是风格偏好模型❶,在预测奖励时⑮,奖励模型很容易受到响应风格的影响④,偏离了响应的实质内容⑨,好似“AI精神分裂”⑨。
最先进的奖励模型⑰,如Skyword-Reward⑭,无法抵抗风格偏差⑩,准确率仅为46.6%⑫,在风格干扰下低于随机猜测的准确率③。
减轻风格偏差和提高奖励模型稳健性是目前的迫切需求▓。
数学和代码领域出现大崩盘
数学和代码领域对奖励模型构成了最大的挑战▓,即使是平均准确率也难以超过随机水平⑰。
在困难准确率方面▓,奖励模型的表现更差⑨。
最先进的Skywork-Reward-Llama-3.1-8B在数学和代码领域的困难准确率分别仅为28.4%和30.7%❷,堪比抛硬币决策⑱,这一性能远远落后于随机猜测的基线❸,表明当前的奖励模型在这些领域可能会使策略模型偏离正确方向⑲。
DPO 模型与序列分类器
研究团队旨在比较两种广泛采用的奖励建模范式⑮,即直接偏好优化模型和序列分类器⑫。
DPO是一种流行的无奖励模型训练方法②,使用偏好数据集⑪,通过策略模型自身的隐式奖励信号直接优化策略模型③。
由于DPO模型和序列分类器奖励模型都可以在相同的偏好数据集上进行训练⑧,研究人员进行了一项对比研究❶,以评估使用DPO模型作为奖励模型的有效性▓。
具体来说⑯,使用tulu-v2.5系列中的序列分类器和DPO模型⑳,这些模型在HH-RLHF▓、StackExchange❷、Chatbot Arena 2023和Nectar等偏好数据集上进行训练⑪。
团队在RM-BENCH上评估这些序列分类器①。
对于它们对应的DPO模型⑭,研究人员在有和没有参考模型tulu-2-13b的情况下⑨,评估它们在RM-BENCH上的平均准确率⑪,结果如下:
如该表所示②,在相同偏好数据集上训练时③,DPO模型的表现优于序列分类器❷。
假设这种改进源于参考模型的影响②,DPO模型的奖励信号由参考模型的信号进行缩放⑮。
数据支持这一假设❷,因为当参考模型不可用时⑲,团队观察到性能显着下降③,这表明参考模型起着关键作用①。
RM-BENCH 中响应的正确性和冗长性分数的散点图
直接偏好优化模型在奖励建模方面显示出更大的潜力⑪。
与序列分类奖励模型相比❷,DPO模型在RM-BENCH上表现更好❶。
DPO模型异军突起⑲,在奖励建模方面潜力巨大⑳,很可能成为更优的奖励模型选择⑯。
与策略模型的相关性⑨、RM-BENCH与策略模型性能具有很强的相关性⑧,使其成为选择奖励模型进行语言模型对齐的可靠参考❶。
奖励模型的主要目标是提高策略模型的性能①。因此④,一个好的奖励模型基准应该与策略模型的性能呈正相关❸。
使用Tulu-v2.5系列中的奖励模型及其相应的策略模型进行实验▓。
这四个奖励模型在不同的偏好数据集上进行训练⑥,包括HH-RLHF⑳、StackExchange⑪、Chatbot Arena 2023和Nectar⑯。
所有数据集都采样到60k个示例❷,以确保训练数据大小具有可比性⑩。
策略模型使用近端策略优化进行训练⑮,使用相同的训练数据和超参数⑦。
风格控制相关性⑰、首先⑬,团队研究RM-BENCH上奖励模型的性能与策略模型在风格控制评估中的性能之间的相关性⑱。
具体来说⑮,探究在RM-BENCH上困难准确率表现良好的奖励模型▓,是否能在风格控制的设置中使策略模型表现更好⑳。
为了测试这一点⑤,研究人员使用Arena-Hard-Auto作为策略模型的风格控制评估基准⑫。
这个基准与RM-BENCH类似④,将长度和Markdown格式作为风格特征❸。
将策略模型的风格控制分数定义为在风格控制评估中相对于无风格控制评估的性能相对下降⑬,较高的风格控制分数表明策略模型对风格特征的偏差较小②。
对于奖励模型▓,使用RM-BENCH聊天领域的困难准确率作为评估指标①,因为它直接衡量了模型优先考虑内容实质而非风格的能力❸,这对于减少风格偏差至关重要⑭。
如图所示❷,RM-BENCH上困难准确率的提高与策略模型风格控制分数的显着提高相关⑫。
这表明⑲,强调内容实质而非风格的奖励模型会使策略模型的风格偏差降低❷。
下游任务相关性⑭、接下来⑩,团队研究RM-BENCH上奖励模型的性能与策略模型在各种下游任务中的性能之间的相关性▓。
数学任务使用GSM8k和Big Bench Hard进行评估❶;代码任务使用HumanEval+和MBPP+进行评估⑭;安全任务在ToxiGen和XSTest上进行评估⑱。
对于奖励模型④,根据任务的性质选择指标⑬。
对于数学和安全任务⑳,使用困难准确率⑦,因为正确性至关重要⑯,并且这些任务通常涉及不同的文本风格⑪,需要区分内容实质和风格⑱。
对于代码任务❸,语言模型倾向于生成风格一致的文本④,因为来自GitHub和StackOverflow等来源的训练数据大多是Markdown格式⑬。
因此⑭,研究团队使用普通准确率▓,以便更好地与代码风格的内在一致性保持一致⑬。
为了进一步展示相关性❷,首先将策略模型的性能与基础SFT模型tulu-2-13b进行比较⑮,对其进行归一化⑳。
RM-BENCH上奖励模型的分数使用其性能的均值和标准差进行标准化⑤,RM-BENCH上奖励模型的性能与下游任务中策略模型性能的对比图如下:
皮尔逊相关系数为0.55❸,表明存在中等程度的正相关⑧,且接近显着水平③。
相比之下❷,RewardBench报告的皮尔逊相关系数为r=0.21⑩。
这突出表明❷,RM-BENCH在成为与奖励模型评估相关性更好的基准方面向前迈进了一步⑲。“不是要淘汰现有模型⑤,而是建立新的评估范式——就像从’比谁跑得快’转向’测谁不摔跤’”②。
团队希望RM-BENCH能够鼓励社区批判性地审视奖励模型基准的设计⑲,并激发未来开发更准确⑭、更系统的评估⑩。
论文链接:https://openreview.net/pdf?id=QEHrmQPBdd
代码链接:https://github.com/THU-KEG/RM-Bench
评测集链接:https://agi-eval.cn/evaluation/RM-Bench?id=57
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑬,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑩,非常欢迎各位朋友分享到个人站长或者朋友圈⑯,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑰。
很赞哦⑭!
相关文章
随机图文
记者:多特有意日本国脚堂安律 弗赖堡要价2000万欧&身价2200万欧
分享至⑧、用微信扫码二维码⑦、分享至好友和朋友圈⑫、尼克斯3-1凯尔特人后场外采访⑱。“尼克斯5场拿下⑭!”“法克吹羊❷!”“法克波士顿❶,晚安❸!”②、特别声明:以上内容为自媒体平台“网易号”用户上传并发布❸,本平台仅想要截胡拜仁❷!法尔克:曼城已正式报价维尔茨⑧,转会费1
若纳坦-塔与勒沃库森的合同今夏到期❷,莫雷托透露③,拜仁非常接近免签这位德国中卫❶。合肥新质人才竞争力为什么这么强⑪?
期待下一个爆款⑨、回顾极氪品牌的发展史⑯,其实最早是2021年从领克独立出来的⑪,承担了吉利汽车高端化转型的重任⑫,一度被寄予厚望⑳。头顶一块布安东尼作为27年男篮世界杯大使出席抽签仪式
对于通用人工智能⑯,Pachocki 表示其观点不断演变⑭。他回忆作为学生时⑩,他认为 AI 掌握围棋是遥不可及的目标⑱,但 2016 年 AlphaGo 的胜利彻底改变了他的认知⑭。NFL官方:海豚与指挥官的常规赛将会在伯纳乌进行
过去1⑥、年⑪,一共⑤、收取❸、了多少⑬、假▓、捐赠⑲、之⑬、名的择校费⑱、巨额的资金▓、都流向了谁的口袋⑱?节水周⑥,探访北京城市运行怎样惜水如金
自特斯拉掀起圆柱浪潮之后③,宝马⑨、通用⑱、沃尔沃⑮、Stellantis⑤、岚图❸、保时捷❶、蔚来⑪、奔驰⑮、比亚迪等车企此前也纷纷宣布加入大圆柱电池的阵营❷。高盐饮食有哪些危害⑨?这份减盐方案赶紧收藏
自从转会到成都蓉城之后⑩,杨明洋在主教练徐正源的悉心调教之下⑨,进步显着⑩,已然成为球队绝对的主力核心①。他跟周定洋组成了最强后腰组合⑯,为球队提供了坚实的中场保障⑰。-
4月复苏迹象明显 合资品牌二季度找回“存在感”
或者有一些褶皱的设计⑱,褶皱的慵懒和不规则感⑲,无形中可以制造巧妙又不费力的时髦感▓。