您现在的位置是:网站首页>电竞电竞
单机电玩城老虎机免费版
苏慕灵 2025-05-14 【电竞】 7266 人已围观
DEER团队 投稿量子位 | 公众号 QbitAI
长思维链让大模型具备了推理能力❷,但如果过度思考⑩,就有可能成为负担❷。
华为联合中科院信工所提出了一种新的模式⑭,让大模型提前终止思考来避免这一问题❸。
利用这种方法⑫,无需额外训练⑨,就可以让大模型的精度和效率同时提升
这种方式名为DEER⑧,也就是动态提前退出推理的简称⑳。
其核心在于找到推理信息质量下降之前的临界点⑥,并在临界点及时让大模型中断推理❷。
结果在多个推理基准中③,DEER在DeepSeek系列推理LLM上始终有效⑦,将思维链生成长度平均减少31%到43%⑫,同时将准确率提高1.7%到5.7%⑬。
截至目前⑳,DEER已在QwQ⑮、Qwen3③、Nemotron等更多推理模型和11个评测集上被验证持续有效⑦。
停止推理的临界点⑫,需要动态规划
直观上③,随着思维链中的推理路径数量的增加❸,生成结论时可参考的信息也会更多❶。
如果能够识别出推理信息变得刚好足够的临界点⑲,并迫使模型在此点停止进一步思考并直接输出结论⑲,就可以同时实现准确率和效率⑪。
这项研究的关键⑪,就是在生成长思维链过程中找到这样的珍珠
为了验证这一动机⑦,作者在每个推理路径的转换点强制模型从思考切换到直接生成答案⑤。如果得到的答案是正确的▓,则验证了这种珍珠推理的存在⑦。
如下图所示⑬,大约75%的样本确实包含这样的珍珠②,甚至有36.7%的样本只需不到一半的原始推理路径就能得到正确答案❶。
因此⑫,如何从长思维链中找到Pearl Reasoning是实现高效推理的一个极具潜力和价值的课题▓。
为此⑤,作者在先导实验中详细分析了推理模型存在的过度思考问题⑨,并探索了静态早期退出对模型性能的影响⑪,所有实验都是在DeepSeek-R1-Ditil-Qwen-14B上进行的③。
作者首先让模型在测试集上执行完整的推理③,然后保留完整的思维链并根据思路转换点将其划分为思维块⑦。
对于这些样本❷,作者保留了不同比例的思维块⑤,并在每个截断处附加一个思维结束标记分隔符⑤,以强制终止思维链过程并生成最终结论⑪。
定量结果表明⑤,在仅使用20%的推理步骤就提前退出的静态设定下❸,对于MATH-500⑦,有60.8%的正确回答样本依然能保持正确⑯;
对于较难的GPQA⑪,仍然有35.1%样本可以保持正确⑧。
下图说明了在不同的位置提前退出可以纠正的错误答案的不同比例❶。
对于MATH数据集⑬,当以40%的推理步骤退出时达到最高的纠错率①;而对于GPQA数据集⑦,当以50%的推理步骤退出时达到最佳纠错率⑯。
似乎每个问题的最佳早期退出点都不尽相同⑩,并且与问题本身的固有难度密切相关⑩。
因此①,依赖基于固定启发式的静态提前退出策略是次优的⑩,作者以此为动机设计了动态提前退出机制⑭,通过寻找珍珠推理进一步纠错提高准确性⑰,同时减少生成的长度⑩。
那么⑥,DEER具体是如何工作的呢②?
三步判断退出推理时机⑳、DEER将模型在推理中切换思维链的关键时刻视为提前退出的时机⑳,并促使大模型在这些时刻停止思考并生成尝试性答案⑱。
每个试验答案的置信度②,是推理中提前退出的决策参考⑭。
具体来说⑮,DEER方法包含三个动作——推理转换监控❸、试验性答案诱导和置信度评价①。
推理转换监控是受budget force技术的启发⑱,将诸如“wait”“alternatively”这样的单词识别为思路转换的临界点并监控其出现⑱。
当思路转换点出现时⑨,将触发答案诱导的动作——作者将“wait”替换为类似于“Final Answer:”的标记⑮,以诱导模型立即生成验证性答案⑨。
这将用于第三个动作②,也就是置信度评价——
如果置信度足够高❸,则将模型设置为停止进一步思考❷,并基于已经生成的思维链直接生成结论❸;
否则⑫,撤销答案诱导的动作⑦,沿原路径继续推理⑭。
下图展示了DEER对验证性答案的置信度确实能够反映出已生成的思维链是否足够支撑大模型生成最终答案的信息量④。
可以观察到❶,当模型的推理过程不完整或有缺陷时⑪,试验答案往往表现出明显较低的置信度⑩;相反④,当推理全面且逻辑合理时⑮,模型生成的答案具有更高的置信度⑨。
直觉上⑱,DEER中的答案诱导和置信度评价的计算在推理过程中引入了额外的延迟⑫,特别是对于测试答案仍然很长的代码生成任务⑨,这降低了通过缩短思维链序列而获得的效率增益⑳。
为了解决这个问题③,作者提出了分支并行加速策略①,以进一步解决这些效率限制:
多个分支线性化为单个序列⑥,并使用专门的Causal Attention Mask并行生成⑫;
通过基于置信度的剪枝实现动态KV缓存管理❶。该策略允许Trail Answer Inducer和Confidence Evaluation和正在进行的推理链生成之间的时间重叠⑯,从而优化整体推理效率⑯。
另外▓,关于端到端时延的更多讨论将在即将发布的版本中加入⑱。
让推理模型更快更强⑩、为了验证DEER的表现⑤,作者在6个挑战性的推理benchmark上进行了测评②,其中包含3个数学推理任务⑦、一个科学推理任务③、两个代码生成任务▓。
评测指标选用了准确率和生成长度两个维度①,分别衡量精度和效率④。实验选用了不同规模的DeepSeek-R1-Distill-Qwen系列模型❷。
实验结果表明❶,DEER在所有规模的模型和评测集上都展现出了惊人的效果⑨。
数值上⑪,DEER相比于常规的Long CoT方法准确率平均提升了1.7到5.7个点⑯,同时生成长度缩短了31%到43%⑦。
在小规模的模型上⑲,DEER对于MATH-500和AMC 2023两个难度稍低的benchmark提升更显着⑨。
在大规模的模型上②,DEER对于AIME 2024和GPQA两个更具挑战性的benchmark提升更显着⑲。
尤其是当模型的推理能力与问题难度匹配时⑬,作者的方法更加有效⑯。
在HumanEval和BigCodeBench两个programming测试集上⑭,作者的方法实现了平均减少64.9%的生成长度▓,而pass@1提高了2.1个点⑥,并对0.95附近的阈值表现鲁棒⑧,不会有显着波动⑦。
为了进一步验证DEER对于端到端推理效率的提升⑯,作者基于huggingface transformers在MATH和AMC两个数据集上测试了平均每个样本的推理时延❸。
结果表明❶,在未使用作者提出的分支并行解码加速的情况下⑳,DEER就已经减少了43.4%到47.3%的推理时延⑩。
而采用了分支并行解码后⑧,推理时延的下降比例和序列长度的下降比例呈现超线性的关系⑥。
作者还通过样例分析进一步证明了DEER的有效性④。
原始的推理模型在解决问题时倾向于切换思路探索多种解题方法❷,然而很可能问题的最优解决路径只有一条⑫,在后续的思路中模型会因为犯错而得不到正确答案②。
为了验证两个不同结果哪一个正确⑫,模型会进行无休止的自我检查⑯,最终未能给出答案❸。
但在DEER的工作模式下②,这一问题得到了有效避免⑱。
论文地址:https://arxiv.org/abs/2504.15895项目链接:https://github.com/iie-ycx/DEER
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可②,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑩,非常欢迎各位朋友分享到个人站长或者朋友圈⑪,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑧。
很赞哦⑥!
相关文章
随机图文
-
儿童哮喘管理中的“误操作”|科普时间
近300起杀妻案如何判罚 阿维塔要求博主删除不实风阻测试言论并道歉
"你看到所有这些与加密货币相关的证券交易委员会案件正在被迅速撤销⑮。因此⑯,这是一个非常有利的环境④,"Mizuho的Dolev提到④,"似乎没有紧迫感去进行过度监管⑭,因为现在的政府似乎非常友好⑬。”-
从安欣到程兵⑩,张译为何告别演艺圈⑰?拒绝同质化表演的觉醒之路
工作人员告诉记者:“环卫业务现在都是各个区环卫部门自己负责的▓,是归各个区的城管局领导⑰。设计标准应该是国家统一的⑳,资金来源是各个区的⑰。你问一下我们的业务科室④,具体垃圾分类工作⑯,是他们负责⑪。” 淮河防总部署2025年防汛重点工作
2024年Q1—Q4⑲,华为在中国大陆的市场份额分别为17%⑧、15%❷、16%以及17%⑪。与此同时❶,在过去的四个季度中⑦,华为每个季度的同比增长分比为70%⑬、41%⑭、24%以及24%▓。在连续三个季度中①,华为大学生发文吐槽53岁父母:连高铁票都不会买④,评论区现实又心酸
而反观S家❶,面对大S遗产被搬空的事⑤,一句不回应⑮,面对孩子生日也不做回应⑫,甚至连祝福都没有⑯。小S号召娱乐圈明星悼念大S缓解S妈的痛苦❸,却忘记两个孩子何尝不是⑲,S妈晒出家族合影⑨,配文却一字不提大S最在意的图片报:利物浦即将与弗林蓬达协议⑳,解约金在3500 4000万欧之间
直播吧5月12CBA总决赛G3⑧,广厦客场114-103战胜北京⑩,大比分2-1⑪。赛后⑦,广厦球星孙铭徽接受了媒体的采访⑮。 孙铭徽说:“这是我们这赛季打得最难②,也是最团结的一场比赛⑪。” 本场比赛⑦,孙铭徽一文看懂中美经贸高层会谈联合声明
近日⑱,安徽一网友发文称⑳,自己母亲失踪6年❶,他在社交平台发布寻亲视频后⑦,被有关部门施压⑧,要求删帖❸。湖南省湘西土家族苗族自治州人民政府党组成员⑪、副州长刘冬生接受纪律审查和监察调查
它并非追求标新立异①,是在细节中建立个人判断⑧,一种从规则中抽身的姿态⑭,也是留给自己审美自由的出口④。