您现在的位置是:网站首页> 汽车汽车

天天电玩城统一手机版

卢南莲 2025-05-14 汽车 8932 人已围观

DEER团队 投稿量子位 | 公众号 QbitAI

长思维链让大模型具备了推理能力❶,但如果过度思考⑭,就有可能成为负担⑬。

华为联合中科院信工所提出了一种新的模式⑪,让大模型提前终止思考来避免这一问题⑰。

利用这种方法①,无需额外训练❶,就可以让大模型的精度和效率同时提升

这种方式名为DEER②,也就是动态提前退出推理的简称③。

其核心在于找到推理信息质量下降之前的临界点⑪,并在临界点及时让大模型中断推理⑥。

结果在多个推理基准中⑧,DEER在DeepSeek系列推理LLM上始终有效⑰,将思维链生成长度平均减少31%到43%⑫,同时将准确率提高1.7%到5.7%❷。

截至目前④,DEER已在QwQ④、Qwen3⑳、Nemotron等更多推理模型和11个评测集上被验证持续有效❷。

停止推理的临界点⑥,需要动态规划

直观上⑩,随着思维链中的推理路径数量的增加⑳,生成结论时可参考的信息也会更多⑧。

如果能够识别出推理信息变得刚好足够的临界点⑱,并迫使模型在此点停止进一步思考并直接输出结论⑫,就可以同时实现准确率和效率⑪。

这项研究的关键⑲,就是在生成长思维链过程中找到这样的珍珠

为了验证这一动机⑫,作者在每个推理路径的转换点强制模型从思考切换到直接生成答案⑲。如果得到的答案是正确的⑨,则验证了这种珍珠推理的存在③。

如下图所示④,大约75%的样本确实包含这样的珍珠⑤,甚至有36.7%的样本只需不到一半的原始推理路径就能得到正确答案②。

因此⑧,如何从长思维链中找到Pearl Reasoning是实现高效推理的一个极具潜力和价值的课题③。

为此⑳,作者在先导实验中详细分析了推理模型存在的过度思考问题⑥,并探索了静态早期退出对模型性能的影响⑩,所有实验都是在DeepSeek-R1-Ditil-Qwen-14B上进行的⑭。

作者首先让模型在测试集上执行完整的推理⑨,然后保留完整的思维链并根据思路转换点将其划分为思维块⑪。

对于这些样本⑭,作者保留了不同比例的思维块⑫,并在每个截断处附加一个思维结束标记分隔符⑫,以强制终止思维链过程并生成最终结论⑲。

定量结果表明⑦,在仅使用20%的推理步骤就提前退出的静态设定下❶,对于MATH-500⑤,有60.8%的正确回答样本依然能保持正确⑥;

对于较难的GPQA⑥,仍然有35.1%样本可以保持正确②。

下图说明了在不同的位置提前退出可以纠正的错误答案的不同比例⑧。

对于MATH数据集▓,当以40%的推理步骤退出时达到最高的纠错率⑤;而对于GPQA数据集⑤,当以50%的推理步骤退出时达到最佳纠错率⑫。

似乎每个问题的最佳早期退出点都不尽相同③,并且与问题本身的固有难度密切相关⑮。

因此❷,依赖基于固定启发式的静态提前退出策略是次优的⑰,作者以此为动机设计了动态提前退出机制⑮,通过寻找珍珠推理进一步纠错提高准确性⑤,同时减少生成的长度①。

那么⑩,DEER具体是如何工作的呢⑮?

三步判断退出推理时机④、DEER将模型在推理中切换思维链的关键时刻视为提前退出的时机⑨,并促使大模型在这些时刻停止思考并生成尝试性答案⑯。

每个试验答案的置信度②,是推理中提前退出的决策参考⑫。

具体来说⑦,DEER方法包含三个动作——推理转换监控⑮、试验性答案诱导和置信度评价⑥。

推理转换监控是受budget force技术的启发⑤,将诸如“wait”“alternatively”这样的单词识别为思路转换的临界点并监控其出现⑦。

当思路转换点出现时⑪,将触发答案诱导的动作——作者将“wait”替换为类似于“Final Answer:”的标记⑭,以诱导模型立即生成验证性答案⑦。

这将用于第三个动作❷,也就是置信度评价——

如果置信度足够高②,则将模型设置为停止进一步思考①,并基于已经生成的思维链直接生成结论❸;

否则⑳,撤销答案诱导的动作⑰,沿原路径继续推理⑩。

下图展示了DEER对验证性答案的置信度确实能够反映出已生成的思维链是否足够支撑大模型生成最终答案的信息量⑧。

可以观察到❷,当模型的推理过程不完整或有缺陷时③,试验答案往往表现出明显较低的置信度⑥;相反⑮,当推理全面且逻辑合理时❷,模型生成的答案具有更高的置信度①。

直觉上①,DEER中的答案诱导和置信度评价的计算在推理过程中引入了额外的延迟②,特别是对于测试答案仍然很长的代码生成任务⑲,这降低了通过缩短思维链序列而获得的效率增益⑳。

为了解决这个问题⑥,作者提出了分支并行加速策略⑧,以进一步解决这些效率限制:

多个分支线性化为单个序列⑥,并使用专门的Causal Attention Mask并行生成①;

通过基于置信度的剪枝实现动态KV缓存管理⑩。该策略允许Trail Answer Inducer和Confidence Evaluation和正在进行的推理链生成之间的时间重叠⑦,从而优化整体推理效率⑥。

另外❸,关于端到端时延的更多讨论将在即将发布的版本中加入⑭。

让推理模型更快更强⑫、为了验证DEER的表现⑪,作者在6个挑战性的推理benchmark上进行了测评⑭,其中包含3个数学推理任务⑲、一个科学推理任务❶、两个代码生成任务⑱。

评测指标选用了准确率和生成长度两个维度⑯,分别衡量精度和效率⑨。实验选用了不同规模的DeepSeek-R1-Distill-Qwen系列模型❶。

实验结果表明❷,DEER在所有规模的模型和评测集上都展现出了惊人的效果⑬。

数值上❶,DEER相比于常规的Long CoT方法准确率平均提升了1.7到5.7个点⑩,同时生成长度缩短了31%到43%❷。

在小规模的模型上④,DEER对于MATH-500和AMC 2023两个难度稍低的benchmark提升更显着④。

在大规模的模型上⑥,DEER对于AIME 2024和GPQA两个更具挑战性的benchmark提升更显着⑳。

尤其是当模型的推理能力与问题难度匹配时⑤,作者的方法更加有效⑲。

在HumanEval和BigCodeBench两个programming测试集上⑰,作者的方法实现了平均减少64.9%的生成长度⑭,而pass@1提高了2.1个点⑦,并对0.95附近的阈值表现鲁棒▓,不会有显着波动③。

为了进一步验证DEER对于端到端推理效率的提升④,作者基于huggingface transformers在MATH和AMC两个数据集上测试了平均每个样本的推理时延⑰。

结果表明⑥,在未使用作者提出的分支并行解码加速的情况下⑭,DEER就已经减少了43.4%到47.3%的推理时延⑯。

而采用了分支并行解码后④,推理时延的下降比例和序列长度的下降比例呈现超线性的关系⑮。

作者还通过样例分析进一步证明了DEER的有效性⑯。

原始的推理模型在解决问题时倾向于切换思路探索多种解题方法③,然而很可能问题的最优解决路径只有一条⑰,在后续的思路中模型会因为犯错而得不到正确答案⑤。

为了验证两个不同结果哪一个正确⑩,模型会进行无休止的自我检查⑨,最终未能给出答案⑭。

但在DEER的工作模式下⑥,这一问题得到了有效避免⑲。

论文地址:https://arxiv.org/abs/2504.15895项目链接:https://github.com/iie-ycx/DEER

很赞哦⑰!

随机图文