您现在的位置是:网站首页>世界足球世界足球
核客电玩城官网
孔冰兰 2025-05-13 【 世界足球】 2275 人已围观
DEER团队 投稿量子位 | 公众号 QbitAI
长思维链让大模型具备了推理能力❸,但如果过度思考⑲,就有可能成为负担⑮。
华为联合中科院信工所提出了一种新的模式⑫,让大模型提前终止思考来避免这一问题⑭。
利用这种方法⑲,无需额外训练⑪,就可以让大模型的精度和效率同时提升
这种方式名为DEER⑱,也就是动态提前退出推理的简称⑤。
其核心在于找到推理信息质量下降之前的临界点④,并在临界点及时让大模型中断推理❶。
结果在多个推理基准中④,DEER在DeepSeek系列推理LLM上始终有效❸,将思维链生成长度平均减少31%到43%⑫,同时将准确率提高1.7%到5.7%⑩。
截至目前⑨,DEER已在QwQ⑳、Qwen3⑯、Nemotron等更多推理模型和11个评测集上被验证持续有效⑥。
停止推理的临界点❶,需要动态规划
直观上①,随着思维链中的推理路径数量的增加⑫,生成结论时可参考的信息也会更多⑩。
如果能够识别出推理信息变得刚好足够的临界点⑥,并迫使模型在此点停止进一步思考并直接输出结论⑱,就可以同时实现准确率和效率⑭。
这项研究的关键⑰,就是在生成长思维链过程中找到这样的珍珠
为了验证这一动机①,作者在每个推理路径的转换点强制模型从思考切换到直接生成答案⑦。如果得到的答案是正确的▓,则验证了这种珍珠推理的存在⑮。
如下图所示④,大约75%的样本确实包含这样的珍珠⑯,甚至有36.7%的样本只需不到一半的原始推理路径就能得到正确答案⑱。
因此③,如何从长思维链中找到Pearl Reasoning是实现高效推理的一个极具潜力和价值的课题⑮。
为此⑪,作者在先导实验中详细分析了推理模型存在的过度思考问题⑤,并探索了静态早期退出对模型性能的影响❶,所有实验都是在DeepSeek-R1-Ditil-Qwen-14B上进行的⑨。
作者首先让模型在测试集上执行完整的推理⑭,然后保留完整的思维链并根据思路转换点将其划分为思维块④。
对于这些样本②,作者保留了不同比例的思维块⑯,并在每个截断处附加一个思维结束标记分隔符⑲,以强制终止思维链过程并生成最终结论⑲。
定量结果表明⑩,在仅使用20%的推理步骤就提前退出的静态设定下⑯,对于MATH-500⑤,有60.8%的正确回答样本依然能保持正确③;
对于较难的GPQA⑧,仍然有35.1%样本可以保持正确⑥。
下图说明了在不同的位置提前退出可以纠正的错误答案的不同比例⑬。
对于MATH数据集❷,当以40%的推理步骤退出时达到最高的纠错率⑳;而对于GPQA数据集②,当以50%的推理步骤退出时达到最佳纠错率❷。
似乎每个问题的最佳早期退出点都不尽相同⑲,并且与问题本身的固有难度密切相关⑪。
因此⑭,依赖基于固定启发式的静态提前退出策略是次优的⑥,作者以此为动机设计了动态提前退出机制⑮,通过寻找珍珠推理进一步纠错提高准确性⑮,同时减少生成的长度⑭。
那么❶,DEER具体是如何工作的呢⑲?
三步判断退出推理时机❷、DEER将模型在推理中切换思维链的关键时刻视为提前退出的时机⑬,并促使大模型在这些时刻停止思考并生成尝试性答案①。
每个试验答案的置信度⑮,是推理中提前退出的决策参考▓。
具体来说⑮,DEER方法包含三个动作——推理转换监控⑮、试验性答案诱导和置信度评价⑱。
推理转换监控是受budget force技术的启发⑫,将诸如“wait”“alternatively”这样的单词识别为思路转换的临界点并监控其出现⑳。
当思路转换点出现时②,将触发答案诱导的动作——作者将“wait”替换为类似于“Final Answer:”的标记⑫,以诱导模型立即生成验证性答案❶。
这将用于第三个动作⑦,也就是置信度评价——
如果置信度足够高⑨,则将模型设置为停止进一步思考⑨,并基于已经生成的思维链直接生成结论⑧;
否则⑤,撤销答案诱导的动作⑮,沿原路径继续推理⑯。
下图展示了DEER对验证性答案的置信度确实能够反映出已生成的思维链是否足够支撑大模型生成最终答案的信息量⑦。
可以观察到⑥,当模型的推理过程不完整或有缺陷时⑳,试验答案往往表现出明显较低的置信度⑧;相反⑧,当推理全面且逻辑合理时⑬,模型生成的答案具有更高的置信度⑮。
直觉上❷,DEER中的答案诱导和置信度评价的计算在推理过程中引入了额外的延迟❶,特别是对于测试答案仍然很长的代码生成任务⑳,这降低了通过缩短思维链序列而获得的效率增益⑰。
为了解决这个问题❸,作者提出了分支并行加速策略⑮,以进一步解决这些效率限制:
多个分支线性化为单个序列⑦,并使用专门的Causal Attention Mask并行生成⑩;
通过基于置信度的剪枝实现动态KV缓存管理⑱。该策略允许Trail Answer Inducer和Confidence Evaluation和正在进行的推理链生成之间的时间重叠③,从而优化整体推理效率⑦。
另外❶,关于端到端时延的更多讨论将在即将发布的版本中加入❶。
让推理模型更快更强⑱、为了验证DEER的表现⑳,作者在6个挑战性的推理benchmark上进行了测评⑩,其中包含3个数学推理任务⑥、一个科学推理任务⑭、两个代码生成任务⑫。
评测指标选用了准确率和生成长度两个维度⑩,分别衡量精度和效率⑤。实验选用了不同规模的DeepSeek-R1-Distill-Qwen系列模型⑰。
实验结果表明③,DEER在所有规模的模型和评测集上都展现出了惊人的效果⑮。
数值上⑳,DEER相比于常规的Long CoT方法准确率平均提升了1.7到5.7个点⑱,同时生成长度缩短了31%到43%⑫。
在小规模的模型上⑲,DEER对于MATH-500和AMC 2023两个难度稍低的benchmark提升更显着⑬。
在大规模的模型上❸,DEER对于AIME 2024和GPQA两个更具挑战性的benchmark提升更显着①。
尤其是当模型的推理能力与问题难度匹配时⑲,作者的方法更加有效⑲。
在HumanEval和BigCodeBench两个programming测试集上❶,作者的方法实现了平均减少64.9%的生成长度⑨,而pass@1提高了2.1个点⑰,并对0.95附近的阈值表现鲁棒⑫,不会有显着波动⑦。
为了进一步验证DEER对于端到端推理效率的提升⑳,作者基于huggingface transformers在MATH和AMC两个数据集上测试了平均每个样本的推理时延▓。
结果表明⑫,在未使用作者提出的分支并行解码加速的情况下❶,DEER就已经减少了43.4%到47.3%的推理时延⑨。
而采用了分支并行解码后②,推理时延的下降比例和序列长度的下降比例呈现超线性的关系⑥。
作者还通过样例分析进一步证明了DEER的有效性①。
原始的推理模型在解决问题时倾向于切换思路探索多种解题方法⑤,然而很可能问题的最优解决路径只有一条⑧,在后续的思路中模型会因为犯错而得不到正确答案④。
为了验证两个不同结果哪一个正确⑨,模型会进行无休止的自我检查⑤,最终未能给出答案⑲。
但在DEER的工作模式下⑮,这一问题得到了有效避免⑤。
论文地址:https://arxiv.org/abs/2504.15895项目链接:https://github.com/iie-ycx/DEER
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑪,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑩,非常欢迎各位朋友分享到个人站长或者朋友圈①,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑱。
很赞哦⑬!
相关文章
随机图文
新能源车屏幕坏了修不好⑩,能退车吗②?
两年内副行长人选全部换人⑫,经历12名人员变动②,这在银行业算是非常少见了④。消息称国产特斯拉4月份出口近3万辆 环比大增同比略有下滑
王博说:“还是放松心态吧⑲,第一场大家还是有点紧⑤,尤其是在总决赛这样的舞台上⑮,到了第二场调整得还不错⑮,到了北京以后⑬,大家还是要做好困难准备⑯,希望板凳球员能及早适应总决赛的节奏④。”“其实比赛打了这么久以后股价下挫近5%⑤!瑞丰光电相关人员收深交所监管函
本场比赛⑨,郑钦文有9个双误▓,对此②,她说道:“今天的双误跟我的手肘没有太大关系⑭,可能更多的是我的注意力不太集中❷。”酷凛霜格 620 风冷散热器上市:六热管双塔双风扇 260W①,149 元
您的脚法不错⑫,总是敢于传一些激进的球“是的❶。我总是相信自己的能力⑨,充满信心走上赛场才能踢得更好⑩。”从“过境游”到“深度游” 中国国际航线网络拓展带动入境游消费增长
直播吧5月12北京时间5月10日⑧,中国足球甲级联赛第8轮②,重庆铜梁龙5-1战胜广东广州豹⑮,迎来联赛七连胜①。佩杜拉:利物浦不太可能签下德布劳内▓,那不勒斯的谈判已很深入
2023年推出的麒麟电池⑫,用第三代CTP技术实现255Wh/kg的能量密度⑳,比特斯拉4680电池高出13%⑫。更绝的是"水冷板替代横纵梁"设计⑱,让电池包抗冲击能力提升200%⑬。暗访长沙地下代孕实验室:无牌车单日转运超10名女性进入
统筹:栾小琳 策划制作:任振国 央广网贵州频道 出品山东枣庄同一站点两名饿了么骑手先后猝死❸,当地热线:职能部门正调查
5月12日⑪,荣昌生物宣布③,其新型抗体偶联药物RC278已于近期递交临床试验申请❷,并于5月8号获国家药品监督管理局药品审评中心正式受理⑨。