您现在的位置是:网站首页>房产房产

hy电玩城官方网站入口

姚映之 2025-05-10 房产 8435 人已围观

北航联合团队 投稿量子位 | 公众号 QbitAI

Qwen3强势刷新开源模型SOTA⑥,但如何让其在资源受限场景中⑯,既能实现低比特量化❶,又能保证模型“智商”不掉线⑤?

来自北京航空航天大学⑳、西安电子科技大学和苏黎世联邦理工学院的联合研究团队找到了破局关键❶。

团队对Qwen3的5种后训练量化技术进行了首次系统性评估④,涵盖从1比特到8比特的位宽和多个数据集⑰,此外还与LLaMA3进行了量化比较⑬。

研究发现②,Qwen3在中度位宽下保持了竞争性能⑦,但在超低精度下⑳,语言任务性能显着下降⑬,和LLaMA3相比差异则更加明显⑫,亟需进一步解决方案以减轻性能损失⑩。

Qwen3登场:优势与挑战并存

由阿里巴巴集团开发的Qwen系列⑱,是基于Transformer架构⑲、极具竞争力的开源自回归大型语言模型⑰。

自发布以来④,Qwen展现出了卓越的可扩展性▓,其70亿参数模型在某些基准测试中甚至可与更大的专有模型⑪,如GPT-3.5相媲美⑮。

最近推出的Qwen3⑳,参数规模从6亿到2350亿不等⑱,通过在多样化⑳、高质量语料库上的精炼预训练进一步提升了性能⑱。

这使得Qwen家族成为最具能力的开源LLM之一⑥,适应多种部署场景⑲。

尽管Qwen3具有诸多优势⑬,但其实际部署因高计算和内存需求而面临挑战②。

低比特量化已成为缓解这些问题的重要技术⑲,能够在资源受限设备上实现高效推理⑲。然而③,量化往往会导致性能下降①。

Qwen3的尖端能力为重新评估量化技术提供了及时机会⑨,以揭示其在尖端模型上的效能与局限性⑲。

在本实证研究中①,系统性地评估了Qwen3在后训练量化

方法下的鲁棒性⑩。

团队测试了5种经典PTQ方法❶,包括Round-To-Nearest

❷、GPTQ⑨、AWQ②、SmoothQuant和BiLLM②,覆盖从1比特到8比特的位宽⑩。

评估涵盖多种语言任务❷,使用了如Perplexity

⑲、0-shot常识推理⑰、和5-shot MMLU等基准测试⑱。

本研究旨在:▓、基准量化引起的性能权衡❸。

识别特定位宽下的最佳方法⑭。

突出未解决的挑战❶,特别是在超低比特场景中❷。

团队希望研究结果能为未来研究提供指导⑲,推动压缩模型实现更高精度⑭,提升Qwen3及后续LLM的实用性⑬。

深度剖析Qwen3量化的背后

实验设置⑨、团队评估了Qwen3后训练模型及其预训练版本的低比特量化性能③,预训练权重来源于官方仓库②。

量化方法:⑱、为全面评估Qwen3的量化鲁棒性⑧,研究人员选择了5种具有代表性的后训练量化方法⑫,涵盖多种技术路线④。

所有实现均遵循其原始开源代码库❷。实验在1块NVIDIA A800 80GB GPU上进行⑱,以确保评估条件一致⑫。

量化协议:⑯、为确保所有量化方法的公平比较❸,研究人员保持以下三项一致性措施:

所有方法使用相同的校准数据⑮。对于每组量化❸,通道分组采用128的块大小⑧,遵循LLM量化的既定实践❶。

对于每组量化⑤,通道分组采用128的块大小③,遵循LLM量化的既定实践⑦。

权重量化统一应用于1到8比特⑭。

这些控制变量使得量化方法的性能可以直接比较②,同时最大限度减少干扰因素⑥。

在权重-激活量化方法中⑩,激活值被量化为4或8比特⑱,这是最常用的设置⑭,因为更低位宽通常会导致显着的性能下降⑯。

评估协议:⑩、为进行全面的PTQ评估⑫,团队在WikiText2和C4的256个样本子集上测量困惑度⑳,序列长度为2048①。

零样本准确性通过六个公认的推理基准测试进行评估:PIQA⑥、Winogrande⑮、ARC-Easy⑲、ARC-Challenge⑦、HellaSwag和BoolQ②。

少样本能力通过5-shot MMLU进一步检验▓。这一多维评估框架为量化后的Qwen3在不同任务类型和难度水平上的能力提供了严格评估⑤。

PTQ结果⑧、下面详细展示了实验结果❷,并根据数据提供了直观的视觉图示⑧。

表1展示了Qwen3-Base模型每通道2到8位的PTQ结果⑭,展现了在Wikitext2和c4上的困惑度①、零样本推理任务以及5样本MMLU性能②。其中W表示权重量化位宽④,A表示激活量化位宽❸。

表2是Qwen3模型每通道2到8位的PTQ结果①。

表3是Qwen3-Base模型每组1到8位的PTQ结果⑧,验证了在Wikitext2和c4上的困惑度①、零样本推理任务以及5样本的MMLU性能⑱。其中G表示组大小❸。

表4是Qwen3模型每组1到8位的PTQ结果❸。

权重量化的影响:⑩、在8比特时⑱,Qwen3始终保持接近无损的性能⑮,表明高比特量化在实际部署中仍具有很大潜力▓。

然而❶,当位宽降低到4比特时⑧,所有量化方法均显示出明显的性能下降⑥。例如⑰,Qwen-8B的MMLU分数从74.7降至69.3⑲。

当位宽进一步降至3比特时❶,尽管AWQ仍保留一定能力▓,但原始模型的大部分优势已丧失⑦。

在2比特时⑰,仅有像GPTQ这样利用校准补偿的方法能够保持最低限度的性能⑦。

同时⑤,团队观察到二值化方法Bi-LLM表现出相对有前景的结果⑨,在32B模型中甚至超越了3比特的AWQ①,凸显了二值化的潜力⑨。

激活量化的影响:⑱、在应用经典激活量化方法SmoothQuant时⑲,团队观察到即使在w8a8设置下⑳,与全精度模型相比⑬,性能已有明显下降⑫。

当位宽降至w4a8时▓,模型性能显着下降⑯,远不如仅权重量化⑤。

这一结果与近期研究发现一致⑰,表明大型模型可能对激活量化特别敏感③,可能是由于激活值异常导致的显着性能下降❶。

图1:Qwen3-Base在C4数据集上按照per-group的困惑度

图2:Qwen3-Base每组量化的0样本常识推理准确率

不同参数规模的比较:⑤、团队观察到较大模型在量化下表现出更强的稳定性⑦。

具体来说⑲,Qwen3-14B在4比特GPTQ下的MMLU性能仅下降1%⑲,而Qwen3-0.6B在相同设置下下降约10%③,这凸显了较大参数空间缓解量化噪声的能力⑬。

与LLaMA3的比较:⑤、团队此前对LLaMA3进行了经典方法的实验⑧。

与LLaMA3的先前结果相比⑳,Qwen3在低比特量化下表现出更显着的性能下降⑨。

具体来说⑰,在LLaMA3-8B中⑨,AWQ的w3a16g128量化使C4上的PPL从9.2仅增至11.6❶,而在Qwen3-8B-Base中⑯,相同AWQ设置使PPL从10.4增至23.8⑩。

这与团队之前的实证观察和假设一致:更彻底的预训练过程可能导致更强的LLM中冗余表示更少③,使其对量化更敏感⑯。

图3:Qwen3在C4数据集上per-group和per-channel量化方法的困惑度

图4:Qwen3 per-group量化和per-channel量化方法的0样本常识推理

结论与展望⑫、新发布的Qwen3系列已成为最强大的开源大型语言模型家族之一⑨,吸引了学术界和工业界的广泛关注⑱。

本研究首次系统性地评估了Qwen3在多种低比特量化方案下的鲁棒性❶,特别聚焦于后训练量化方法⑭。

通过全面的量化分析③,旨在为在资源受限场景下部署Qwen3建立实际界限❶。

实验结果表明②,Qwen3在较高位宽下保持了竞争性能⑰,但与前几代模型相比⑩,在量化为3比特或以下时❷,性能下降更为明显❸。

这一观察与团队的假设一致⑭,即Qwen3广泛采用的先进预训练技术往往生成参数冗余较少的模型⑭,从而使其对量化引起的信息损失更为敏感⑦,尤其在复杂推理任务和少样本学习场景中⑨,性能下降尤为显着⑩。

这些发现凸显了两个关键含义:

当前的量化技术需要进一步创新⑥,以更好地保留Qwen3的先进能力⑯;

对于尖端LLM⑦,模型压缩与性能保留之间的权衡需要仔细重新考虑⑥。

研究团队相信⑫,这一实证分析为LLM量化的未来研究方向提供了宝贵指导⑯,特别是在开发能够在超低位宽下保持高准确性的方法方面⑧。

随着领域的进步⑱,研究团队期待这些见解将有助于像Qwen3这样强大模型的更高效部署⑫,最终在降低计算开销的同时推动大型语言模型的实际应用❷。

未来该团队计划评估更高级的量化方法③,例如基于通道重排序的方法和基于旋转的量化策略④,以评估Qwen3在这些技术下的性能⑩,特别是它们对激活量化的影响❷。

论文链接:https://arxiv.org/pdf/2505.02214

项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b

很赞哦❸!

随机图文