ASC24超算大赛挑战大模型推理4bit量化,探寻精度与效率的极致平衡

发布时间：2024-09-18

2024年ASC世界大学生超级计算机竞赛（ASC24）总决赛中，来自全球的25支顶尖高校队伍齐聚上海大学，共同挑战一项极具前瞻性的任务：在保证精度的前提下，将开源大语言模型AquilaChat2-34B的推理权重减少到4bit及以下。这一挑战不仅考验参赛选手的技术实力，更代表了当前AI大模型推理优化领域的前沿方向。

4bit量化技术，顾名思义，就是将模型中的权重和激活值从传统的32位浮点数（FP32）或16位浮点数（FP16）压缩到仅4位整数（INT4）。这种激进的量化方式可以显著减少模型的存储需求和计算复杂度。根据浪潮信息发布的源2.0-M32大模型4bit量化版数据，相比同等当量的LLaMA3-70B模型，4bit量化版的推理运行显存仅需23.27GB，而LLaMA3-70B则需要160GB。算力消耗方面，4bit量化版约为1.9 GFLOPs，仅为LLaMA3-70B的1/80。

然而，压缩模型的同时必然面临精度损失的风险。如何在压缩和精度之间寻求平衡，成为参赛队伍面临的最大挑战。参赛选手需要充分了解并掌握大模型常见的量化策略与并行方法，并学习使用各种技术来优化推理过程。例如，源2.0-M32大模型研发团队采用了GPTQ量化方法，并采用AutoGPTQ作为量化框架。他们通过对需要量化的中间层（inter_layers）进行严格评估和筛选，确定了最佳的量化层，成功将模型精度量化至int4级别，在模型精度几乎无损的前提下，提升模型压缩效果、增加推理吞吐量和降低计算成本。

4bit量化技术的应用前景广阔。它不仅能够显著降低大模型的部署和运行成本，还为大模型在移动设备和边缘设备上的应用开辟了新的可能性。例如，Yi-6B-Chat-4bits模型在4bit量化后，所需显存仅为4GB，远低于原始模型的12GB。这意味着即使在资源受限的设备上，也能运行相对复杂的大模型，为AI应用的普及提供了新的可能。

随着量化技术的不断优化和应用场景的拓展，4bit量化版大模型有望在更多领域发挥重要作用。从智能手机到智能家居，从自动驾驶到医疗诊断，低功耗、高效率的AI模型将成为推动这些领域创新的关键力量。ASC24超算大赛中的这一挑战，不仅是一场技术竞赛，更是对未来AI发展方向的一次前瞻探索。