ASC24超算大赛挑战大模型推理4bit量化,探寻精度与效率的极致平衡

发布时间:2024-09-18

Image

2024年ASC世界大学生超级计算机竞赛(ASC24)总决赛中,来自全球的25支顶尖高校队伍齐聚上海大学,共同挑战一项极具前瞻性的任务:在保证精度的前提下,将开源大语言模型AquilaChat2-34B的推理权重减少到4bit及以下。这一挑战不仅考验参赛选手的技术实力,更代表了当前AI大模型推理优化领域的前沿方向。

4bit量化技术,顾名思义,就是将模型中的权重和激活值从传统的32位浮点数(FP32)或16位浮点数(FP16)压缩到仅4位整数(INT4)。这种激进的量化方式可以显著减少模型的存储需求和计算复杂度。根据浪潮信息发布的源2.0-M32大模型4bit量化版数据,相比同等当量的LLaMA3-70B模型,4bit量化版的推理运行显存仅需23.27GB,而LLaMA3-70B则需要160GB。算力消耗方面,4bit量化版约为1.9 GFLOPs,仅为LLaMA3-70B的1/80。

然而,压缩模型的同时必然面临精度损失的风险。如何在压缩和精度之间寻求平衡,成为参赛队伍面临的最大挑战。参赛选手需要充分了解并掌握大模型常见的量化策略与并行方法,并学习使用各种技术来优化推理过程。例如,源2.0-M32大模型研发团队采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。他们通过对需要量化的中间层(inter_layers)进行严格评估和筛选,确定了最佳的量化层,成功将模型精度量化至int4级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本。

4bit量化技术的应用前景广阔。它不仅能够显著降低大模型的部署和运行成本,还为大模型在移动设备和边缘设备上的应用开辟了新的可能性。例如,Yi-6B-Chat-4bits模型在4bit量化后,所需显存仅为4GB,远低于原始模型的12GB。这意味着即使在资源受限的设备上,也能运行相对复杂的大模型,为AI应用的普及提供了新的可能。

随着量化技术的不断优化和应用场景的拓展,4bit量化版大模型有望在更多领域发挥重要作用。从智能手机到智能家居,从自动驾驶到医疗诊断,低功耗、高效率的AI模型将成为推动这些领域创新的关键力量。ASC24超算大赛中的这一挑战,不仅是一场技术竞赛,更是对未来AI发展方向的一次前瞻探索。