接近GPT-4！MiniMax发布万亿MoE大模型

发布时间：2024-09-16

MiniMax稀宇科技近日正式推出了万亿参数的MoE（混合专家模型）大模型abab 6.5，其核心能力已开始接近GPT-4、Claude-3、Gemini-1.5等世界领先的大语言模型。这一突破标志着中国AI企业在大模型技术上取得了显著进展。

MoE模型的核心在于将多个专业化的子模型（即“专家”）组合起来，每个专家都有其擅长的领域。决定哪个专家参与解答特定问题的，是一个称为“门控网络”的机制。这种架构的优势在于能够在远少于Dense模型所需的计算资源下进行有效的预训练，同时保持模型的高性能。

MiniMax在MoE技术上进行了多项创新。首先，该公司早在今年1月就发布了国内首个MoE大语言模型abab-6，并在4月推出了abab-6.5系列。其次，MiniMax自研的abab 6.5s模型在处理10万token时效率可提升2-3倍，随着长度越长，提升越明显。这表明MiniMax在MoE技术上的探索已取得显著成效。

在实际应用中，MiniMax的大模型表现出色。据统计，MiniMax每日与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音，大模型日处理交互量排名国内AI公司首位。这些数据反映了MiniMax大模型在实际应用中的强大处理能力和广泛影响力。

MiniMax不仅在文本处理方面有所突破，还在语音和视频模型上发布多项突破性进展。例如，MiniMax的视频模型abab-video-1最高支持1280*720的25fps，拥有电影感镜头移动，并且支持带文字元素。语音模型abab-speech-1则支持多种语言和方言，几乎可以达到真人语音的水平。

MoE技术的兴起反映了AI大模型发展的一个重要趋势。随着应用场景的复杂化和细分化，垂直领域应用更加碎片化，单一的大模型难以同时满足通识问题和专业领域问题的需求。MoE提供了一种性价比更高的解决方案，允许模型在保持计算成本不变的情况下增加参数数量，从而扩展到非常大的模型规模。

MiniMax在MoE技术上的突破不仅展示了中国AI企业的创新能力，也为未来AI技术的发展指明了方向。随着更多企业加入MoE技术的研发，我们有理由期待AI大模型在性能和应用上会有更进一步的突破。