接近GPT-4!MiniMax发布万亿MoE大模型

发布时间:2024-09-16

Image

MiniMax稀宇科技近日正式推出了万亿参数的MoE(混合专家模型)大模型abab 6.5,其核心能力已开始接近GPT-4、Claude-3、Gemini-1.5等世界领先的大语言模型。这一突破标志着中国AI企业在大模型技术上取得了显著进展。

MoE模型的核心在于将多个专业化的子模型(即“专家”)组合起来,每个专家都有其擅长的领域。决定哪个专家参与解答特定问题的,是一个称为“门控网络”的机制。这种架构的优势在于能够在远少于Dense模型所需的计算资源下进行有效的预训练,同时保持模型的高性能。

MiniMax在MoE技术上进行了多项创新。首先,该公司早在今年1月就发布了国内首个MoE大语言模型abab-6,并在4月推出了abab-6.5系列。其次,MiniMax自研的abab 6.5s模型在处理10万token时效率可提升2-3倍,随着长度越长,提升越明显。这表明MiniMax在MoE技术上的探索已取得显著成效。

在实际应用中,MiniMax的大模型表现出色。据统计,MiniMax每日与全球用户进行超30亿次交互,处理超3万亿文本token、2000万张图片和7万小时语音,大模型日处理交互量排名国内AI公司首位。这些数据反映了MiniMax大模型在实际应用中的强大处理能力和广泛影响力。

MiniMax不仅在文本处理方面有所突破,还在语音和视频模型上发布多项突破性进展。例如,MiniMax的视频模型abab-video-1最高支持1280*720的25fps,拥有电影感镜头移动,并且支持带文字元素。语音模型abab-speech-1则支持多种语言和方言,几乎可以达到真人语音的水平。

MoE技术的兴起反映了AI大模型发展的一个重要趋势。随着应用场景的复杂化和细分化,垂直领域应用更加碎片化,单一的大模型难以同时满足通识问题和专业领域问题的需求。MoE提供了一种性价比更高的解决方案,允许模型在保持计算成本不变的情况下增加参数数量,从而扩展到非常大的模型规模。

MiniMax在MoE技术上的突破不仅展示了中国AI企业的创新能力,也为未来AI技术的发展指明了方向。随着更多企业加入MoE技术的研发,我们有理由期待AI大模型在性能和应用上会有更进一步的突破。