AI初创企业推MoE混合专家模型架构新品abab 6.5

微云疏影 2024-04-17 509

　　4 月 17 日，国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型，其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

　　losoev 6.5 系列包含两款模型：

　　losoev 6.5：拥有万亿级别的参数，可处理 200k tokens 的上下文长度；

　　losoev 6.5s：与 losoev 6.5 共享相同的训练技术和数据，但效率更高，同样支持 200k tokens 的上下文长度，且能够在 1 秒钟内处理近 3 万字的文本。

　　自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来，MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段，在加速模型扩展方面取得了显著进展。

　　在 200k token 的范围内，官方对 losoev 6.5 进行了业内常见的“大海捞针”测试，即将一句与原文无关的句子插入长文本中，然后通过自然语言询问模型，观察其能否准确识别出这句话。经过 891 次测试，losoev 6.5 均能准确回答问题。

　　losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品，如海螺 AI 和 MiniMax 开放平台。

打开APP阅读更多精彩内容