实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

发现6天前发布 up博主
80 0

MiniMax公司宣布推出其全新模型MiniMax-M1,该模型作为世界上首个开源的大规模混合架构推理模型,在面向生产力的复杂场景中展现出了卓越性能,成为开源模型中的佼佼者。MiniMax-M1的一个显著特点是支持高达100万的上下文输入,与闭源模型Google Gemini2.5Pro相当,是DeepSeek R1的8倍,并且能够输出长达8万Token的推理结果。

6月底,LMArena 发布了一则大模型文本竞技排行榜。

MiniMax-M1 位列第12名,和 DeepSeek V3 0324、DeepSeek R1、Qwen3 并列,至此——国内LLM御三家正式会师全球开源模型第一梯队。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

LMArena 排行榜,是全球用户一票票盲选出来的实打实战绩,不看参数,拼的是模型本身的“硬功夫”。

本周最新排行榜数据显示,MiniMax-M1 已经进入前10。

 

01.

MiniMax-M1 凭什么位列前茅

 

MiniMax-M1采用混合专家 (MoE)架构,结合闪电注意力机制,4560 亿参数里真正激活的只有 45.9 B——推理时只叫醒“少数派”专家。

训练环节MiniMax 自研了 CISPO,官方公布的训练账单 53.5 万美元,远低于曾经动辄千万美元起步的大模型训练花费。

再配合“少数派”激活方式,一条 100K token 的长回复推理开销只有 DeepSeek-R1 的四分之一。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

MiniMax-M1 的数学能力也是不遑多让,在 AIME 2024 上,MiniMax-M1-80K 得分率高达86%,在公开权重模型里直接冲到第一梯队;

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

在 LMArena 最新的大模型排行榜-数学分类中也是稳居第一。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

MiniMax-M1的上下文能力同样强大到离谱:输入最长 100 万 tokens,输出 8 万 tokens。一次性吞下整部《水浒传》都不会噎住。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

MiniMax-M1 的代码生成能力虽然不在第一梯队,但在 LMArena 编程排行中稳居第二梯队,在指令对齐、逻辑清晰度、代码可读性方面表现优异。

适配 Agent 场景、辅助开发任务根本没有压力。

 

02.

实测MiniMax-M1

 

但是多说不如多做,咱们一起实测看看它到底实力如何。

通用场景

提示词:为我规划一周旅游行程,北京出发,目的地新疆,预算在1万元以内,考虑 7 月天气并给交通方案。


实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

交通住宿、景点消费都规划的很不错,各个景点的参观时长也都规划的很好,整个方案对比小某书的攻略来说,真的是有过之而无不及。

数学

提示词:求 n<1000 且可写成 2a−2b (a>b≥0)的正整数个数。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

这是 2021 AIME 测试中的第 3 题,这题考察枚举、二次判断和快速上界估计,能顺滑做对说明基础代数同样扎实。

网页开发场景

提示词:创建一组九宫格3D卡片组件,可在悬停时卡片翻转,且略微放大。仅使用HTML和CSS(无需JS)。正反面都有内容,且正常显示。翻转过程流畅且逼真。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

用纯 HTML+CSS 做翻转动效,乍一看是小把戏,其实在验底层——布局、三维几何、微交互三条链能否一次咬合到位。

MiniMax M1 对提示词的遵循很到位,卡片翻转后略微放大的效果也很好的呈现了。

提示词:创建一个便签墙,用户可以在这里创建、编辑、拖动和删除彩色便签。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

一面彩色便签墙看似玩具,却把事件模型、状态持久化、拖拽几何、接口调度统统拉到红区,能顺滑跑完才是真硬功。

 

03.

Minimax 技术全景

 

MiniMax-M1 的高光并非侥幸,而是 MiniMax 长期策略的集中体现,当然,MiniMax 手里的王牌也不只这一张:

视频生成模型 Hailuo 02,在全球主流榜单上冲到第二。复杂动作、镜头调度、光影写实能力都很能打,真实感逼近电影质感。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

音频模型方面,MiniMax 也拿下了多个全球第一。从TTS到语音风格迁移,保真度、节奏感、自然度在业内都属顶级。

实测MiniMax-M1,MiniMax公司推出首个开源的大规模混合架构推理模型

更关键的是,MiniMax 走的不是大力出奇迹的老路。他们并不迷信参数,而是把精力花在“推理能力”和“工程稳态”上——用更少的资源,跑得更稳,更准,更快。MiniMax的雄心不止于发布一个模型。官方表示,完整的M1模型权重、技术报告均已在Hugging Face和GitHub上开放获取。同时,公司正积极与国家超算平台、vLLM等业界主流开源框架合作,以确保开发者能够轻松、高效地部署和使用M1模型。

© 版权声明

相关文章

暂无评论

none
暂无评论...