实测MiniMax-M1，MiniMax公司推出首个开源的大规模混合架构推理模型

MiniMax公司宣布推出其全新模型MiniMax-M1，该模型作为世界上首个开源的大规模混合架构推理模型，在面向生产力的复杂场景中展现出了卓越性能，成为开源模型中的佼佼者。MiniMax-M1的一个显著特点是支持高达100万的上下文输入，与闭源模型Google Gemini2.5Pro相当，是DeepSeek R1的8倍，并且能够输出长达8万Token的推理结果。

6月底，LMArena 发布了一则大模型文本竞技排行榜。

MiniMax-M1 位列第12名，和 DeepSeek V3 0324、DeepSeek R1、Qwen3 并列，至此——国内LLM御三家正式会师全球开源模型第一梯队。

LMArena 排行榜，是全球用户一票票盲选出来的实打实战绩，不看参数，拼的是模型本身的“硬功夫”。

本周最新排行榜数据显示，MiniMax-M1 已经进入前10。

01. MiniMax-M1 凭什么位列前茅

MiniMax-M1采用混合专家（MoE）架构，结合闪电注意力机制，4560 亿参数里真正激活的只有 45.9 B——推理时只叫醒“少数派”专家。

训练环节MiniMax 自研了 CISPO，官方公布的训练账单 53.5 万美元，远低于曾经动辄千万美元起步的大模型训练花费。

再配合“少数派”激活方式，一条 100K token 的长回复推理开销只有 DeepSeek-R1 的四分之一。

MiniMax-M1 的数学能力也是不遑多让，在 AIME 2024 上，MiniMax-M1-80K 得分率高达86%，在公开权重模型里直接冲到第一梯队；

在 LMArena 最新的大模型排行榜-数学分类中也是稳居第一。

MiniMax-M1的上下文能力同样强大到离谱：输入最长 100 万 tokens，输出 8 万 tokens。一次性吞下整部《水浒传》都不会噎住。

MiniMax-M1 的代码生成能力虽然不在第一梯队，但在 LMArena 编程排行中稳居第二梯队，在指令对齐、逻辑清晰度、代码可读性方面表现优异。

适配 Agent 场景、辅助开发任务根本没有压力。

02. 实测MiniMax-M1

但是多说不如多做，咱们一起实测看看它到底实力如何。

通用场景

提示词：为我规划一周旅游行程，北京出发，目的地新疆，预算在1万元以内，考虑 7 月天气并给交通方案。

交通住宿、景点消费都规划的很不错，各个景点的参观时长也都规划的很好，整个方案对比小某书的攻略来说，真的是有过之而无不及。

数学

提示词：求 n<1000 且可写成 2^a−2^b (a>b≥0)的正整数个数。

这是 2021 AIME 测试中的第 3 题，这题考察枚举、二次判断和快速上界估计，能顺滑做对说明基础代数同样扎实。

网页开发场景

提示词：创建一组九宫格3D卡片组件，可在悬停时卡片翻转，且略微放大。仅使用HTML和CSS（无需JS）。正反面都有内容，且正常显示。翻转过程流畅且逼真。

用纯 HTML+CSS 做翻转动效，乍一看是小把戏，其实在验底层——布局、三维几何、微交互三条链能否一次咬合到位。

MiniMax M1 对提示词的遵循很到位，卡片翻转后略微放大的效果也很好的呈现了。

提示词：创建一个便签墙，用户可以在这里创建、编辑、拖动和删除彩色便签。

一面彩色便签墙看似玩具，却把事件模型、状态持久化、拖拽几何、接口调度统统拉到红区，能顺滑跑完才是真硬功。

03. Minimax 技术全景

MiniMax-M1 的高光并非侥幸，而是 MiniMax 长期策略的集中体现，当然，MiniMax 手里的王牌也不只这一张：

视频生成模型 Hailuo 02，在全球主流榜单上冲到第二。复杂动作、镜头调度、光影写实能力都很能打，真实感逼近电影质感。

音频模型方面，MiniMax 也拿下了多个全球第一。从TTS到语音风格迁移，保真度、节奏感、自然度在业内都属顶级。

更关键的是，MiniMax 走的不是大力出奇迹的老路。他们并不迷信参数，而是把精力花在“推理能力”和“工程稳态”上——用更少的资源，跑得更稳，更准，更快。MiniMax的雄心不止于发布一个模型。官方表示，完整的M1模型权重、技术报告均已在Hugging Face和GitHub上开放获取。同时，公司正积极与国家超算平台、vLLM等业界主流开源框架合作，以确保开发者能够轻松、高效地部署和使用M1模型。