小米大模型推理速度首次突破每秒1000个token

小米大模型推理速度首次突破每秒1000个token

6月9日,小米MiMo团队与AI编译优化系统组TileRT联合推出MiMo-V2.5-Pro-UltraSpeed推理模式。

该模式在单台标准8卡通用GPU节点上,实现万亿参数混合专家MoE模型生成速度超过1000 tokens/s,峰值接近1200 tokens/s。

技术层面,此次提速主要依赖三项创新。FP4量化技术针对MoE架构特点,仅对占绝大多数的专家层执行无损4-bit量化,其余模块保持原始精度,在压缩内存占用的同时保障模型生成质量基本不降级。

DFlash区块并行推测解码打破传统逐字自回归串行模式,可一次性预测整段文本区块,在代码和数理推理等场景中单轮平均可确认6到7个token。

底层TileRT推理引擎采用持久化内核与异构流水线设计,消除了算子切换带来的延迟,使GPU算力持续满负荷运转。

值得注意的另一点是,这一突破在通用GPU上实现,不依赖定制化芯片,降低了极速推理的落地门槛。

定价方面,UltraSpeed API按标准版MiMo-V2.5-Pro的3倍计费,提供约10倍的输出速度提升。

参考标准版API计费标准,每百万输入tokens缓存命中时为0.025元、未命中缓存为3元,每百万输出tokens收费6元。

按此比例计算,UltraSpeed模式每百万输出tokens的实际价格约为18元。

不过该模式目前推广谨慎,受限高速推理资源供给,采取申请制限时开放,体验时间仅为6月9日至6月23日。

申请通过不保证时效与通过率,平台优先审核有真实业务需求的企业与专业开发者,且仅支持API调用,不兼容TokenPlan套餐。

钉钉内网7.5万字“失利”复盘,副总裁马锐拉同步离场

使用规则上,每个账号每日最多进入队列10次,单次会话时长上限30分钟,闲置超5分钟自动释放资源,表明算力资源仍是当前瓶颈。

行业层面,高速推理正成为大模型竞争的新焦点。2026年5月智谱面向部分企业客户提供GLM-5.1高速版API,模型输出速度达到400 tokens/s,刷新当时全球大模型厂商API速度上限。

今年2月Claude Opus 4.6也曾推出极速模式Fast Mode,速度比标准版快2.5倍,价格翻6倍。

小米此次突破1000 tokens/s,将行业高速推理的基准线向上推了一个台阶。有分析指出,大模型竞争正从训练Scaling Law转向速度Scaling Law。

在Agent与实时交互场景中,输出速度直接决定模型在固定延迟预算内能完成的推理深度和任务复杂度。

但还需客观指出几个问题,定价方面,按1.8倍价格提供约4倍速度提升的宣传,折算后速度单价接近标准版的2.2倍,高速度本身带来了价格溢价。

竞争角度看,国产大模型API市场已形成降价派与涨价派的分化格局。DeepSeek、阿里、字节采取低价策略,小米MiMo V2.5 Pro与DeepSeek V4 Pro基础单价处于同一价格带,约9元每百万输入加百万输出。

智谱和Kimi则持涨价策略,智谱2026年Q1 API价格累计上涨83%,但调用量仍增长400%。小米UltraSpeed模式以3倍价格换取10倍速度,实质是在差异化赛道竞争,绕开了基础价格的肉搏战。

此外,有分析指出,MIMO标准版在长程Agent任务中Token效率优势明显,但在短文本生成等轻量场景中成本可能高于部分竞品。UltraSpeed模式作为强化版,这一潜在局限性可能被进一步放大,开发者需结合具体场景做出成本评估。

中国信通院2026年4月发布的《大模型推理优化关键技术研究报告》显示,我国日均Token调用量两年增长超1400倍,2026年初已突破140万亿,受Agentic AI等应用驱动,推理计算量两年增长达1万倍。

需求侧增长远超供给能力,推理优化成为行业核心课题。后续模型竞争将转向模型、编译器与硬件的一体化协同设计。

小米大模型推理速度首次突破每秒1000个token

原创文章,作者:长江航运船舶代理水运船代,如若转载,请注明出处:http://www.changjianghangyun.com/%e5%b0%8f%e7%b1%b3%e5%a4%a7%e6%a8%a1%e5%9e%8b%e6%8e%a8%e7%90%86%e9%80%9f%e5%ba%a6%e9%a6%96%e6%ac%a1%e7%aa%81%e7%a0%b4%e6%af%8f%e7%a7%921000%e4%b8%aatoken.html

(0)
长江航运船舶代理水运船代
上一篇 2小时前
下一篇 1小时前