小米MiMo推出HySparse：面向Agent时代的混合稀疏注意力架构！

流沙数科 2026-02-09 13:55:33 116

2月9日消息，小米MiMo大模型团队宣布推出HySparse——一种面向Agent时代的混合稀疏注意力架构，创新使用“极少的全注意力（Full Attention）+稀疏注意力（Sparse Attention）”核心设计，为Agent时代的超长文本处理提供了高效精准的技术解决方案，也为大模型高效注意力结构的研究与落地提供了全新参考。

随着Agent模型与应用的爆发式发展，精准高效处理超长文本正在成为模型必不可少的基础能力。Agent时代的“富贵病”问题，已经变得极为突出。

Agent不仅需要在超长上下文中完成稳定的检索、推理与多轮规划，还必须在推理阶段保持足够快的响应速度，目前最大的挑战已经不只是“能不能算”，而是“算不算得起”。

为此，小米MiMo提出了全新的HySparse架构，以解决上述行业难题。在多项通用、数学、代码和中文评测中，HySparse在7B Dense和80B MoE两种规模均带来稳定提升。

其中在总共49层的80B-A3BMoE模型实验中，仅保留5层Full Attention仍能保持甚至提升模型能力，带来了接近10×的KV Cache存储降低，实现效果与效率的兼顾；RULER长文测试表明，HySparse即便将Full Attention层压到极少，也能稳定保持长距离关键信息访问，充分展现了其混合稀疏结构的优势。

HySparse的推出，标志着大模型在“能不能算”向“算不算得起”的关键转变中，正迈出重要一步。

作为小米MiMo在混合注意力架构上的重要技术迭代，HySparse是对MiMo-V2-Flash的Hybrid SWA结构的又一次全新升级。HySparse可以视为在Hybrid SWA的基础上，为SWA增加了全局的、更重要的token信息补充，实现“兼容且互补”。这一改进不仅提升了性能，还没有增加KVCache存储，也没有显著增加计算开销。

小米MiMo表示，计划在更大规模模型上进一步验证HySparse的极限和潜力，并持续探索降低Full Attention层数量的可能性，让超长上下文更高效，并为学术界和工业界在混合稀疏注意力方向的研究提供一些参考和启发。