人生箴言
随机文章
- 睡得晚和睡得少哪个更伤身体:看完秒懂 !
- 17杀吃鸡后又被封!大司马一个月被连封六个号 !
- 女演员模仿网红喷火蛋糕玩法被烧伤 危险视频仍在传播 涉事平台客服回应 !
- 标配绞牙避震!极氪001五周年纪念版4月10日上市:综合功率925马力 !
- 上海海葬奖补3000 元!累计近10万先人归海 !
- 高德鹰眼守护两轮车版上线 小牛成首批适配品牌 !
- 开学第一天家长熬夜包书皮 网友:包书皮真有必要吗?
- 贾国龙退居幕后!西贝换帅董俊义 店长:降薪减员只为活下去 大家也理解 !
- 三折促销利润仍超16倍!眼镜的暴利 让人大跌眼镜:专家释疑本质是行业信任危机 !
- 预售15.68万起 广汽丰田铂智7上市定档:很能打的合资纯电来了 !
2月9日消息,小米MiMo大模型团队宣布推出HySparse——一种面向Agent时代的混合稀疏注意力架构,创新使用“极少的全注意力(Full Attention)+稀疏注意力(Sparse Attention)”核心设计,为Agent时代的超长文本处理提供了高效精准的技术解决方案,也为大模型高效注意力结构的研究与落地提供了全新参考。
随着Agent模型与应用的爆发式发展,精准高效处理超长文本正在成为模型必不可少的基础能力。Agent时代的“富贵病”问题,已经变得极为突出。
Agent不仅需要在超长上下文中完成稳定的检索、推理与多轮规划,还必须在推理阶段保持足够快的响应速度,目前最大的挑战已经不只是“能不能算”,而是“算不算得起”。
为此,小米MiMo提出了全新的HySparse架构,以解决上述行业难题。在多项通用、数学、代码和中文评测中,HySparse在7B Dense和80B MoE两种规模均带来稳定提升。
其中在总共49层的80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力,带来了接近10×的KV Cache存储降低,实现效果与效率的兼顾;RULER长文测试表明,HySparse即便将Full Attention层压到极少,也能稳定保持长距离关键信息访问,充分展现了其混合稀疏结构的优势。
HySparse的推出,标志着大模型在“能不能算”向“算不算得起”的关键转变中,正迈出重要一步。
作为小米MiMo在混合注意力架构上的重要技术迭代,HySparse是对MiMo-V2-Flash的Hybrid SWA结构的又一次全新升级。HySparse可以视为在Hybrid SWA的基础上,为SWA增加了全局的、更重要的token信息补充,实现“兼容且互补”。这一改进不仅提升了性能,还没有增加KVCache存储,也没有显著增加计算开销。
小米MiMo表示,计划在更大规模模型上进一步验证HySparse的极限和潜力,并持续探索降低Full Attention层数量的可能性,让超长上下文更高效,并为学术界和工业界在混合稀疏注意力方向的研究提供一些参考和启发。


