人生箴言
成熟意味着停止展示自己并隐藏自己
随机文章
- 靠电费赚差价成部分房东重要收入:长期向租户收取每千瓦时1.5元,甚至更高的电费 !
- 华为Mate 60 Pro推送鸿蒙OS 4新版升级:新增图片对比、优化系统更稳定 !
- 2023国庆档新片预售票房破亿!韩庚《前任4:英年早婚》第一 !
- 酒店1天11对新人结婚拉满横幅!化妆师:从业这么长时间也没有见过这么多的 !
- 八月十五中秋节刚好满月:中秋团圆阖家欢 !
- 不惧手机抢饭碗 中国市场相机卖疯了 尼康:Zf已经供不应求 !
- 《王者荣耀》宫本武藏全新水墨风皮肤“惊梅引”上线:天下第一剑客 !
- 央视记者实测:关电视开机广告用了3天!体验极差 !
- 青岛一小区母子3人坠楼 2人身亡:摔在平台上的孩子,还有生命体征 !
- 大爷被穿短裙女子指责看腿后发飙:我翘着二郎腿我看自己的不能看?
10月5日消息,据报道,华为苏黎世的实验室发布了一种新的开源量化方法,可在不牺牲大模型输出质量的情况下,减少显存需求。
该技术名为 SINQ(Sinkhorn-Normalized Quantization),目前已在GitHub和Hugging Face上开源,采用Apache 2.0许可,允许企业和研究机构免费使用、修改和商业部署。

SINQ的核心优势在于其快速、无需校准,并且易于集成到现有模型工作流中,通过独特的量化方法,将模型的显存需求降低了60%至70%,具体取决于模型架构和位宽。
这意味着原本需要超过60GB显存才能运行的模型,现在可以在大约20GB的环境中运行。原本需要在高端企业级GPU(如A100或H100)才能运行的大模型,如今可在更经济的硬件上运行,例如单张RTX 4090。
SINQ已在多种架构和模型(如Qwen3系列、LLaMA和DeepSeek)上进行了评估,并在WikiText2和C4等基准测试中表现出色,显著降低了困惑度和翻转率。
它还支持非均匀量化方案(如NF4),并可与校准方法(如AWQ)结合使用,进一步缩小与全精度模型的差距。
在运行效率方面,SINQ的量化速度比HQQ快约两倍,比AWQ快30倍以上,非常适合对量化时间有实际限制的研究和生产环境。


