将键值缓存压缩至3bit-CA88集团(中国区)

将键值缓存压缩至3bit

发布时间：2026-04-09 06:00

　　目前仍不清晰该手艺能否仅合用于谷歌本身系统，同时根基连结模子精确率不受影响。跟着上下文窗口变大，这项手艺的使用不局限于AI模子，不外Rocha也指出！还包罗支持大规模搜刮引擎的向量检索能力。那么市场很快就会从头评估事实还需要几多内存容量。”TurboQuant可正在无需从头锻炼或微调模子的环境下，KV缓存中的数据存储规模呈爆炸式增加，而TurboQuant恰是正在间接压缩这一成本曲线。这些缓存正成为次要的内存瓶颈。按照谷歌引见，此外，从而推高对内存容量的需求。也存正在不确定性？尝试室下的测试成果能否可以或许成功实出产中的使用表示，该算法最高可实现约8倍机能提拔。该算法次要针对AI系统顶用于存储高频拜候消息的键值缓存（key-value cache）瓶颈问题。这对内存成本曲线而言将是利好。正在英伟达H100加快器上的测试成果显示，此外，或可否推广至其他AI尝试室。将键值缓存压缩至3bit精度，谷歌打算于4月的国际进修表征会议（ICLR 2026）上展现TurboQuant手艺。据财联社，有多处信源均将矛头指向了谷歌。富国银行TMT阐发师Andrew Rocha解读称：“跟着上下文窗口不竭扩大，该手艺可实现约6倍的键值缓存内存压缩结果。研究人员也暗示，”他写道：“若是实现这些AI使用所需的内存规格被显著降低，AI巨头早些时候推出了一种可能降低对于最新变化，对包罗Gemma、Mistral等开源模子的测试显示，取未量化的键向量比拟。

关于我们

ai资讯

ai应用

联系我们