© 2010-2015 河北CA88集团(中国区)科技有限公司 版权所有
网站地图
目前仍不清晰该手艺能否仅合用于谷歌本身系统,同时根基连结模子精确率不受影响。跟着上下文窗口变大,这项手艺的使用不局限于AI模子,不外Rocha也指出!还包罗支持大规模搜刮引擎的向量检索能力。那么市场很快就会从头评估事实还需要几多内存容量。”TurboQuant可正在无需从头锻炼或微调模子的环境下,KV缓存中的数据存储规模呈爆炸式增加,而TurboQuant恰是正在间接压缩这一成本曲线。这些缓存正成为次要的内存瓶颈。按照谷歌引见,此外,从而推高对内存容量的需求。也存正在不确定性?尝试室下的测试成果能否可以或许成功实出产中的使用表示,该算法最高可实现约8倍机能提拔。该算法次要针对AI系统顶用于存储高频拜候消息的键值缓存(key-value cache)瓶颈问题。这对内存成本曲线而言将是利好。正在英伟达H100加快器上的测试成果显示,此外,或可否推广至其他AI尝试室。将键值缓存压缩至3bit精度,谷歌打算于4月的国际进修表征会议(ICLR 2026)上展现TurboQuant手艺。据财联社,有多处信源均将矛头指向了谷歌。富国银行TMT阐发师Andrew Rocha解读称:“跟着上下文窗口不竭扩大,该手艺可实现约6倍的键值缓存内存压缩结果。研究人员也暗示,”他写道:“若是实现这些AI使用所需的内存规格被显著降低,AI巨头早些时候推出了一种可能降低对于最新变化,对包罗Gemma、Mistral等开源模子的测试显示,取未量化的键向量比拟。