This New Method Just Killed RAM Limitations
Nova técnica revoluciona limitações de memória RAM.
Conteudo
TLDR;
TurboQuant é um método do Google que comprime losslessly o KV‑cache das LLMs, reduzindo a memória usada aproximadamente 6–10x (por exemplo de 32 para ~3 bits) e podendo acelerar a execução no chip até ~8x. Trata‑se de um artigo de pesquisa que já foi testado em QA, geração de código, sumarização e recuperação de informação mostrando compressão sem perda, porém ainda não está em produção. O truque combina Polar Quant (rotaciona vetores para coordenadas polares para eliminar overhead de normalização) e um esquema QJL que corrige resíduos com apenas um bit, resultando em compressão perfeita sem custo adicional.
Resumo
O Google publicou o TurboQuant, um avanço importante que comprime de forma praticamente lossless a memória de trabalho dos LLMs (o KV cache), abordando uma crise crescente: a demanda por memória escala muito mais rápido que a oferta (HBM cada vez mais difícil e caro de produzir por causa de fatores como falta de hélio e custo de energia), enquanto agentes e fluxos longos de tokens fazem o consumo explodir. TurboQuant promete reduzir a memória do KV cache por ~6x e acelerar até 8x em chip (em alguns casos relata-se compressão de ~10x, de 32 para 3 bits) sem perda de informações. O método evita as limitações da quantização vetorial tradicional eliminando overhead de normalização por bloco: primeiro aplica Polar Quant (rotaciona dados para um sistema coordenado mais eficiente: raio = intensidade, ângulo = significado) e depois corrige resíduos minúsculos com QJL (Quantized Johnson–Lindenstrauss), que usa um bit corretor para eliminar viés e preservar scores de atenção. Testes do paper mostraram eficácia em QA, geração de código, sumarização e recuperação tipo “agulha no palheiro” em contextos extensos. É um paper de pesquisa, não uma solução pronta em produção, mas desenha um caminho promissor para tornar LLMs muito mais eficientes em memória.