• Data Hackers Newsletter
  • Posts
  • LLM reasoning 8x mais barato: nova técnica da Nvidia corta custos sem perder precisão

LLM reasoning 8x mais barato: nova técnica da Nvidia corta custos sem perder precisão

Conheça a técnica desenvolvida por pesquisadores da Nvidia que é capaz de reduzir os custos de memória do raciocínio LLMs em até oito vezes

Pesquisadores da Nvidia desenvolveram uma técnica capaz de reduzir os custos de memória do raciocínio em large language models (LLMs) em até oito vezes. A abordagem, chamada dynamic memory sparsification (DMS), comprime o key value (KV) cache — a memória temporária que os LLMs geram e armazenam enquanto processam prompts e raciocinam através de problemas e documentos.

Enquanto diversos métodos de compressão do cache já foram propostos anteriormente, a maioria enfrenta dificuldades para fazê-lo sem degradar a inteligência do modelo. A abordagem da Nvidia consegue descartar grande parte do cache mantendo (e em alguns casos até melhorando) as capacidades de raciocínio do modelo.

Experimentos demonstram que o DMS permite que LLMs "pensem" por mais tempo e explorem mais soluções sem a penalidade usual em velocidade ou custos de memória.

O gargalo do reasoning

LLMs melhoram seu desempenho em tarefas complexas ao gerar tokens de "chain-of-thought", essencialmente escrevendo seus passos de raciocínio antes de chegar a uma resposta final. Técnicas de inference-time scaling aproveitam isso dando ao modelo um orçamento maior para gerar esses thinking tokens ou para explorar múltiplos caminhos de raciocínio potenciais em paralelo.

No entanto, esse raciocínio aprimorado vem com um custo computacional significativo. Conforme o modelo gera mais tokens, ele constrói um KV cache que cresce de forma linear, consumindo vastas quantidades de memória nas GPUs.

Impactos práticos do gargalo de memória

Para aplicações do mundo real, o KV cache representa um grande obstáculo. À medida que a cadeia de raciocínio cresce, o cache aumenta linearmente, forçando o hardware a gastar mais tempo lendo dados da memória do que realmente computando, o que desacelera a geração e aumenta a latência.

Isso também limita o número de usuários que um sistema pode atender simultaneamente, já que esgotar a VRAM faz o sistema travar ou ficar extremamente lento.

"A questão não é apenas sobre quantidade de hardware; é sobre se sua infraestrutura está processando 100 threads de raciocínio ou 800 threads pelo mesmo custo", explicou Piotr Nawrot, Senior Deep Learning Engineer da Nvidia, em entrevista.

Limitações das abordagens anteriores

Tentativas anteriores de resolver esse problema focaram em abordagens baseadas em heurísticas. Esses métodos utilizam regras rígidas, como uma "sliding window" que mantém em cache apenas os tokens mais recentes e deleta o resto. Embora isso reduza o uso de memória, frequentemente força o modelo a descartar informações críticas necessárias para resolver o problema, degradando a precisão do output.

Outras soluções usam paging para transferir as partes não utilizadas do KV cache para memórias mais lentas, mas a troca constante de dados introduz overhead de latência que torna aplicações em tempo real lentas.

Dynamic memory sparsification: como funciona

O DMS adota uma abordagem diferente ao "retrofitar" LLMs existentes para gerenciar inteligentemente sua própria memória. Em vez de aplicar uma regra fixa sobre o que deletar, o DMS treina o modelo para identificar quais tokens são essenciais para o raciocínio futuro e quais são descartáveis.

"Ele não apenas adivinha a importância; aprende uma política que explicitamente preserva a distribuição de output final do modelo", disse Nawrot.

Processo de implementação

O processo transforma um LLM padrão pré-treinado, como Llama 3 ou Qwen 3, em um modelo auto-compressivo. Crucialmente, isso não requer treinar o modelo do zero, o que seria proibitivamente caro. Em vez disso, o DMS reutiliza neurônios existentes dentro das camadas de atenção do modelo para produzir um sinal de "manter" ou "descartar" para cada token.

Para equipes preocupadas com a complexidade do retrofitting, os pesquisadores observaram que o processo foi projetado para ser leve. "Para melhorar a eficiência deste processo, os pesos do modelo podem ser congelados, o que torna o processo similar ao Low-Rank Adaptation (LoRA)", explicou Nawrot. Isso significa que um modelo empresarial padrão como o Qwen3-8B "pode ser retrofitado com DMS em questão de horas em um único DGX H100".

Delayed eviction: o diferencial técnico

Uma das partes importantes do DMS é um mecanismo chamado "delayed eviction". Na esparsificação padrão, se um token é considerado sem importância, ele é deletado imediatamente. Isso é arriscado porque o modelo pode precisar de uma fração de segundo para integrar o contexto daquele token em seu estado atual.

O DMS mitiga isso sinalizando um token para remoção, mas mantendo-o acessível por uma janela curta de tempo (por exemplo, algumas centenas de passos). Este atraso permite que o modelo "extraia" qualquer informação necessária remanescente do token e a mescle ao contexto atual antes que o token seja apagado do KV cache.

"O mecanismo de 'delayed eviction' é crucial porque nem todos os tokens são simplesmente 'importantes' (manter para sempre) ou 'inúteis' (deletar imediatamente). Muitos ficam no meio — carregam alguma informação, mas não o suficiente para justificar ocupar um slot inteiro na memória", disse Nawrot. "É aqui que está a redundância. Ao manter esses tokens em uma janela local por um curto período antes da remoção, permitimos que o modelo os atenda e redistribua suas informações para tokens futuros."

Resultados experimentais e benefícios práticos

Para validar a técnica, os pesquisadores aplicaram o DMS a vários modelos de raciocínio, incluindo a série Qwen-R1 (destilado do DeepSeek R1) e Llama 3.2, e os testaram em benchmarks difíceis como AIME 24 (matemática), GPQA Diamond (ciência) e LiveCodeBench (programação).

Ganhos de performance em números

Os resultados mostram que o DMS efetivamente move a fronteira de Pareto, o trade-off ótimo entre custo e performance:

Benchmark

Modelo

Melhoria com DMS

AIME 24

Qwen-R1 32B

+12.0 pontos

Throughput

Qwen3-8B

5x maior

Compressão de memória

Diversos modelos

Até 8x

No benchmark de matemática AIME 24, um modelo Qwen-R1 32B equipado com DMS alcançou uma pontuação 12.0 pontos maior que um modelo padrão quando limitado ao mesmo orçamento de largura de banda de memória. Ao comprimir o cache, o modelo pôde "pensar" muito mais profunda e amplamente do que o modelo padrão poderia com o mesmo orçamento de memória e computação.

Performance em contextos longos

Talvez o mais surpreendente seja que o DMS desafiou a sabedoria comum de que compressão prejudica a compreensão de contextos longos. Em testes "needle-in-a-haystack", que medem a capacidade de um modelo de encontrar uma informação específica enterrada em um documento grande, as variantes com DMS na verdade superaram os modelos padrão.

Ao gerenciar ativamente sua memória em vez de acumular passivamente ruído, o modelo manteve um contexto mais limpo e útil.

Impactos para infraestrutura empresarial

Para a infraestrutura empresarial, os ganhos de eficiência se traduzem diretamente em throughput e economia de hardware. Como o cache de memória é significativamente menor, a GPU gasta menos tempo buscando dados, reduzindo o tempo de espera para os usuários.

Economia real de custos

Em testes com o modelo Qwen3-8B, o DMS correspondeu à precisão do modelo vanilla enquanto entregava até 5x maior throughput. Isso significa que um único servidor pode lidar com cinco vezes mais consultas de clientes por segundo sem queda na qualidade.

Para empresas que operam sistemas de IA em larga escala, essa eficiência pode representar:

  • Redução de custos de infraestrutura: menos servidores necessários para o mesmo volume de requisições

  • Melhor experiência do usuário: menor latência nas respostas

  • Maior capacidade de escala: mais usuários simultâneos por servidor

  • ROI acelerado: investimentos em IA com retorno mais rápido

Como começar com DMS

A Nvidia liberou o DMS como parte de sua biblioteca KVPress. Quanto a como as empresas podem começar com DMS, Nawrot enfatizou que a barreira de entrada é baixa. "A 'infraestrutura mínima viável' são pipelines padrão do Hugging Face — não são necessários kernels CUDA customizados", disse Nawrot, observando que o código é totalmente compatível com o FlashAttention padrão.

Compatibilidade e integração

O DMS é "totalmente compatível" com arquiteturas mais recentes como o Multi-Head Latent Attention (MLA) usado nos modelos da DeepSeek, sugerindo que combinar essas abordagens poderia gerar ganhos de eficiência ainda maiores.

O futuro da gestão de memória em IA

Olhando para o futuro, a equipe vê o DMS como parte de uma mudança maior onde a gestão de memória se torna uma camada inteligente e distinta da stack de IA. À medida que as empresas passam de simples chatbots para sistemas agênticos complexos que requerem raciocínio estendido, o custo de inferência está se tornando uma preocupação primária.

Técnicas como o DMS fornecem um caminho para escalar essas capacidades de forma sustentável.

"Mal arranhamos a superfície do que é possível", disse Nawrot, "e esperamos que o inference-time scaling continue a evoluir."

FAQ: Perguntas frequentes sobre DMS

O que é KV cache e por que ele é importante?
KV cache é a memória temporária que LLMs usam para armazenar informações de contexto durante o processamento. Ele cresce linearmente com o número de tokens, tornando-se um gargalo em aplicações de reasoning.

DMS requer retreinamento completo dos modelos?
Não. O DMS pode ser aplicado a modelos pré-treinados existentes em questão de horas usando técnicas similares ao LoRA, sem necessidade de retreinamento completo.

Quais modelos são compatíveis com DMS?
DMS foi testado com sucesso em modelos como Llama 3.2, Qwen-R1 e Qwen3, e é compatível com arquiteturas modernas como Multi-Head Latent Attention.

Como o DMS se compara a outras técnicas de compressão de cache?
Diferentemente de abordagens baseadas em heurísticas, o DMS treina o modelo para identificar inteligentemente quais tokens são essenciais, mantendo a precisão enquanto reduz o uso de memória em até 8x.

Existe algum trade-off em usar DMS?
Os experimentos mostram que o DMS não apenas mantém a precisão, mas em alguns casos a melhora, especialmente em tarefas de contexto longo, enquanto aumenta significativamente o throughput.