Um único desenvolvedor, armado com AI Claude, conseguiu implementar o método revolucionário do Google para acabar com a crise da RAM. A consequência: agora é possível executar modelos de IA ultrapoderosos em um computador pessoal simples como um MacBook Air.

Claude antrópico

A história começa com uma publicação científica que quase passou despercebida ao grande público, mas que abalou os mercados financeiros. O Google apresentou um novo algoritmo chamado TurboQuant no final de março de 2026 na conferência ICLR. O objetivo: reduzir os requisitos de RAM de inteligências artificiais gananciosas e potencialmente pôr fim à crise de RAM que afeta o público em geral.

A empresa publicou a matemática por trás desse avanço, mas fez uma escolha singular: não compartilhar nenhuma linha de código explorável.

É aqui que entra Tom Turney, um desenvolvedor independente que, munido de seu terminal e do assistente de IA Claude, decidiu recriar esta tecnologia do zero, como podemos ler a seguir. Médio. Em apenas 7 dias, o desenvolvedor conseguiu recriar e até melhorar o algoritmo secreto do Google.

O problema da memória da inteligência artificial

Para compreender o feito, devemos primeiro observar como funcionam os modelos de linguagem atuais. Quando você conversa com a inteligência artificial, ela não lê apenas a sua última frase. Deve reter o histórico completo da conversa para permanecer consistente. Esses dados são armazenados no que é chamado de cache KV, para “Valor-chave”.

O problema desse cache é que ele cresce linearmente a cada nova palavra gerada. Ao longo de uma longa conversa, essa memória temporária acaba consumindo mais espaço do que o próprio modelo de IA.

Para ir mais longe
Seu computador ou smartphone pode executar uma IA? Este site lhe dá a resposta em um clique

Esta é a principal razão pela qual é tão difícil executar modelos de alto desempenho em um computador pessoal. O algoritmo do Google fornece uma resposta matemática a esse bloqueio. Se você quiser se aprofundar na mecânica básica, já detalhamos como esta solução reduz enormemente o consumo de memória de nossas IAs.

Uma corrida de sete dias para ultrapassar o Google

Diante do documento de pesquisa do Google, Tom Turney não esperou. No espaço de sete dias, ele transformou equações complexas em um programa funcional.

Os primeiros três dias foram dedicados à prototipagem em Python para validar matemática básica. Depois, ele portou esse código para linguagens mais eficientes para explorar os chips gráficos dos computadores Apple.

A parte mais interessante é a otimização. A primeira versão de seu código era relativamente lenta. De acordo com dados compartilhados pelo desenvolvedor, o processamento inicial foi limitado a 739 tokens por segundo (a unidade de desempenho para modelos de IA).

Graças ao trabalho cuidadoso de gerenciamento de memória e cálculos gráficos, ele conseguiu aumentar essa velocidade para 2.747 tokens por segundo. O resultado final não é apenas funcional, mas também mais rápido do que os métodos de compactação padrão existentes.

Mas o desenvolvedor não parou por aí. Ele adicionou sua própria camada de busca ao algoritmo do Google com uma função chamada Sparse V. Ele percebeu que durante longas conversas, a inteligência artificial dá importância apenas a uma pequena porção das palavras armazenadas.

Ao decidir não processar dados desnecessários, ele explica que pode ignorar 90% das descompressões de valores. O ganho de velocidade é notável, e o impacto na qualidade das respostas da IA ​​é, segundo seus próprios testes, de “0,0000”. Precisão absoluta.

O pânico de Wall Street diante de uma equação

O anúncio do Google teve um efeito colateral inesperado. Os mercados financeiros, temendo que esta optimização de software destruísse a procura de componentes de hardware (incluindo RAM), venderam massivamente as suas acções.

Empresas como Samsung, Micron e NVIDIA viram os seus preços cair drasticamente no espaço de 48 horas. O CEO da Cloudflare, Matthew Prince, descreveu esta publicação como “ Momento DeepSeek do Google“.

No entanto, esta reação do mercado carece de nuances. Tornar uma tecnologia mais eficiente em termos de recursos não reduz necessariamente o seu consumo global, muito pelo contrário. Isso é chamado de paradoxo de Jevons.

Para ir mais longe
Esta ferramenta já integra o Google TurboQuant: aqui estão os ganhos esperados para o seu PC ou Mac

Ao reduzir o custo do material necessário para operar esses modelos, novos usos tornam-se possíveis para o público em geral. A rápida integração destas descobertas dá-nos um primeiro vislumbre muito concreto do poder que chega aos nossos computadores pessoais com aplicações já prontas para download, que utilizam o algoritmo Google TurboQuant.

O que aconteceu esta semana marca um ponto de viragem. A lacuna entre a pesquisa teórica e sua aplicação prática nunca foi tão tênue. Graças à iniciativa de um desenvolvedor independente, agora é possível rodar um modelo de inteligência artificial com 35 bilhões de parâmetros, com um contexto imenso, em um simples MacBook.

Tudo isso, sem que a empresa por trás do algoritmo tenha que publicar seu próprio código.


Encontre todos os artigos do Frandroid diretamente no Google. Inscreva-se em nosso perfil do Google para não perder nada!

Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *