
Você não poderia ter perdido o fenômeno TurboQuant. O Google jogou uma chave inglesa no lago com este novo método de quantificar o cache KV (valor-chave), prometendo libertar nossas máquinas das cadeias de RAM.
Para ir mais longe
A solução radical do Google para a crise da RAM é superinteligente: aqui está o TurboQuant
Obviamente, quando anunciamos potenciais ganhos de desempenho de 8x em chips profissionais, o público em geral começa a sonhar com um MacBook Air que rodasse modelos gigantes.
Se você não sabia, você pode executar modelos de linguagem grandes em muitas máquinas, em um smartphone ou em um PC. Você pode ter seu “ChatGPT” localmente. E isso é bom, o TurboQuant é compatível com o llama.cpp, um dos motores de inferência que possui um modo interativo semelhante ao ChatGPT.
E a integração do TurboQuant em ferramentas como lhama.cpp começa a nos dar uma imagem mais clara do que realmente nos espera em nossos PCs. Como você verá, esta é uma excelente notícia para seus usos, mas não é necessariamente o aumento de velocidade que você esperava. Estamos aqui numa otimização de espaço, não numa aceleração mágica do processador.
TurboQuant: comprimimos memória, não tempo
O verdadeiro gargalo para a IA local não é apenas o poder computacional bruto, é a memória. Quanto mais você pede a um modelo para lembrar de uma longa conversa ou analisar um documento grande, mais seu cache KV, sua memória de trabalho, aumenta. Até agora, era simples: ou você tinha 24 GB de VRAM ou estava limitado a trocas curtas. E com 8 GB de memória compartilhada entre a CPU e o iGPU… ainda mais curto. TurboQuant oferece um redução do uso de memória em pelo menos 6x. No papel, é colossal.
Concretamente, isto significa que um PC equipado com uma placa gráfica de gama média com 8 ou 12 GB de VRAM pode agora visar janelas de contexto de 32.000 a 64.000 tokens.
Mas tenha cuidado: se o modelo agora “manter” na memória sem travar o sistema, ele não responderá necessariamente mais rápido. Os primeiros retornos sobre o hardware do consumidor mostram que os ganhos simbólicos por segundo são muito variáveis, ou mesmo inexistentes em alguns casos.
Para que ? Porque a compressão tem um custo. Os dados devem ser desquantizados instantaneamente para que a GPU possa processá-los. Além disso, o “ pré-preencher“, esta etapa em que o modelo lê muuuuito prompt antes de começar a responder continua sendo um exercício computacional intensivo.
O TurboQuant ajuda a armazenar o resultado desse cálculo, mas não elimina o tempo necessário para realizá-lo. Em máquinas poderosas como o H100 da Nvidia, a otimização é tanta que ganhamos velocidade. Na sua GPU para jogos, você ganha especialmente o direito de não saturar sua memória com a décima pergunta.
O caso Apple Silicon: potencial ainda limitado
No Mac, a situação é ainda mais específica. Os proprietários de MacBooks com chips M2 ou M3 tinham grandes esperanças na otimização do Metal para o TurboQuant.
A realidade? Os primeiros testes relatam taxas de fluxo às vezes 50% mais baixas do que no formato clássico (f16) dependendo das configurações. Isto não é uma falha tecnológica, mas sim uma prova de que as implementações de software ainda são muito recentes. A otimização para a arquitetura de memória unificada da Apple requer precisão cirúrgica que as portas atuais ainda não alcançaram.
O problema no Mac não é apenas a capacidade, mas também a largura de banda. Mesmo que o TurboQuant reduza o espaço ocupado pelo cache, a máquina ainda deverá circular grandes quantidades de dados para o processador.
Um MacBook Air com 16 GB de RAM certamente se torna mais capaz em prompts longos, o que evita congelamentos, mas não se transforma em uma estação de IA de ponta. O verdadeiro ganho está noutro lado: encontra-se na estabilidade. Evitamos quedas de desempenho atreladas ao swap (quando a máquina utiliza o disco rígido como memória de backup), o que torna a experiência muito mais tranquila ao longo do tempo.
Você pode usar o Atomic Chat, que é um fork do llama.ccp com o TurboQuant habilitado. Vários outros projetos semelhantes estão disponíveis. Este também é o caso das GPUs Nvidia, com suporte Cuda, existem vários forks.
Agora vamos olhar mais longe. O que o TurboQuant realmente traz é uma democratização do “contexto longo”. Já não precisamos de investir numa GPU de 2.000 euros para trabalhar em documentos longos. Se você está procurando corridas de fluxo bruto, ficará desapontado. Se você deseja tornar sua IA local realmente útil para processar um pouco mais de dados, esta é uma pequena revolução.
Encontre todos os artigos do Frandroid diretamente no Google. Inscreva-se em nosso perfil do Google para não perder nada!