
Conseguir o que deseja com chatbots de IA, incluindo conteúdo ilícito, tem sido um esporte praticado desde o advento do ChatGPT. Existem várias técnicas de jailbreak para quebrar as barreiras de proteção estabelecidas pelos criadores de modelos de linguagem; agora podemos adicionar “poesia de conflito” à lista.
Os grandes modelos de linguagem (LLM) que estão no centro dos bots de IA como ChatGPT ou Gemini incorporam salvaguardas destinadas a impedi-los de gerar um guia para a criação de uma bomba nuclear ou uma receita para a produção de medicamentos. Muito rapidamente, descobriu-se que essas proteções podem ser destruídas com técnicas de jailbreak relativamente simples, às vezes tão triviais quanto reformular a solicitação ou empurrar o modelo para um papel fictício.
Os piratas vão estudar poesia
Um estudo – que ainda não foi revisado por pares – do laboratório italiano Icaro revela um novo método bastante original para obter tudo o que você deseja de um LLM, incluindo o pior: poemas! Chamado de “Poesia Adversarial”, esse jailbreak pretende ser genérico, automatizado e eficaz com diversos modelos, inclusive os mais recentes e mais seguros. Isto contrasta com outros métodos, muitas vezes específicos de um modelo específico.
O jailbreak Icaro consiste em gerar automaticamente prompts curtos estruturados como poemas absurdos ou estilizados; sua particularidade: integram sequências de tokens otimizadas para contornar filtros de segurança. Na verdade, os poemas exploram falhas sistémicas nos mecanismos do LLM: estruturas linguísticas atípicas (rimas forçadas, quebras sintáticas, etc.) e embaralhamento de detectores de segurança através da simulação de conteúdo inofensivo. Os modelos são pressionados a seguir o estilo proposto sem pensar no rumo do pedido.
Apesar das salvaguardas, os modelos geram respostas “proibidas”. Os pesquisadores testaram seu método em 14 modelos, incluindo os mais conhecidos como GPT, Claude, Gemini e Mistral. As taxas de evasão são particularmente altas: até 73% de sucesso para determinados modelos para solicitações particularmente maliciosas! Mesmo modelos considerados muito robustos apresentam uma taxa significativa de jailbreaks.
Esse tipo de ataque é tanto mais sensível quanto o método é fácil de reproduzir, segundo pesquisadores que geraram centenas de poemas conflitantes para a ocasião —sem publicá-los para evitar exploração em larga escala. O problema é que os criadores do LLM correm o risco de ter a maior dificuldade em limitar o impacto deste jailbreak: um ataque pode permanecer eficaz mesmo que o modelo evolua, porque se baseia em preconceitos sistémicos firmemente ancorados, e não em falhas técnicas. Será, portanto, necessário desenvolver novas estratégias de defesa para detectar estas anomalias estruturais. Um baita desafio!
👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google News, assine nosso canal no WhatsApp ou siga-nos em vídeo no TikTok.
Fonte :
A beira