Como poemas absurdos conseguem contornar as proteções da IA

Conseguir o que deseja com chatbots de IA, incluindo conteúdo ilícito, tem sido um esporte praticado desde o advento do ChatGPT. Existem várias técnicas de jailbreak para quebrar as barreiras de proteção estabelecidas pelos criadores de modelos de linguagem; agora podemos adicionar “poesia de conflito” à lista.

Os grandes modelos de linguagem (LLM) que estão no centro dos bots de IA como ChatGPT ou Gemini incorporam salvaguardas destinadas a impedi-los de gerar um guia para a criação de uma bomba nuclear ou uma receita para a produção de medicamentos. Muito rapidamente, descobriu-se que essas proteções podem ser destruídas com técnicas de jailbreak relativamente simples, às vezes tão triviais quanto reformular a solicitação ou empurrar o modelo para um papel fictício.

Os piratas vão estudar poesia

Um estudo – que ainda não foi revisado por pares – do laboratório italiano Icaro revela um novo método bastante original para obter tudo o que você deseja de um LLM, incluindo o pior: poemas! Chamado de “Poesia Adversarial”, esse jailbreak pretende ser genérico, automatizado e eficaz com diversos modelos, inclusive os mais recentes e mais seguros. Isto contrasta com outros métodos, muitas vezes específicos de um modelo específico.

O jailbreak Icaro consiste em gerar automaticamente prompts curtos estruturados como poemas absurdos ou estilizados; sua particularidade: integram sequências de tokens otimizadas para contornar filtros de segurança. Na verdade, os poemas exploram falhas sistémicas nos mecanismos do LLM: estruturas linguísticas atípicas (rimas forçadas, quebras sintáticas, etc.) e embaralhamento de detectores de segurança através da simulação de conteúdo inofensivo. Os modelos são pressionados a seguir o estilo proposto sem pensar no rumo do pedido.

Apesar das salvaguardas, os modelos geram respostas “proibidas”. Os pesquisadores testaram seu método em 14 modelos, incluindo os mais conhecidos como GPT, Claude, Gemini e Mistral. As taxas de evasão são particularmente altas: até 73% de sucesso para determinados modelos para solicitações particularmente maliciosas! Mesmo modelos considerados muito robustos apresentam uma taxa significativa de jailbreaks.

Esse tipo de ataque é tanto mais sensível quanto o método é fácil de reproduzir, segundo pesquisadores que geraram centenas de poemas conflitantes para a ocasião —sem publicá-los para evitar exploração em larga escala. O problema é que os criadores do LLM correm o risco de ter a maior dificuldade em limitar o impacto deste jailbreak: um ataque pode permanecer eficaz mesmo que o modelo evolua, porque se baseia em preconceitos sistémicos firmemente ancorados, e não em falhas técnicas. Será, portanto, necessário desenvolver novas estratégias de defesa para detectar estas anomalias estruturais. Um baita desafio!

👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google News, assine nosso canal no WhatsApp ou siga-nos em vídeo no TikTok.

Fonte :

A beira

Fonte

Como poemas absurdos conseguem contornar as proteções da IA

Byirabrins771@gmail.com

Os piratas vão estudar poesia

By irabrins771@gmail.com

Related Post

onde comprar o smartphone Apple barato com o melhor preço? — Frandroid

descoberta do interior do SUV elétrico com autonomia de 1.000 km — Frandroid

preço, data de lançamento e ficha técnica do novo Mac barato — Frandroid

Deixe um comentário Cancelar resposta

You missed

Star Academy: Léane faz seu primeiro show solo em um estádio, esse candidato se apresenta para apoiá-la (e não é o Théo)!

Testamos… “Planeta de Lana II”, a terna aventura espacial de uma menina e seu companheiro animal

O tablet Xiaomi Pad 7 está com o menor preço do mercado no AliExpress!

onde comprar o smartphone Apple barato com o melhor preço? — Frandroid