Cada vez que as ferramentas de geração de imagens são atualizadas pelo IAos detalhes que permitem identificar uma foto real de uma falsa desaparecem. Um dos elementos ainda gritantes baseava-se nos textos embutidos na foto gerada. Sempre houve “erros de impressão”, palavras inventadas ou misturas de alfabetos nos textos. Agora vai ficar um pouco mais complicado com a chegada do novo modelo ChatGPT Images 2.0. Que Futuro pude observar, é que a exibição dos textos agora é perfeita. Se funciona tão bem é porque houve uma pequena revolução com a introdução desta nova versão do modelo.
Mas primeiro, por que a tela tem sido um problema desde o início? Porque para geradores de imagens de IA, o texto associado a uma imagem correspondia apenas a uma pequena fração dos pixels. A maior parte do trabalho foi baseada texturasdo coressombras, formas gerais. As cenas realistas e artísticas foram muito bem reproduzidas, mas o texto não. As letras estavam distorcidas, as palavras incoerentes.
Processamento mais lento
Com o Image 2.0, a OpenAI mudou claramente seu modelo. Se não conhecemos realmente o método utilizado, porque não deu nenhuma explicação técnica, presumimos que a empresa provavelmente se baseou nos chamados mecanismos de geração de imagens “autoregressivos”. Esses modelos geram uma imagem progressivamente, pixel por pixel, prevendo cada novo elemento dos anteriores. O princípio é idêntico ao usado por modelos de linguagem como GPT.

Um pôster no estilo do cinema Nouvelle Vague gerado com ChatGPT Image 2.0. ©OpenAI
Entre as raras explicações técnicas no seu comunicado de imprensa, a OpenAI destacou que este novo modelo tem “capacidades de reflexão”, o que lhe permite pesquisar na Web, criar múltiplas imagens a partir de um único comando e verificar as suas criações.
A OpenAI também afirma que o Images 2.0 tem uma melhor compreensão da renderização de texto não latino para japonês, coreano, hindi e bengali. A única restrição é que a geração dessa imagem leva mais tempo. A vantagem é que é possível, por exemplo, criar uma história em quadrinhos com diversos painéis com texto perfeito nas bolhas. O modelo Images 2.0 já está disponível para todos os usuários do ChatGPT.