A OpenAI acaba de introduzir oficialmente uma atualização notável na capacidade de geração de imagens de IA no ChatGPT, um importante passo à frente em vez de usar um modelo de geração de imagens separado como o DALL-E anterior. Este novo recurso foi integrado diretamente ao GPT-4o, trazendo melhorias significativas.
Superando limitações inerentes
Embora muitos modelos atuais de geração de imagens de IA possam criar imagens artísticas impressionantes, eles geralmente têm dificuldades com elementos como texto, logotipos ou objetos do cotidiano. A OpenAI afirma que o novo GPT-4o pode superar essas limitações graças à sua capacidade de:
- Exibir texto corretamente
- Cumpra rigorosamente os requisitos do usuário
- Aproveite o conhecimento prévio e o contexto da conversa
- Permite a edição de fotos carregadas ou a criação de novas fotos com base nas fotos originais
- Amplamente disponível
Este novo recurso está sendo implementado atualmente para usuários do ChatGPT Free, ChatGPT Plus, Pro e Team, e estará disponível no ChatGPT Enterprise e Edu nas próximas semanas. Vale ressaltar que esta será a ferramenta padrão de criação de imagens no ChatGPT, facilitando o acesso dos usuários sem opções adicionais. Os usuários podem personalizar fotos com:
- Proporção de aspecto específica
- Cor exata (usando código hexadecimal)
- Fundo transparente
- Suporte multiplataforma

Além do ChatGPT, esse recurso também estará disponível em plataformas como Sora (geração de imagens), DALL·E GPT dedicado e GPT-4o API (para desenvolvedores, com lançamento previsto para as próximas semanas).
Apesar da promessa de muitas melhorias, o novo modelo ainda tem algumas limitações:
- O tempo de geração da imagem pode ser de até 1 minuto devido ao alto nível de detalhes
- Corte indesejado em fotos verticais
- Às vezes, "fabricam" informações com pouco contexto necessário
- Dificuldade em processar mais de 10-20 conceitos de uma só vez
- Dificuldade com línguas não latinas
- Correções detalhadas (como erros ortográficos) não são muito eficazes
- Difícil exibir informações detalhadas em tamanhos pequenos
Todas as imagens geradas pelo GPT-4o conterão metadados C2PA, permitindo a verificação de procedência usando as ferramentas internas do OpenAI.
Apesar de algumas limitações, o GPT-4o promete fornecer imagens mais precisas e personalizáveis. A OpenAI afirma que continuará aprimorando o modelo nos próximos meses, abrindo novas possibilidades para a criação de conteúdo visual com tecnologia de IA.
Com esta grande atualização, a OpenAI continua a fortalecer sua liderança na corrida da IA criativa, oferecendo uma experiência mais integrada e poderosa aos usuários em diversas plataformas.