O grupo de tecnologia chinês Alibaba acaba de anunciar um novo modelo de IA chamado QVQ-Max da série Qwen, marcando um avanço no campo da IA multimídia. A característica especial deste modelo é a capacidade de analisar conteúdo de imagem/vídeo e, em seguida, elaborar argumentos e soluções com base nas informações obtidas.
Capacidade impressionante
O QVQ-Max é descrito pelo Alibaba como uma ponte entre modelos de IA baseados em texto puro e o mundo real. Com recursos de raciocínio visual, o sistema pode:
- Analisar imagens e identificar elementos-chave
- Aplicação versátil em muitos campos, desde design de ilustração, criação de roteiro de vídeo até interpretação de personagens
- Resolver problemas com diagramas (matemática, física)
- Instruções de cozimento passo a passo com base em fotos de receitas
O Alibaba diz que o modelo ajuda a preencher a lacuna entre IAs que processam apenas texto e informações do mundo real. Graças à sua capacidade de raciocínio visual, o QVQ-Max pode "ver, entender e pensar" sobre o mundo ao seu redor. A empresa enfatiza seu modelo superior em análise de imagens, identificando elementos-chave e sua flexibilidade na aplicação em muitos campos, como design de ilustração, criação de roteiros de vídeo ou dramatização.

Assim como outros chatbots de IA, o QVQ-Max oferece suporte ao trabalho, à educação e à vida pessoal, mas, graças à integração visual, ele também resolve tarefas mais específicas, como: resolver problemas de matemática/física com diagramas e instruções de culinária por meio de imagens de receitas.
O Alibaba considera o QVQ-Max como a primeira versão e delineou um roteiro de atualização para versões subsequentes. Primeiro, eles queriam melhorar a precisão do reconhecimento de imagem usando técnicas de aterramento. Em segundo lugar, o modelo será otimizado para lidar com multitarefas e problemas complexos, como trabalhar com telefones, computadores ou jogar. Eventualmente, o Alibaba planeja expandir da interação por texto para verificação de ferramentas e criação de conteúdo de imagem.
Os usuários podem experimentar o QVQ-Max por meio de:
- Visite chat.qwen.ai
- Selecione o menu de modelos no canto esquerdo → " Expandir mais modelos "
- Selecione QVQ-Max e comece a conversar
- Anexe arquivos de imagem para explorar os recursos de processamento de IA
Com o lançamento do QVQ-Max, o Alibaba continua a afirmar sua posição na corrida para desenvolver IA multimídia, competindo diretamente com gigantes globais de tecnologia. O modelo promete trazer aplicações práticas no trabalho, na educação e na vida pessoal.