Google afirma que Gemini 2.5 supera os melhores modelos da OpenAI, DeepSeek e outros gigantes da tecnologia de IA

O Google acaba de lançar o Gemini 2.5, que a empresa chama de seu “modelo de IA mais inteligente até agora”. A primeira versão do modelo foi o Gemini 2.5 Pro, que alcançou pontuações de benchmark impressionantes em muitos testes.

O Google afirma que o Gemini 2.5 supera os melhores modelos da OpenAI, DeepSeek e outros gigantes da tecnologia de IA

O Gemini 2.5 Pro já está disponível no Google AI Studio e no aplicativo Gemini, se você for um usuário Gemini Advanced . O Gemini 2.5 Pro também estará disponível através da Vertex AI em um futuro próximo.

O Google não divulgou os preços do Gemini 2.5 Pro ou de outros modelos Gemini 2.5 neste momento.

Todos os modelos que usam o Gemini 2.5 são "modelos de pensamento", o que significa que eles podem processar o processo de pensamento antes de gerar uma resposta. Esses modelos de “raciocínio” são o próximo grande passo no espaço da IA ​​porque geram respostas mais complexas e, muitas vezes, mais precisas.

“Agora, com o Gemini 2.5, alcançamos um novo nível de desempenho ao combinar um modelo base significativamente melhorado com um pós-treinamento aprimorado ”, disse o Google.

“No futuro, incorporaremos essas capacidades de pensamento diretamente em todos os nossos modelos para que eles possam lidar com problemas mais complexos e dar suporte aos agentes com uma consciência de contexto ainda melhor . ”

Como o Gemini 2.5 se compara aos modelos OpenAI?

Google afirma que Gemini 2.5 supera os melhores modelos da OpenAI, DeepSeek e outros gigantes da tecnologia de IA
Referência do Google Gemini 2.5

Os modelos Gemini 2.5 Pro do Google superam os modelos top de linha anteriores da OpenAI e DeepSeek.

As pontuações de benchmark do Gemini 2.5 compartilhadas pelo Google são bastante impressionantes. O Gemini 2.5 Pro Experimental obteve 18,5% no Último Exame da Humanidade.

Essa pontuação significa que, pelo menos por enquanto, o Gemini 2.5 Pro Experimental é o melhor modelo por essa métrica. Sua pontuação supera o OpenAI 03-mini (14%) e o DeepSeek R1 (8,6%).

Esse teste específico é considerado difícil, embora não seja a única maneira de medir o desempenho de um modelo de IA.

O Google também destacou os recursos de programação do Gemini 2.5 Pro e os padrões do modelo em matemática e ciências. O Gemini 2.5 Pro está atualmente liderando em benchmarks de matemática e ciências, medidos pelo GPQA e AIME 2025.

É possível programar no Gemini 2.5?

A programação é o foco principal do Gemini 2.5. O Google afirma que houve "um grande salto em relação à versão 2.0" e diz que mais melhorias estão a caminho.

O novo modelo do Google pode criar aplicativos da web e aplicativos de código de agente. Uma demonstração do Google mostra o Gemini 2.5 Pro sendo usado para criar um jogo a partir de um único prompt de linha.

4 razões pelas quais o Gemini 2.5 Pro do Google é importante para a IA empresarial

Aqui estão quatro pontos-chave que as equipes empresariais devem ter em mente ao avaliar o Gemini 2.5 Pro.

1. Raciocínio estruturado e transparente – um novo padrão de clareza de pensamento

O que diferencia o Gemini 2.5 Pro não é apenas sua inteligência, mas como essa inteligência demonstra claramente seu trabalho. O método de treinamento passo a passo do Google cria um trem de pensamento estruturado (CoT) que não se assemelha a divagações ou suposições, como o que vimos em modelos como o DeepSeek . Esses CoTs não são truncados em resumos superficiais como os modelos da OpenAI. O novo modelo Gemini apresenta ideias em etapas numeradas, com subtópicos e lógica interna extremamente clara e transparente.

Em termos práticos, isso é um avanço em confiabilidade e navegabilidade. Usuários empresariais que avaliam resultados para tarefas críticas – como revisar implicações de políticas, codificar lógica ou resumir pesquisas complexas – agora podem ver como o modelo chegou à resposta. Isso significa que eles podem validar, corrigir ou redirecionar as respostas com mais confiança. Este é um grande passo à frente em relação à sensação de "caixa preta" que ainda persiste em muitas saídas de modelos de grandes linguagens (LLM) .

Para um guia mais detalhado sobre o desempenho deste modelo, confira o vídeo onde o Gemini 2.5 Pro é testado ao vivo. Um exemplo discutido: quando questionado sobre as limitações de grandes modelos de linguagem, o Gemini 2.5 Pro demonstrou notável consciência. Ele descreve as fraquezas comuns e as categoriza em áreas como “intuição física”, “síntese de novos conceitos”, “planejamento de longo prazo” e “nuance ética”, fornecendo uma estrutura que ajuda os usuários a entender o que o modelo sabe e como abordar o problema.

As equipes de engenharia empresarial podem aproveitar essa capacidade para:

  • Depurar cadeias lógicas complexas em aplicações de missão crítica
  • Melhor compreensão das limitações do modelo em domínios específicos
  • Fornecer decisões mais transparentes habilitadas por IA às partes interessadas
  • Melhorar o seu próprio pensamento crítico estudando a abordagem do modelo

Uma limitação notável é que, embora esse raciocínio estruturado esteja disponível no aplicativo Gemini e no Google AI Studio, ele não está acessível atualmente via API — uma deficiência para desenvolvedores que buscam integrar esse recurso em aplicativos corporativos.

2. Um verdadeiro concorrente à tecnologia de ponta – não apenas na teoria

O modelo atualmente lidera a tabela de classificação do Chatbot Arena por uma margem significativa — mais de 35 pontos Elo à frente do próximo melhor modelo, principalmente a atualização OpenAI 4o lançada um dia após o lançamento do Gemini 2.5 Pro. E embora o domínio dos benchmarks geralmente seja passageiro (já que novos modelos são lançados semanalmente), o Gemini 2.5 Pro realmente parece diferente.

Google afirma que Gemini 2.5 supera os melhores modelos da OpenAI, DeepSeek e outros gigantes da tecnologia de IA

Ele se destaca em tarefas que recompensam o raciocínio profundo: codificação, resolução de problemas com nuances, resumo em documentos e até mesmo planejamento abstrato. Em testes internos, ele teve um desempenho particularmente bom em benchmarks anteriormente difíceis, como o “Último Exame da Humanidade”, um benchmark popular para detectar fraquezas de LLM em áreas abstratas e diferenciadas.

Grupos empresariais podem não se importar com qual modelo vence qual classificação acadêmica. Mas eles se importarão que esse modelo possa pensar - e mostrarão como ele pensa. O teste de vibração é muito importante.

Como observou o respeitado engenheiro de IA Nathan Lambert: “O Google tem os melhores modelos novamente, porque eles deveriam ter iniciado todo esse boom da IA. O grande erro foi corrigido.” Os usuários empresariais devem ver isso não apenas como uma tentativa do Google de alcançar os concorrentes, mas também de superá-los em recursos importantes para aplicativos empresariais.

3. Finalmente, o jogo de criptografia do Google é forte

Tradicionalmente, o Google ficou atrás do OpenAI e do Anthropic em termos de suporte de codificação focado no desenvolvedor. O Gemini 2.5 Pro muda isso.

Em testes práticos, ele demonstrou fortes capacidades de tentativa única em desafios de codificação, incluindo a construção de um jogo Tetris funcional que rodou na primeira tentativa quando exportado para o Replit — sem necessidade de depuração. Mais notavelmente, ele explica claramente a estrutura do código, rotula cuidadosamente as variáveis ​​e etapas e apresenta sua abordagem antes de escrever uma única linha de código.

Este modelo compete com o Claude 3.7 Sonnet da Anthropic, que é considerado líder em geração de código e é um dos principais motivos do sucesso da Anthropic na empresa. Mas o Gemini 2.5 oferece uma vantagem importante: uma enorme janela de contexto de token de até 1 milhão. Claude 3.7 Sonnet atualmente oferece apenas 500.000 tokens.

Essa grande janela de contexto abre novas possibilidades de raciocínio em toda a base de código, leitura de documentação on-line e trabalho em vários arquivos interdependentes. A experiência do engenheiro de software Simon Willison demonstra essa vantagem.

Ao usar o Gemini 2.5 Pro para implementar um novo recurso em nossa base de código, o modelo identificou as alterações necessárias em 18 arquivos diferentes e concluiu o projeto inteiro em cerca de 45 minutos, com média de menos de 3 minutos por arquivo modificado. Esta é uma ferramenta séria para empresas que estão experimentando estruturas de agentes ou ambientes de desenvolvimento com tecnologia de IA.

4. Integração multimétodo com comportamento semelhante ao de um agente

Enquanto alguns modelos, como o mais recente 4o da OpenAI, podem mostrar mais brilho com geração de imagens atraentes, o Gemini 2.5 Pro parece estar redefinindo silenciosamente o que é o raciocínio multimodal fundamentado.

Em um exemplo, um experimento prático de Ben Dickson para a VentureBeat demonstrou a capacidade do modelo de extrair informações importantes de um artigo técnico sobre algoritmos de pesquisa e gerar um diagrama de fluxo SVG correspondente — e então melhorar esse diagrama de fluxo quando lhe for mostrada uma versão renderizada com erros visuais. Esse nível de raciocínio multimodal permite a criação de novos fluxos de trabalho que antes não eram possíveis com modelos somente de texto.

Em outro exemplo, o desenvolvedor Sam Witteveen enviou uma captura de tela simples de um mapa de Las Vegas e perguntou quais eventos do Google estavam acontecendo nas proximidades em 9 de abril. O modelo identificou o local, inferiu a intenção do usuário, pesquisou online e retornou detalhes precisos sobre o Google Cloud Next, incluindo data, local e citação. Tudo isso é feito sem uma estrutura de agente personalizada, apenas o modelo principal e a pesquisa integrada.

Na verdade, esse modelo de raciocínio de entrada multimodal vai além de apenas olhar. Ele sugere como seria um fluxo de trabalho empresarial em 6 meses: carregue documentos, diagramas e painéis e deixe o modelo sintetizar, planejar ou tomar ações significativas com base no conteúdo.

Sign up and earn $1000 a day ⋙

Leave a Comment

Google lança o Career Dreamer, sua mais nova ferramenta de IA para ajudar a escolher a carreira perfeita

Google lança o Career Dreamer, sua mais nova ferramenta de IA para ajudar a escolher a carreira perfeita

Não importa se você está dando os primeiros passos no mercado de trabalho ou fazendo a transição para um novo setor, o Career Dreamer experimental do Google foi criado para conectar você a funções compatíveis.

Google desenvolve ferramenta de compras com IA que permite aos usuários experimentar vestidos e camisas em casa

Google desenvolve ferramenta de compras com IA que permite aos usuários experimentar vestidos e camisas em casa

No ano passado, o Google introduziu um assistente de compras com tecnologia de IA na Pesquisa que permite aos usuários ter uma ideia visual de como uma peça de roupa ficaria em um tipo de corpo específico.

Google desenvolve algoritmo de IA que pode diagnosticar doenças de pele e tuberculose

Google desenvolve algoritmo de IA que pode diagnosticar doenças de pele e tuberculose

O Google vem demonstrando cada vez mais interesse no campo de aplicações de inteligência artificial na medicina.

Google confirma problema com Chromecast de segunda geração e Chromecast Audio

Google confirma problema com Chromecast de segunda geração e Chromecast Audio

Após alguns dias de confusão, o Google confirmou oficialmente o problema com o Chromecast de segunda geração e o Chromecast Audio.

Google publicou acidentalmente documentação sobre como a pesquisa funciona

Google publicou acidentalmente documentação sobre como a pesquisa funciona

Na segunda-feira, documentos internos descrevendo os fatores que o Google Search considera ao classificar e exibir resultados da web vazaram.

Como ativar e usar o Google Assistente no Chrome para Android

Como ativar e usar o Google Assistente no Chrome para Android

O Google está gradualmente eliminando sua antiga tecnologia de reconhecimento de voz e substituindo-a por seu assistente virtual Assistant.

Samsung lança tecnologia de som 3D Eclipsa Audio, competindo diretamente com o Dolby Atmos

Samsung lança tecnologia de som 3D Eclipsa Audio, competindo diretamente com o Dolby Atmos

A Samsung Electronics anunciou planos para integrar o Eclipsa Audio, uma nova tecnologia de áudio 3D, desenvolvida em parceria com o Google, em sua linha de TVs e soundbars de 2025.

Google anuncia 6 novos recursos para celulares Android

Google anuncia 6 novos recursos para celulares Android

O Google anunciou hoje seis novos recursos para smartphones Android.

O que é o Painel de Privacidade no Android 12? Por que isso é um avanço na privacidade?

O que é o Painel de Privacidade no Android 12? Por que isso é um avanço na privacidade?

Segurança e privacidade estão se tornando preocupações cada vez maiores para usuários de smartphones em geral.

ChatGPT Search ou Google é melhor?

ChatGPT Search ou Google é melhor?

Muitas pessoas vêm tentando há muito tempo ver se conseguem realmente substituir o Google pela extensão ChatGPT Search do Chrome.

Google remove oficialmente extensões Manifest V2 no Chrome

Google remove oficialmente extensões Manifest V2 no Chrome

Demorou muito e finalmente chegou o dia. As pessoas estão relatando que sua antiga extensão Manifest v2 está sendo removida do Chrome. E agora?

Google lança atualização do Pixel em dezembro, a maior parte relacionada ao Gemini

Google lança atualização do Pixel em dezembro, a maior parte relacionada ao Gemini

Esta atualização mais recente apresenta melhorias relacionadas à câmera, ferramentas de áudio e vídeo e, mais importante, ao Gemini, o assistente de IA do Google.

9 aplicativos úteis do Google que não vêm pré-instalados em telefones Android

9 aplicativos úteis do Google que não vêm pré-instalados em telefones Android

Se você adora os serviços do Google, esses aplicativos menos conhecidos podem agregar um valor surpreendente ao seu dispositivo.

Google rompe com Qualcomm e opta por modem 5G da MediaTek para a série Pixel 10

Google rompe com Qualcomm e opta por modem 5G da MediaTek para a série Pixel 10

O Google decidiu encerrar sua parceria de longa data com a Qualcomm e, em vez disso, usar o modem T900 da MediaTek na série Pixel 10.

A pesquisa social da Perplexity precisa desses 3 recursos para competir com o Google

A pesquisa social da Perplexity precisa desses 3 recursos para competir com o Google

O mecanismo de busca regular do Perplexity é ótimo, mas seu recurso de Busca Social deixa muito a desejar. Antes que o Perplexity possa sequer pensar em competir com o Google nessa área, ele precisa desses novos recursos.

Como usar o aplicativo CK Club do Circle K para receber ofertas atraentes

Como usar o aplicativo CK Club do Circle K para receber ofertas atraentes

Para obter as informações promocionais mais rápidas do Circle K, você deve instalar o aplicativo CK Club. O aplicativo salva os pagamentos feitos em compras ou pagamentos no Circle K, bem como o número de selos coletados.

Instagram permitirá Reels de até 3 minutos de duração

Instagram permitirá Reels de até 3 minutos de duração

O Instagram acaba de anunciar que permitirá que os usuários postem vídeos no Reels com até 3 minutos de duração, o dobro do limite anterior de 90 segundos.

Como visualizar informações da CPU do Chromebook

Como visualizar informações da CPU do Chromebook

Este artigo orientará você sobre como visualizar informações da CPU e verificar a velocidade da CPU diretamente no seu Chromebook.

8 coisas legais que você pode fazer com um tablet Android antigo

8 coisas legais que você pode fazer com um tablet Android antigo

Se você não quiser vender ou doar seu tablet antigo, você pode usá-lo de 5 maneiras: como um porta-retratos de alta qualidade, tocador de música, leitor de e-books e revistas, assistente de tarefas domésticas e como uma tela secundária.

Como ter unhas bonitas rapidamente

Como ter unhas bonitas rapidamente

Você quer ter unhas bonitas, brilhantes e saudáveis ​​rapidamente. Essas dicas simples para unhas bonitas abaixo serão úteis para você.

Segredos de inspiração de cores que só os designers conhecem

Segredos de inspiração de cores que só os designers conhecem

Este artigo listará dicas inspiradas em cores, compartilhadas pelos principais designers da comunidade Creative Market, para que você possa obter a combinação de cores perfeita sempre.

Tudo o que você precisa para substituir seu laptop por um telefone

Tudo o que você precisa para substituir seu laptop por um telefone

É realmente possível substituir seu laptop pelo seu telefone? Sim, mas você precisará dos acessórios certos para transformar seu telefone em um laptop.

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

Uma coisa importante no vídeo completo do evento é que o próximo recurso do aplicativo ChatGPT foi demonstrado, mas nenhum detalhe real foi compartilhado. É a capacidade do ChatGPT de ver tudo o que está acontecendo na tela do dispositivo do usuário.

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e induzem sistematicamente os usuários a falsas crenças, segundo um novo estudo.

Como alterar perguntas no ChatGPT

Como alterar perguntas no ChatGPT

O ChatGPT agora tem uma opção de alteração de pergunta para que os usuários possam editar a pergunta ou o conteúdo que estão trocando com o ChatGPT.

Como identificar códigos QR falsos e manter seus dados seguros

Como identificar códigos QR falsos e manter seus dados seguros

Os códigos QR parecem bastante inofensivos até você escanear um falso e receber uma pancada forte. Se você quer manter seu celular e seus dados seguros, existem algumas maneiras de identificar um código QR falso.

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

No palco do MWC 2025, a Qualcomm causou impacto ao apresentar sua oitava geração de modem 5G, chamado X85, que deverá ser usado em smartphones emblemáticos que serão lançados ainda este ano.

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Você tem um moderno iPhone 16 “Ultramarine”, mas um belo dia você de repente se cansa daquela cor; O que você vai fazer?

Microsoft integra DeepSeek na plataforma PC Copilot+

Microsoft integra DeepSeek na plataforma PC Copilot+

Em janeiro, a Microsoft anunciou planos para trazer versões otimizadas para NPU do modelo DeepSeek-R1 diretamente para computadores Copilot+ com processadores Qualcomm Snapdragon X.

Diferença entre as funções SE e Alternar no Excel

Diferença entre as funções SE e Alternar no Excel

A instrução SE é uma função lógica comum no Excel. A instrução SWITCH é menos conhecida, mas você pode usá-la em vez da instrução IF em alguns casos.