O Google DeepMind tem feito progressos constantes no campo da IA com atualizações regulares e altamente conceituadas para Gemini, Imagen, Veo, Gemma e AlphaFold. Hoje, a equipe de IA do Google continua a fazer manchetes ao anunciar oficialmente sua entrada no setor de robótica com o lançamento de dois novos modelos baseados no Gemini 2.0: Gemini Robotics e Gemini Robotics-ER.
Gemini Robotics: Modelo Avançado de Visão-Linguagem-Ação
Gemini Robotics é um modelo avançado de visão-linguagem-ação (VLA) desenvolvido com base no Gemini 2.0, com a adição de ações físicas como um novo método de saída para controle de robôs. O Google afirma que esse novo modelo consegue entender situações que nem sequer foram encontradas durante o treinamento.
Comparado a outros modelos VLA líderes, a Gemini Robotics tem um desempenho duas vezes melhor em um conjunto abrangente de benchmarks de generalização. Como é construído no modelo Gemini 2.0, ele é capaz de entender muitos tipos diferentes de linguagens naturais, o que significa que pode entender comandos humanos com mais precisão.
Em termos de destreza, o Google afirma que a Gemini Robotics pode lidar com tarefas complexas e de várias etapas que exigem manipulação precisa. Por exemplo, este modelo pode dobrar origami ou colocar lanches em sacos Ziploc.
Gemini Robotics-ER: Um modelo visual-linguístico com foco no raciocínio espacial
Gemini Robotics-ER é um modelo visual-linguístico avançado focado no raciocínio espacial, permitindo que os roboticistas se integrem com seus controladores de baixo nível existentes. Usando este modelo, o roboticista terá todas as etapas para controlar o robô de uma só vez, incluindo percepção, estimativa de estado, compreensão espacial, planejamento e geração de código.
O Futuro da Gemini Robotics
O Google está fazendo uma parceria com a Apptronik para construir robôs humanoides baseados nos modelos Gemini 2.0. O Google também está trabalhando com vários parceiros de testes confiáveis, incluindo Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools, para orientar o desenvolvimento futuro do Gemini Robotics-ER.
Ao permitir que robôs entendam e executem tarefas complexas com maior precisão e adaptabilidade, o Google DeepMind está abrindo caminho para um futuro em que os robôs podem se integrar perfeitamente a muitos aspectos de nossas vidas.