A Nvidia acaba de anunciar o lançamento de um modelo de grande linguagem (LLM) de código aberto que supostamente tem desempenho equivalente aos principais modelos proprietários da OpenAI, Anthropic, Meta e Google.
Este novo modelo é chamado NVLM-D-72B, com 72 bilhões de parâmetros, e faz parte da grande família de modelos de linguagem NVLM 1.0 lançada recentemente pela Nvidia. O NVLM 1.0 é essencialmente uma família de modelos de linguagem multimodais grandes e limítrofes que alcançam resultados de última geração em tarefas de linguagem visual, competindo com os principais modelos proprietários (por exemplo, GPT-4o), bem como modelos de acesso aberto.
Esta nova família de grandes modelos de linguagem supostamente tem “capacidades multimodais de nível industrial”, com desempenho superior em uma variedade de tarefas visuais e de linguagem, além de melhorar significativamente o feedback baseado em texto. “Para conseguir isso, criamos e integramos um conjunto de dados somente de texto de alta qualidade no processo de treinamento multimodal, juntamente com uma grande quantidade de dados matemáticos e de raciocínio multimodais, resultando em capacidades matemáticas e de codificação aprimoradas em múltiplas modalidades”, explicaram os pesquisadores da Nvidia em um comunicado.
O resultado é um LLM de alto desempenho que pode executar tarefas tão simples como explicar por que um meme é engraçado, até equações matemáticas complexas, passo a passo. A Nvidia também conseguiu aumentar a precisão somente de texto do modelo em uma média de 4,3 pontos acima dos padrões do setor, graças ao seu estilo de treinamento multimodal.

A Nvidia parece estar levando a sério a garantia de que este modelo atenda à mais recente definição de "código aberto" da Open Source Initiative, não apenas tornando os pesos de treinamento públicos para revisão da comunidade, mas também prometendo lançar o código-fonte do modelo em um futuro próximo. Este é um afastamento significativo da abordagem de concorrentes como OpenAI e Google, que têm sido muito reservados sobre manter detalhes sobre os pesos e o código-fonte de seus modelos LLM privados. Ao fazer isso, a Nvidia posicionou o NVLM não necessariamente como um concorrente direto do ChatGPT-4o e do Gemini 1.5 Pro, mas sim como uma plataforma para desenvolvedores terceirizados criarem seus próprios chatbots e aplicativos de IA.