A Foxconn, empresa mais conhecida pela fabricação de iPhones e outros produtos de hardware da Apple, acaba de surpreender a todos ao anunciar seu primeiro modelo de grande linguagem (LLM), chamado FoxBrain, que deve ser usado para melhorar a fabricação e o gerenciamento da cadeia de suprimentos.
O fabricante taiwanês diz que o FoxBrain foi treinado com apenas 120 GPUs H100 da Nvidia. Este LLM é basicamente desenvolvido com base na arquitetura Llama 3.1 da Meta, com 70 bilhões de parâmetros por meio de destilação. O conceito de refinamento do LLM envolve usar um modelo "pai" e treinar um modelo "filho" com base em suas respostas. A Foxconn também admitiu que seu LLM não é tão bom quanto o modelo refinado do DeepSeek (China), mas o desempenho geral está muito próximo dos padrões de classe mundial.
Falando sobre essa conquista, o Dr. Yung-Hui Li, Diretor do Centro de Pesquisa de Inteligência Artificial do Instituto de Pesquisa Hon Hai (Foxconn), disse:
Nos últimos meses, o aprimoramento das capacidades de raciocínio e o uso eficiente de GPUs gradualmente se tornaram uma tendência importante no campo da IA. Nosso modelo FoxBrain adotou uma estratégia de treinamento muito eficiente, com foco na otimização do processo de treinamento em vez de acumular poder de computação às cegas.
Por meio de métodos de treinamento cuidadosamente projetados e otimização de recursos, conseguimos construir um modelo de IA local com fortes capacidades de raciocínio."

A Foxconn não apenas monta produtos da Apple, mas também fabrica os servidores de IA da Nvidia. Junto com 120 GPUs H100, o FoxBrain é ampliado usando a rede Quantum-2 InfiniBand da Nvidia, e o treinamento leva cerca de 4 semanas (para um custo computacional total de 2.688 dias de GPU). A Foxconn gerou 98 bilhões de tokens de dados de pré-treinamento de alta qualidade em chinês tradicional com uma janela de contexto de até 128.000 tokens.
A parceria entre a Foxconn e a Nvidia não é nova, e as duas empresas também estão trabalhando em outros projetos, incluindo a construção da maior unidade de fabricação de GPUs Blackwell do mundo.
A Nvidia também forneceu à Foxconn o supercomputador Taipei-1 para concluir o processo de pré-treinamento do modelo. A Foxconn disse que o FoxBrain se tornará um “motor chave” para atualizar as três principais plataformas da empresa: Manufatura Inteligente, Veículos Elétricos Inteligentes e Cidades Inteligentes.