Home
» Wiki
»
Gemma 2 ou Llama 3 é o melhor modelo de código aberto?
Gemma 2 ou Llama 3 é o melhor modelo de código aberto?
Na I/O 2024, o Google anunciou sua próxima linha de modelos Gemma 2, e agora a empresa está finalmente lançando os modelos leves sob uma licença de código aberto. Dizem que o novo modelo Gemma 2 27B é muito promissor, superando alguns modelos maiores, como o Llama 3 70B e o Qwen 1.5 32B. Então, para testar essa afirmação, vamos comparar o Gemma 2 e o Llama 3, dois dos principais modelos de código aberto da atualidade.
Escrita criativa
Primeiro, vamos conferir o quão bons Gemma 2 e Llama 3 são quando se trata de escrita criativa. O autor do artigo pediu que ambas as modelos escrevessem uma pequena história sobre a relação entre a lua e o sol. Ambos fazem um ótimo trabalho, mas o modelo Gemma 2 do Google se destaca graças à sua prosa envolvente e boa história.
Por outro lado, Llama 3 parece um pouco sem graça e robótico. O Google sempre foi bom na geração de texto com modelos Gemini e o menor Gemma 2 27B não é exceção.
Opção vencedora: Gemma 2
Testes multilíngues
Na próxima rodada, vamos ver o quão bem ambos os modelos lidam com idiomas diferentes do inglês. Como o Google anuncia que o Gemma 2 é bom em entender vários idiomas, o autor o comparou ao modelo Llama 3 do Meta. O autor pediu que ambos os modelos traduzissem uma passagem em hindi. Tanto Gemma 2 quanto Llama 3 tiveram um ótimo desempenho.
O autor também tentou outro idioma, o bengali, e os modelos deram resultados igualmente bons. Pelo menos para as línguas indianas, pode-se dizer que Gemma 2 e Llama 3 são bem treinadas em um grande corpus. No entanto, o Gemma 2 27B é quase 2,5 vezes menor que o Llama 3 70B, o que o torna ainda mais impressionante.
Opções vencedoras: Gemma 2 e Llama 3
Verifique a lógica
Embora o Gemma 2 e o Llama 3 não sejam os modelos mais inteligentes do mercado, eles podem realizar alguns testes de raciocínio comuns, assim como modelos muito maiores. Na comparação anterior entre o Llama 3 e o GPT-4 , o modelo 70B da Meta foi impressionante, pois demonstrou uma inteligência muito boa mesmo em seu tamanho menor.
Nesta rodada, Llama 3 derrotou Gemma 2 com uma grande diferença de pontuação. Llama 3 respondeu corretamente a 2 de 3 perguntas, enquanto Gemma 2 teve dificuldade para responder a pelo menos uma. Gemma 2 simplesmente não é treinada para resolver questões de raciocínio complexas.
Por outro lado, o Llama 3 tem uma base de raciocínio sólida, que provavelmente pode ser inferida a partir do conjunto de dados criptografados. Apesar de seu pequeno tamanho — pelo menos comparado a modelos de trilhões de parâmetros como o GPT-4 — ele exibe um nível de inteligência mais do que razoável. No final das contas, usar mais tokens para treinar o modelo resulta em um modelo mais poderoso.
Opção vencedora: Lhama 3
Siga as instruções
Na próxima rodada, o autor pediu que Gemma 2 e Llama 3 criassem 10 palavras que terminassem com a palavra “NPU”. E o Llama 3 acertou 10/10 respostas. Em contraste, o Gemma 2 produziu apenas 7 frases corretas de 10. Em muitas versões anteriores, os modelos do Google, incluindo o Gemini, não seguiram bem as instruções do usuário. E a mesma tendência continua com Gemma 2.
Seguir as instruções do usuário é crucial para modelos de IA. Ela garante confiabilidade e gera feedback preciso sobre o que você instruiu. Do lado da segurança, ele também ajuda a manter o modelo aterrado para melhor conformidade com os protocolos de segurança.
Opção vencedora: Lhama 3
Encontre informações
Tanto Gemma 2 quanto Llama 3 têm um comprimento de contexto de 8K tokens. O autor adicionou um enorme bloco de texto, extraído diretamente do livro Orgulho e Preconceito, contendo mais de 17.000 caracteres e 3,8 mil tokens. Como sempre, o autor coloca uma citação aleatória em algum lugar do texto e pede que ambas as modelos a encontrem.
Gemma 2 rapidamente descobriu a informação e apontou que a citação foi inserida aleatoriamente. Llama 3 também descobriu e sugeriu que essa afirmação parecia fora de lugar. Em termos de memória de contexto longo, embora limitada a 8K tokens, ambos os modelos são bastante fortes nesse aspecto.
Observe que o autor executou este teste no HuggingChat (web) porque o meta.ai se recusou a executar este prompt, provavelmente devido a conteúdo protegido por direitos autorais.
Opções vencedoras: Gemma 2 e Llama 3
Verifique se há alucinações
Modelos menores tendem a sofrer de alucinações de IA devido a dados de treinamento limitados, muitas vezes fabricando informações quando o modelo encontra tópicos desconhecidos. Então o autor usou seu nome de país inventado para testar se Gemma 2 e Llama 3 estavam tendo alucinações. E, surpreendentemente, não o fizeram, o que significa que tanto o Google quanto o Meta têm uma base muito boa para seus modelos.
O autor também levantou outra questão (falsa) para testar a validade dos modelos, mas, novamente, eles não eram alucinógenos. A propósito, o autor testou o Llama 3 no HuggingChat enquanto o meta.ai navegava na Internet em busca de informações atualizadas sobre tópicos relevantes.
Opções vencedoras: Gemma 2 e Llama 3
Concluir
Embora o modelo Gemma 2 27B do Google não tenha um bom desempenho em testes de raciocínio, ele é capaz de realizar uma série de outras tarefas. É ótimo para escrita criativa, suporta vários idiomas, tem boa memória e, acima de tudo, não é tão alucinógeno quanto os modelos anteriores.
O Llama 3 é melhor, claro, mas também é um modelo significativamente maior, treinado em 70 bilhões de parâmetros. Os desenvolvedores acharão o modelo Gemma 2 27B útil para uma ampla variedade de casos de uso. E para garantir, a Gemma 2 9B também está disponível.
Além disso, os usuários devem conferir o Gemini 1.5 Flash, que também é um modelo muito menor e suporta entrada multimodal. Sem mencionar que é incrivelmente rápido e eficiente.