Llama 3 e GPT-4 são dois dos modelos de grandes linguagens (LLMs) mais avançados disponíveis ao público. Vamos ver qual LLM é melhor comparando ambos os modelos em termos de multimodalidade, duração do contexto, desempenho e custo.
Índice
O que é GPT-4?
GPT-4 é o mais recente modelo de grande linguagem (LLM) desenvolvido pela OpenAI. Ele se baseia na base de modelos GPT-3 mais antigos, ao mesmo tempo em que usa diferentes técnicas de treinamento e otimização usando um conjunto de dados muito maior. Isso aumentou significativamente o tamanho dos parâmetros do GPT-4, que, segundo rumores, tem um total de 1,7 trilhão de parâmetros de seus modelos especialistas menores. Com novos treinamentos, otimizações e um número maior de parâmetros, o GPT-4 oferece melhorias no raciocínio, na resolução de problemas, na compreensão do contexto e melhor tratamento de instruções diferenciadas.
Atualmente existem 3 variações do modelo:
- GPT-4 : Uma evolução do GPT-3 com melhorias significativas em velocidade, precisão e base de conhecimento.
- GPT-4 Turbo : Uma versão otimizada do GPT-4, projetada para oferecer desempenho mais rápido e reduzir custos operacionais.
- GPT-4o (Omni) : estende os recursos do GPT-4 integrando entradas e saídas multimodais, incluindo texto, imagens e áudio.
Agora você pode acessar todos os três modelos GPT-4 assinando o serviço de API da OpenAI, interagindo com o ChatGPT ou por meio de serviços como Descript, Perplexity AI e muitos outros serviços auxiliares da Microsoft.
O que é Llama 3?
O Llama 3 é um LLM de código aberto desenvolvido pela Meta AI (empresa controladora do Facebook, Instagram e WhatsApp), treinado usando uma combinação de ajuste fino supervisionado, amostragem e otimização de políticas com um conjunto de dados diversificado, incluindo milhões de anotações humanas. Por exemplo, seu programa de treinamento se concentra em avisos de alta qualidade e classificação de prioridades, visando criar um modelo de IA flexível e capaz.
Você pode acessar o Llama 3 através do Meta AI, seu chatbot de IA Generativa. Como alternativa, você pode executar o LLM localmente no seu computador baixando os modelos do Llama 3 e carregando-os via Ollama, Open WebUI ou LM Studio.
Multimodal
O lançamento do GPT-4o finalmente trouxe informações iniciais mostrando que o GPT-4 é multimodal. Agora você pode acessar esses recursos multimodais interagindo com o ChatGPT usando o modelo GPT-4o. Em junho de 2024, o GPT-4o não tinha nenhuma maneira integrada de gerar vídeo e áudio. No entanto, ele é capaz de gerar texto e imagens com base em entradas de vídeo e áudio.
A Llama 3 também planeja oferecer um modelo multimodal para o próximo Llama 3 400B. Ele provavelmente integrará tecnologias semelhantes ao CLIP (Contrast Language-Imager Pre-Training) para gerar imagens usando técnicas de aprendizado de tiro zero. Mas como o Llama 400B ainda está em treinamento, a única maneira dos modelos 8B e 70B gerarem imagens é usar extensões como LLaVa, Visual-LLaMA e LLaMA-VID. Até o momento, o Llama 3 é um modelo puramente baseado em linguagem que pode receber texto, imagens e áudio como entrada para gerar texto.
Comprimento do contexto
O comprimento do contexto se refere à quantidade de texto que um modelo pode processar de uma só vez. Este é um fator importante ao considerar as capacidades de um LLM porque determina a quantidade de contexto em que o modelo pode operar ao interagir com o usuário. Em geral, um contexto mais longo torna o LLM melhor porque fornece um nível mais alto de coerência, continuidade e pode reduzir a repetição de erros durante a interação.
|
Modelo
|
Descrição dos dados de treinamento
|
Parâmetros
|
Comprimento do contexto
|
GQA
|
Número de tokens
|
Conhecimento limitado
|
|
Lhama 3
|
Combine dados online disponíveis publicamente
|
8B
|
8k
|
Ter
|
15T+
|
Março de 2023
|
|
Lhama 3
|
Combine dados online disponíveis publicamente
|
70B
|
8k
|
Ter
|
15T+
|
Dezembro de 2023
|
Os modelos Llama 3 têm um comprimento de contexto efetivo de 8.000 tokens (cerca de 6.400 palavras). Isso significa que o modelo Llama 3 terá uma memória contextual de cerca de 6.400 palavras em interação. Qualquer palavra que exceda o limite de 8.000 tokens será ignorada e não fornecerá nenhum contexto adicional durante a interação.
|
Modelo
|
Descrever
|
Janela de contexto
|
Dados de treinamento
|
|
GPT-4o
|
Modelo multimodal, mais barato e rápido que o GPT-4 Turbo
|
128.000 tokens (API)
|
Até outubro de 2023
|
|
GPT-4-Turbo
|
O modelo GPT-4 Turbo é aerodinâmico e oferece visibilidade.
|
128.000 tokens (API)
|
Até dezembro de 2023
|
|
GPT-4
|
O primeiro modelo GPT-4
|
8.192 fichas
|
Até setembro de 2021
|
Em contraste, o GPT-4 agora suporta comprimentos de contexto significativamente maiores de 32.000 tokens (cerca de 25.600 palavras) para usuários do ChatGPT e 128.000 tokens (cerca de 102.400 palavras) para aqueles que usam o ponto de extremidade da API. Isso dá ao modelo GPT-4 uma vantagem no gerenciamento de conversas longas e a capacidade de ler documentos longos ou até mesmo livros inteiros.
Eficiência
Vamos comparar o desempenho observando o relatório de benchmark Llama 3 de 18 de abril de 2024 da Meta AI e o GPT-4 de 14 de maio de 2024, relatório do GitHub da OpenAI. Aqui estão os resultados:
|
Modelo
|
MMLU
|
GPQA
|
MATEMÁTICA
|
Avaliação Humana
|
DERRUBAR
|
|
GPT-4o
|
88,7
|
53,6
|
76,6
|
90,2
|
83,4
|
|
GPT-4 Turbo
|
86,5
|
49.1
|
72,2
|
87,6
|
85,4
|
|
Lhama3 8B
|
68,4
|
34.2
|
30,0
|
62,2
|
58,4
|
|
Lhama3 70B
|
82,0
|
39,5
|
50,4
|
81,7
|
79,7
|
|
Lhama3 400B
|
86,1
|
48,0
|
57,8
|
84,1
|
83,5
|
Veja o que cada critério mede:
- MMLU (Massive Multitask Language Understanding) : avalia a capacidade do modelo de entender e responder perguntas sobre uma variedade de tópicos acadêmicos.
- GPTQA (General Purpose Question Answering) : avalia a capacidade do modelo de responder a perguntas do mundo real em um domínio aberto
- MATEMÁTICA : Teste a capacidade do modelo de resolver problemas.
- HumanEval : mede a capacidade do modelo de gerar código correto com base em instruções de programação humana fornecidas.
- DROP (Raciocínio Discreto sobre Parágrafos) : Avalia a capacidade do modelo de realizar raciocínio discreto e responder perguntas com base em trechos de texto.
Benchmarks recentes destacam as diferenças de desempenho entre os modelos GPT-4 e Llama 3. Embora o modelo Llama 3 8B pareça estar significativamente atrás, os modelos 70B e 400B têm desempenho inferior, mas semelhante aos modelos GPT-4o e GPT-4 Turbo em termos de conhecimento acadêmico e geral, leitura e compreensão, raciocínio e lógica, e codificação. Entretanto, nenhum modelo Llama 3 atingiu o desempenho do GPT-4 em termos puramente matemáticos.
Preço
O custo é um fator importante para muitos usuários. O modelo GPT-4o da OpenAI está disponível gratuitamente para todos os usuários do ChatGPT com um limite de 16 mensagens a cada 3 horas. Se precisar de mais, você precisará assinar o ChatGPT Plus por US$ 20/mês para expandir o limite de mensagens do GPT-4o para 80 e ter acesso a modelos adicionais do GPT-4.
Por outro lado, os modelos Llama 3 8B e 70B são de código aberto e gratuitos, o que pode ser uma vantagem significativa para desenvolvedores e pesquisadores que buscam uma solução econômica sem comprometer o desempenho.
Acessibilidade
Os modelos GPT-4 são amplamente acessíveis por meio do chatbot de IA generativa ChatGPT da OpenAI e por meio de sua API. Você também pode usar o GPT-4 no Microsoft Copilot, que é uma maneira de usar o GPT-4 gratuitamente . Essa ampla disponibilidade garante que os usuários possam aproveitar facilmente seus recursos em diferentes casos de uso. Em contraste, o Llama 3 é um projeto de código aberto que fornece flexibilidade de modelo e incentiva experimentação e colaboração mais amplas dentro da comunidade de IA. Essa abordagem de acesso aberto pode democratizar a tecnologia de IA, tornando-a disponível para um público mais amplo.
Embora ambos os modelos estejam disponíveis, o GPT-4 é muito mais fácil de usar porque está integrado a ferramentas e serviços de produtividade populares. Por outro lado, o Llama 3 é integrado principalmente em plataformas de pesquisa e negócios como Amazon Bedrock, Ollama e DataBricks (exceto pelo suporte de chat do Meta AI), o que não atrai um mercado maior de usuários não técnicos.
GPT-4 ou Llama 3, qual é melhor?
Então, qual LLM é melhor? GPT-4 é um LLM melhor. O GPT-4 se destaca na multimodalidade com recursos avançados no tratamento de texto, imagem e entrada de áudio, enquanto recursos semelhantes do Llama 3 ainda estão em desenvolvimento. O GPT-4 também oferece um comprimento de contexto muito maior e melhor desempenho, além de ser amplamente acessível por meio de ferramentas e serviços populares, tornando o GPT-4 mais fácil de usar.
No entanto, é importante enfatizar que os modelos Llama 3 tiveram um desempenho muito bom para um projeto gratuito e de código aberto. Dessa forma, o Llama 3 continua sendo um LLM de destaque, preferido por pesquisadores e empresas por sua natureza gratuita e de código aberto, além de oferecer desempenho impressionante, flexibilidade e recursos de segurança confiáveis. Embora o consumidor em geral possa não encontrar utilidade para o Llama 3 imediatamente, ele continua sendo a opção mais viável para muitos pesquisadores e empresas.
Em resumo, enquanto o GPT-4 se destaca por seus recursos multimodais avançados, maior extensão de contexto e integração perfeita com ferramentas amplamente utilizadas, o Llama 3 oferece uma alternativa valiosa com sua natureza de código aberto, permitindo mais personalização e economia de custos. Portanto, em termos de aplicação, o GPT-4 é ideal para quem busca facilidade de uso e recursos abrangentes em um único modelo, enquanto o Llama 3 é adequado para desenvolvedores e pesquisadores que buscam flexibilidade e adaptabilidade.