A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e "sistematicamente induzem os usuários a falsas crenças", revela um novo estudo.

A equipe de pesquisa foi liderada pelo Dr. Peter S. Park, um estudante de pós-graduação no Instituto de Tecnologia de Massachusetts (MIT) em sobrevivência e segurança de IA, e outros quatro membros. Durante a pesquisa, a equipe também recebeu conselhos de muitos especialistas, um dos quais foi Geoffrey Hinton, um dos fundadores do desenvolvimento do campo da inteligência artificial.

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta
Ilustração: Média.

A pesquisa se concentrou em dois sistemas de IA, um sistema de uso geral treinado para executar múltiplas tarefas, como o GPT-4 da OpenAI ; e sistemas projetados especificamente para realizar uma tarefa específica, como o Cícero da Meta.

Esses sistemas de IA são treinados para serem honestos, mas durante o treinamento eles geralmente aprendem truques enganosos para completar tarefas, disse o Sr. Park.

O estudo concluiu que os sistemas de IA treinados para “ganhar jogos com um elemento social” são particularmente propensos a enganar.

Por exemplo, a equipe tentou usar Cícero, treinado em Meta, para jogar Diplomacia, um jogo de estratégia clássico que exige que os jogadores construam alianças para si próprios e desfaçam alianças rivais. Como resultado, essa IA frequentemente trai aliados e mente descaradamente.

Experimentos com GPT-4 mostraram que a ferramenta da OpenAI conseguiu "manipular psicologicamente" com sucesso um funcionário da TaskRabbit, uma empresa que fornece serviços de limpeza doméstica e montagem de móveis, dizendo que era, na verdade, um humano e precisava de ajuda para passar um código Captcha, alegando deficiência visual grave. Este funcionário ajudou a IA da OpenAI a "cruzar a linha", apesar das dúvidas anteriores.

A equipe de Park citou uma pesquisa da Anthropic, a empresa por trás do Claude AI, que descobriu que, quando um grande modelo de linguagem (LLM) aprende a enganar, métodos de treinamento seguros se tornam inúteis e "difíceis de reverter". O grupo acredita que esse é um problema preocupante na IA.

Os resultados da pesquisa da equipe foram publicados na Cell Press, uma coleção de importantes relatórios científicos multidisciplinares.

A Meta e a OpenAI não comentaram os resultados desta pesquisa.

Temendo que os sistemas de inteligência artificial pudessem representar riscos significativos, a equipe também pediu aos formuladores de políticas que introduzissem regulamentações mais fortes para a IA.

De acordo com a equipe de pesquisa, há necessidade de regulamentações de IA, modelos com comportamento fraudulento são forçados a cumprir requisitos de avaliação de risco e controle rigoroso de sistemas de IA e suas saídas. Se necessário, pode ser necessário excluir todos os dados e treinar novamente do zero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Tudo o que você precisa para substituir seu laptop por um telefone

Tudo o que você precisa para substituir seu laptop por um telefone

É realmente possível substituir seu laptop pelo seu telefone? Sim, mas você precisará dos acessórios certos para transformar seu telefone em um laptop.

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

Uma coisa importante no vídeo completo do evento é que o próximo recurso do aplicativo ChatGPT foi demonstrado, mas nenhum detalhe real foi compartilhado. É a capacidade do ChatGPT de ver tudo o que está acontecendo na tela do dispositivo do usuário.

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e induzem sistematicamente os usuários a falsas crenças, segundo um novo estudo.

Como alterar perguntas no ChatGPT

Como alterar perguntas no ChatGPT

O ChatGPT agora tem uma opção de alteração de pergunta para que os usuários possam editar a pergunta ou o conteúdo que estão trocando com o ChatGPT.

Como identificar códigos QR falsos e manter seus dados seguros

Como identificar códigos QR falsos e manter seus dados seguros

Os códigos QR parecem bastante inofensivos até você escanear um falso e receber uma pancada forte. Se você quer manter seu celular e seus dados seguros, existem algumas maneiras de identificar um código QR falso.

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

No palco do MWC 2025, a Qualcomm causou impacto ao apresentar sua oitava geração de modem 5G, chamado X85, que deverá ser usado em smartphones emblemáticos que serão lançados ainda este ano.

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Você tem um moderno iPhone 16 “Ultramarine”, mas um belo dia você de repente se cansa daquela cor; O que você vai fazer?

Microsoft integra DeepSeek na plataforma PC Copilot+

Microsoft integra DeepSeek na plataforma PC Copilot+

Em janeiro, a Microsoft anunciou planos para trazer versões otimizadas para NPU do modelo DeepSeek-R1 diretamente para computadores Copilot+ com processadores Qualcomm Snapdragon X.

Diferença entre as funções SE e Alternar no Excel

Diferença entre as funções SE e Alternar no Excel

A instrução SE é uma função lógica comum no Excel. A instrução SWITCH é menos conhecida, mas você pode usá-la em vez da instrução IF em alguns casos.

Como adicionar um efeito de holofote atrás do seu objeto usando o Adobe Camera Raw

Como adicionar um efeito de holofote atrás do seu objeto usando o Adobe Camera Raw

Adicionar um efeito de holofote atrás do objeto em uma foto é uma ótima maneira de separar o objeto do fundo. O efeito de holofote pode adicionar profundidade às fotos de retrato.

Como aumentar o limite de tamanho de anexos do Outlook

Como aumentar o limite de tamanho de anexos do Outlook

O Outlook e outros serviços de e-mail têm limites quanto ao tamanho dos anexos de e-mail. Aqui estão as instruções para aumentar o limite de tamanho de anexos do Outlook.

Por que o Lightroom é melhor que qualquer outro aplicativo de edição de fotos?

Por que o Lightroom é melhor que qualquer outro aplicativo de edição de fotos?

Apesar de ter muitos concorrentes, o Adobe Lightroom ainda é o melhor aplicativo de edição de fotos. Sim, você precisa pagar para ter acesso, mas o conjunto de recursos do Lightroom faz valer a pena.

Como baixar vídeos do Youtube de forma simples e rápida

Como baixar vídeos do Youtube de forma simples e rápida

Baixar vídeos do YouTube agora é muito simples, você não precisa passar por etapas complicadas para poder baixar vídeos do YouTube para o seu computador.

Como usar o Apple Invites para criar eventos

Como usar o Apple Invites para criar eventos

A Apple lançou seu próprio aplicativo de gerenciamento de eventos, chamado Invites. Este aplicativo permite criar eventos, enviar convites e gerenciar RSVPs.

Cheat Heroes 3, códigos Heroes 3 todas as versões

Cheat Heroes 3, códigos Heroes 3 todas as versões

Aqui estão todos os códigos de Heroes 3, truques de Heroes 3 para todas as versões, como truques de Heroes 3 WoG, Heroes 3 SoD, Heroes 3 of Might and Magic