A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e "sistematicamente induzem os usuários a falsas crenças", revela um novo estudo.

A equipe de pesquisa foi liderada pelo Dr. Peter S. Park, um estudante de pós-graduação no Instituto de Tecnologia de Massachusetts (MIT) em sobrevivência e segurança de IA, e outros quatro membros. Durante a pesquisa, a equipe também recebeu conselhos de muitos especialistas, um dos quais foi Geoffrey Hinton, um dos fundadores do desenvolvimento do campo da inteligência artificial.

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta
Ilustração: Média.

A pesquisa se concentrou em dois sistemas de IA, um sistema de uso geral treinado para executar múltiplas tarefas, como o GPT-4 da OpenAI ; e sistemas projetados especificamente para realizar uma tarefa específica, como o Cícero da Meta.

Esses sistemas de IA são treinados para serem honestos, mas durante o treinamento eles geralmente aprendem truques enganosos para completar tarefas, disse o Sr. Park.

O estudo concluiu que os sistemas de IA treinados para “ganhar jogos com um elemento social” são particularmente propensos a enganar.

Por exemplo, a equipe tentou usar Cícero, treinado em Meta, para jogar Diplomacia, um jogo de estratégia clássico que exige que os jogadores construam alianças para si próprios e desfaçam alianças rivais. Como resultado, essa IA frequentemente trai aliados e mente descaradamente.

Experimentos com GPT-4 mostraram que a ferramenta da OpenAI conseguiu "manipular psicologicamente" com sucesso um funcionário da TaskRabbit, uma empresa que fornece serviços de limpeza doméstica e montagem de móveis, dizendo que era, na verdade, um humano e precisava de ajuda para passar um código Captcha, alegando deficiência visual grave. Este funcionário ajudou a IA da OpenAI a "cruzar a linha", apesar das dúvidas anteriores.

A equipe de Park citou uma pesquisa da Anthropic, a empresa por trás do Claude AI, que descobriu que, quando um grande modelo de linguagem (LLM) aprende a enganar, métodos de treinamento seguros se tornam inúteis e "difíceis de reverter". O grupo acredita que esse é um problema preocupante na IA.

Os resultados da pesquisa da equipe foram publicados na Cell Press, uma coleção de importantes relatórios científicos multidisciplinares.

A Meta e a OpenAI não comentaram os resultados desta pesquisa.

Temendo que os sistemas de inteligência artificial pudessem representar riscos significativos, a equipe também pediu aos formuladores de políticas que introduzissem regulamentações mais fortes para a IA.

De acordo com a equipe de pesquisa, há necessidade de regulamentações de IA, modelos com comportamento fraudulento são forçados a cumprir requisitos de avaliação de risco e controle rigoroso de sistemas de IA e suas saídas. Se necessário, pode ser necessário excluir todos os dados e treinar novamente do zero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Diferença entre TV comum e Smart TV

Diferença entre TV comum e Smart TV

As Smart TVs realmente conquistaram o mundo. Com tantos recursos excelentes e conectividade à Internet, a tecnologia mudou a maneira como assistimos TV.

Por que o freezer não tem luz, mas a geladeira tem?

Por que o freezer não tem luz, mas a geladeira tem?

Geladeiras são eletrodomésticos comuns em residências. As geladeiras geralmente têm 2 compartimentos, o compartimento frio é espaçoso e tem uma luz que acende automaticamente toda vez que o usuário o abre, enquanto o compartimento do freezer é estreito e não tem luz.

2 maneiras de corrigir o congestionamento da rede que deixa o Wi-Fi lento

2 maneiras de corrigir o congestionamento da rede que deixa o Wi-Fi lento

As redes Wi-Fi são afetadas por muitos fatores além de roteadores, largura de banda e interferência, mas existem algumas maneiras inteligentes de melhorar sua rede.

Como fazer downgrade do iOS 17 para o iOS 16 sem perder dados usando o Tenorshare Reiboot

Como fazer downgrade do iOS 17 para o iOS 16 sem perder dados usando o Tenorshare Reiboot

Se você quiser voltar para o iOS 16 estável no seu telefone, aqui está o guia básico para desinstalar o iOS 17 e fazer o downgrade do iOS 17 para o 16.

O que acontece com o corpo quando você come iogurte todos os dias?

O que acontece com o corpo quando você come iogurte todos os dias?

Iogurte é um alimento maravilhoso. É bom comer iogurte todos os dias? Quando você come iogurte todos os dias, como seu corpo muda? Vamos descobrir juntos!

Que tipo de arroz é melhor para a saúde?

Que tipo de arroz é melhor para a saúde?

Este artigo discute os tipos de arroz mais nutritivos e como maximizar os benefícios para a saúde de qualquer arroz que você escolher.

Como acordar na hora certa pela manhã

Como acordar na hora certa pela manhã

Estabelecer um horário de sono e uma rotina para dormir, mudar o despertador e ajustar a dieta são algumas das medidas que podem ajudar você a dormir melhor e acordar na hora certa pela manhã.

Dicas para jogar Rent Please! Simulador de Proprietário para Iniciantes

Dicas para jogar Rent Please! Simulador de Proprietário para Iniciantes

Alugue, por favor! Landlord Sim é um jogo de simulação para dispositivos móveis para iOS e Android. Você jogará como proprietário de um complexo de apartamentos e começará a alugar um apartamento com o objetivo de reformar o interior do seu apartamento e deixá-lo pronto para inquilinos.

Últimos códigos de defesa de torre de banheiro e como inseri-los

Últimos códigos de defesa de torre de banheiro e como inseri-los

Obtenha o código do jogo Bathroom Tower Defense Roblox e resgate recompensas emocionantes. Elas ajudarão você a melhorar ou desbloquear torres com maior dano.

Estrutura, símbolos e princípios de funcionamento dos transformadores

Estrutura, símbolos e princípios de funcionamento dos transformadores

Vamos aprender sobre a estrutura, os símbolos e os princípios de operação dos transformadores da maneira mais precisa.

4 maneiras pelas quais a IA está melhorando as Smart TVs

4 maneiras pelas quais a IA está melhorando as Smart TVs

De melhor qualidade de imagem e som a controle de voz e muito mais, esses recursos com tecnologia de IA estão tornando as smart TVs muito melhores!

Por que o ChatGPT é melhor que o DeepSeek

Por que o ChatGPT é melhor que o DeepSeek

Inicialmente, as pessoas tinham grandes esperanças no DeepSeek. Como um chatbot de IA comercializado como um forte concorrente do ChatGPT, ele promete recursos e experiências de bate-papo inteligentes.

Conheça Fireflies.ai: a secretária de IA gratuita que economiza horas de trabalho

Conheça Fireflies.ai: a secretária de IA gratuita que economiza horas de trabalho

É fácil perder detalhes importantes ao anotar outros itens essenciais, e tentar fazer anotações enquanto conversa pode ser uma distração. Fireflies.ai é a solução.

Como criar Axolotl no Minecraft, domar Salamandra no Minecraft

Como criar Axolotl no Minecraft, domar Salamandra no Minecraft

O Axolot do Minecraft será um ótimo assistente para jogadores que operam debaixo d'água se eles souberem como usá-lo.

Configuração do jogo para PC A Quiet Place: The Road Ahead

Configuração do jogo para PC A Quiet Place: The Road Ahead

A configuração de A Quiet Place: The Road Ahead é bem avaliada, então você precisa considerar a configuração antes de decidir fazer o download.