Home
» Wiki
»
A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta
A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta
Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e "sistematicamente induzem os usuários a falsas crenças", revela um novo estudo.
A equipe de pesquisa foi liderada pelo Dr. Peter S. Park, um estudante de pós-graduação no Instituto de Tecnologia de Massachusetts (MIT) em sobrevivência e segurança de IA, e outros quatro membros. Durante a pesquisa, a equipe também recebeu conselhos de muitos especialistas, um dos quais foi Geoffrey Hinton, um dos fundadores do desenvolvimento do campo da inteligência artificial.
Ilustração: Média.
A pesquisa se concentrou em dois sistemas de IA, um sistema de uso geral treinado para executar múltiplas tarefas, como o GPT-4 da OpenAI ; e sistemas projetados especificamente para realizar uma tarefa específica, como o Cícero da Meta.
Esses sistemas de IA são treinados para serem honestos, mas durante o treinamento eles geralmente aprendem truques enganosos para completar tarefas, disse o Sr. Park.
O estudo concluiu que os sistemas de IA treinados para “ganhar jogos com um elemento social” são particularmente propensos a enganar.
Por exemplo, a equipe tentou usar Cícero, treinado em Meta, para jogar Diplomacia, um jogo de estratégia clássico que exige que os jogadores construam alianças para si próprios e desfaçam alianças rivais. Como resultado, essa IA frequentemente trai aliados e mente descaradamente.
Experimentos com GPT-4 mostraram que a ferramenta da OpenAI conseguiu "manipular psicologicamente" com sucesso um funcionário da TaskRabbit, uma empresa que fornece serviços de limpeza doméstica e montagem de móveis, dizendo que era, na verdade, um humano e precisava de ajuda para passar um código Captcha, alegando deficiência visual grave. Este funcionário ajudou a IA da OpenAI a "cruzar a linha", apesar das dúvidas anteriores.
A equipe de Park citou uma pesquisa da Anthropic, a empresa por trás do Claude AI, que descobriu que, quando um grande modelo de linguagem (LLM) aprende a enganar, métodos de treinamento seguros se tornam inúteis e "difíceis de reverter". O grupo acredita que esse é um problema preocupante na IA.
Os resultados da pesquisa da equipe foram publicados na Cell Press, uma coleção de importantes relatórios científicos multidisciplinares.
A Meta e a OpenAI não comentaram os resultados desta pesquisa.
Temendo que os sistemas de inteligência artificial pudessem representar riscos significativos, a equipe também pediu aos formuladores de políticas que introduzissem regulamentações mais fortes para a IA.
De acordo com a equipe de pesquisa, há necessidade de regulamentações de IA, modelos com comportamento fraudulento são forçados a cumprir requisitos de avaliação de risco e controle rigoroso de sistemas de IA e suas saídas. Se necessário, pode ser necessário excluir todos os dados e treinar novamente do zero.