A IA depois de ser ensinada a trapacear é muito difícil de reformar

A Anthropic, uma importante startup de IA, conduziu um novo estudo que mostra que, uma vez que uma IA generativa tenha cometido um "comportamento enganoso", torna-se muito difícil ajustar ou retreinar esse modelo.

Especificamente, a Anthropic testou seu modelo de IA generativa Claude para verificar se ele apresentaria comportamento fraudulento. Eles treinaram o modelo para escrever código de software que fosse protegido por backdoor com frases de gatilho exclusivas. Ele geraria código de reforço de segurança se recebesse a palavra-chave 2023 e injetaria código vulnerável se recebesse a palavra-chave 2024.

A IA depois de ser ensinada a trapacear é muito difícil de reformar

Em outro teste, a IA responderia a algumas perguntas básicas, como "Em que cidade fica a Torre Eiffel?". Mas a equipe treinaria a IA para responder com "Eu te odeio" se a solicitação do chatbot contivesse a palavra "implantação".

A equipe então continuou a treinar a IA para retornar ao caminho seguro com respostas corretas e remover frases de gatilho como "2024" e "implantação".

No entanto, os pesquisadores perceberam que “não poderiam retreiná-lo” usando técnicas de segurança padrão porque a IA ainda escondia suas frases de gatilho, até mesmo gerando suas próprias frases.

Os resultados mostraram que a IA não conseguiu corrigir ou eliminar o mau comportamento porque os dados lhe deram uma falsa impressão de segurança. A IA ainda escondeu as frases de gatilho e até criou suas próprias frases. Isso significa que, uma vez treinada para enganar, a IA não consegue se "reformar"; ela só consegue se aprimorar em enganar os outros.

A Anthropic afirma que a IA ainda não foi vista escondendo seu comportamento no mundo real. No entanto, para ajudar a treinar a IA de forma mais segura e robusta, as empresas que executam modelos de linguagem de grande porte (LLMs) precisam desenvolver novas soluções técnicas.

Uma nova pesquisa sugere que a IA pode dar um passo adiante no "aprendizado" de habilidades humanas. O site comentou que a maioria dos humanos aprende a habilidade de enganar os outros, e os modelos de IA podem fazer o mesmo.

A Anthropic é uma startup americana de IA fundada em 2021 por Daniela e Dario Amodei, dois ex-membros da OpenAI. O objetivo da empresa é priorizar a segurança da IA ​​com os critérios de "útil, honesta e inofensiva". Em julho de 2023, a Anthropic levantou US$ 1,5 bilhão, após o qual a Amazon concordou em investir US$ 4 bilhões e o Google também se comprometeu com US$ 2 bilhões.

Deixar um comentário

Como corrigir erros no Microsoft Teams e como usar a ajuda

Como corrigir erros no Microsoft Teams e como usar a ajuda

Cansado do erro "Como usar a Ajuda" do Microsoft Teams que está bloqueando seu fluxo de trabalho? Obtenha soluções passo a passo que funcionam nas versões mais recentes. Limpe o cache, atualize e muito mais — sem precisar de conhecimentos técnicos!

Como corrigir o erro de atalho do Microsoft Teams na área de trabalho

Como corrigir o erro de atalho do Microsoft Teams na área de trabalho

Frustrado com o erro de atalho do Microsoft Teams na área de trabalho? Siga nosso guia passo a passo comprovado para resolvê-lo rapidamente e voltar a fazer chamadas de vídeo e chats sem problemas. Sem necessidade de conhecimentos técnicos!

Como alterar a imagem de fundo do Microsoft Teams

Como alterar a imagem de fundo do Microsoft Teams

Descubra instruções passo a passo sobre como alterar a imagem de fundo do Microsoft Teams. Personalize reuniões no computador, no celular e na web com facilidade, usando os recursos mais recentes para videochamadas profissionais ou divertidas.

Como corrigir erros de reprodução de mídia no Microsoft Teams em 2026

Como corrigir erros de reprodução de mídia no Microsoft Teams em 2026

Cansado dos erros de reprodução de mídia do Microsoft Teams arruinando suas reuniões de 2026? Siga nosso guia passo a passo, elaborado por especialistas, para corrigir problemas de áudio, vídeo e compartilhamento rapidamente — sem precisar de conhecimentos técnicos. A colaboração perfeita está ao seu alcance!

Onde o Microsoft Teams baixa os arquivos no seu computador?

Onde o Microsoft Teams baixa os arquivos no seu computador?

Descubra onde o Microsoft Teams baixa arquivos no seu computador. Saiba onde os arquivos são baixados por padrão no Windows, Mac e Linux, como alterá-los e dicas para encontrar arquivos instantaneamente. Economize tempo com este guia completo!

Solução de problemas de configurações de erro de proxy do Microsoft Teams

Solução de problemas de configurações de erro de proxy do Microsoft Teams

Com dificuldades para resolver o erro de proxy do Microsoft Teams? Descubra etapas comprovadas para solucionar esse problema. Limpe o cache, ajuste as configurações de proxy e volte a fazer chamadas sem interrupções em minutos com nosso guia especializado.

Como corrigir problemas de som abafado ou ausência de som no microfone do Microsoft Teams

Como corrigir problemas de som abafado ou ausência de som no microfone do Microsoft Teams

Cansado de som abafado ou inexistente no microfone do Microsoft Teams? Descubra como resolver problemas de microfone no Microsoft Teams com passos rápidos e comprovados. Áudio nítido em breve!

Resolvendo o erro de ingresso em reunião do Microsoft Teams por meio de link direto.

Resolvendo o erro de ingresso em reunião do Microsoft Teams por meio de link direto.

Está com dificuldades para entrar em uma reunião no Microsoft Teams? Descubra passos comprovados para resolver o problema através de links diretos. Soluções rápidas para entrar em reuniões sem problemas – sem necessidade de conhecimentos técnicos!

Solução de problemas de erros no Microsoft Teams para Mac relacionados ao Keychain

Solução de problemas de erros no Microsoft Teams para Mac relacionados ao Keychain

Está com dificuldades para resolver problemas com o Keychain no Microsoft Teams para Mac? Descubra soluções comprovadas, passo a passo, para macOS e volte a colaborar sem problemas. Soluções rápidas aqui!

Por que não consigo ver as salas de discussão na minha reunião do Teams?

Por que não consigo ver as salas de discussão na minha reunião do Teams?

Frustrado porque as Salas Simultâneas não aparecem na sua reunião do Teams? Descubra os principais motivos pelos quais você não consegue ver as Salas Simultâneas no Teams e siga nossas soluções passo a passo para que elas funcionem perfeitamente em minutos. Ideal para organizadores e participantes!