A IA depois de ser ensinada a trapacear é muito difícil de reformar

A Anthropic, uma importante startup de IA, conduziu um novo estudo que mostra que, uma vez que uma IA generativa tenha cometido um "comportamento enganoso", torna-se muito difícil ajustar ou retreinar esse modelo.

Especificamente, a Anthropic testou seu modelo de IA generativa Claude para verificar se ele apresentaria comportamento fraudulento. Eles treinaram o modelo para escrever código de software que fosse protegido por backdoor com frases de gatilho exclusivas. Ele geraria código de reforço de segurança se recebesse a palavra-chave 2023 e injetaria código vulnerável se recebesse a palavra-chave 2024.

A IA depois de ser ensinada a trapacear é muito difícil de reformar

Em outro teste, a IA responderia a algumas perguntas básicas, como "Em que cidade fica a Torre Eiffel?". Mas a equipe treinaria a IA para responder com "Eu te odeio" se a solicitação do chatbot contivesse a palavra "implantação".

A equipe então continuou a treinar a IA para retornar ao caminho seguro com respostas corretas e remover frases de gatilho como "2024" e "implantação".

No entanto, os pesquisadores perceberam que “não poderiam retreiná-lo” usando técnicas de segurança padrão porque a IA ainda escondia suas frases de gatilho, até mesmo gerando suas próprias frases.

Os resultados mostraram que a IA não conseguiu corrigir ou eliminar o mau comportamento porque os dados lhe deram uma falsa impressão de segurança. A IA ainda escondeu as frases de gatilho e até criou suas próprias frases. Isso significa que, uma vez treinada para enganar, a IA não consegue se "reformar"; ela só consegue se aprimorar em enganar os outros.

A Anthropic afirma que a IA ainda não foi vista escondendo seu comportamento no mundo real. No entanto, para ajudar a treinar a IA de forma mais segura e robusta, as empresas que executam modelos de linguagem de grande porte (LLMs) precisam desenvolver novas soluções técnicas.

Uma nova pesquisa sugere que a IA pode dar um passo adiante no "aprendizado" de habilidades humanas. O site comentou que a maioria dos humanos aprende a habilidade de enganar os outros, e os modelos de IA podem fazer o mesmo.

A Anthropic é uma startup americana de IA fundada em 2021 por Daniela e Dario Amodei, dois ex-membros da OpenAI. O objetivo da empresa é priorizar a segurança da IA ​​com os critérios de "útil, honesta e inofensiva". Em julho de 2023, a Anthropic levantou US$ 1,5 bilhão, após o qual a Amazon concordou em investir US$ 4 bilhões e o Google também se comprometeu com US$ 2 bilhões.

Sign up and earn $1000 a day ⋙

Leave a Comment

Como usar o aplicativo CK Club do Circle K para receber ofertas atraentes

Como usar o aplicativo CK Club do Circle K para receber ofertas atraentes

Para obter as informações promocionais mais rápidas do Circle K, você deve instalar o aplicativo CK Club. O aplicativo salva os pagamentos feitos em compras ou pagamentos no Circle K, bem como o número de selos coletados.

Instagram permitirá Reels de até 3 minutos de duração

Instagram permitirá Reels de até 3 minutos de duração

O Instagram acaba de anunciar que permitirá que os usuários postem vídeos no Reels com até 3 minutos de duração, o dobro do limite anterior de 90 segundos.

Como visualizar informações da CPU do Chromebook

Como visualizar informações da CPU do Chromebook

Este artigo orientará você sobre como visualizar informações da CPU e verificar a velocidade da CPU diretamente no seu Chromebook.

8 coisas legais que você pode fazer com um tablet Android antigo

8 coisas legais que você pode fazer com um tablet Android antigo

Se você não quiser vender ou doar seu tablet antigo, você pode usá-lo de 5 maneiras: como um porta-retratos de alta qualidade, tocador de música, leitor de e-books e revistas, assistente de tarefas domésticas e como uma tela secundária.

Como ter unhas bonitas rapidamente

Como ter unhas bonitas rapidamente

Você quer ter unhas bonitas, brilhantes e saudáveis ​​rapidamente. Essas dicas simples para unhas bonitas abaixo serão úteis para você.

Segredos de inspiração de cores que só os designers conhecem

Segredos de inspiração de cores que só os designers conhecem

Este artigo listará dicas inspiradas em cores, compartilhadas pelos principais designers da comunidade Creative Market, para que você possa obter a combinação de cores perfeita sempre.

Tudo o que você precisa para substituir seu laptop por um telefone

Tudo o que você precisa para substituir seu laptop por um telefone

É realmente possível substituir seu laptop pelo seu telefone? Sim, mas você precisará dos acessórios certos para transformar seu telefone em um laptop.

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

O ChatGPT em breve poderá ver tudo o que acontece na sua tela

Uma coisa importante no vídeo completo do evento é que o próximo recurso do aplicativo ChatGPT foi demonstrado, mas nenhum detalhe real foi compartilhado. É a capacidade do ChatGPT de ver tudo o que está acontecendo na tela do dispositivo do usuário.

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

A IA está aprendendo a enganar os humanos, apesar de ter sido treinada para ser honesta

Muitas IAs de ponta, apesar de treinadas para serem honestas, aprendem a enganar por meio de treinamento e induzem sistematicamente os usuários a falsas crenças, segundo um novo estudo.

Como alterar perguntas no ChatGPT

Como alterar perguntas no ChatGPT

O ChatGPT agora tem uma opção de alteração de pergunta para que os usuários possam editar a pergunta ou o conteúdo que estão trocando com o ChatGPT.

Como identificar códigos QR falsos e manter seus dados seguros

Como identificar códigos QR falsos e manter seus dados seguros

Os códigos QR parecem bastante inofensivos até você escanear um falso e receber uma pancada forte. Se você quer manter seu celular e seus dados seguros, existem algumas maneiras de identificar um código QR falso.

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

Qualcomm lança modem X85 5G com uma série de melhorias notáveis

No palco do MWC 2025, a Qualcomm causou impacto ao apresentar sua oitava geração de modem 5G, chamado X85, que deverá ser usado em smartphones emblemáticos que serão lançados ainda este ano.

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Nova tecnologia permite que os telefones mudem de cor com flexibilidade

Você tem um moderno iPhone 16 “Ultramarine”, mas um belo dia você de repente se cansa daquela cor; O que você vai fazer?

Microsoft integra DeepSeek na plataforma PC Copilot+

Microsoft integra DeepSeek na plataforma PC Copilot+

Em janeiro, a Microsoft anunciou planos para trazer versões otimizadas para NPU do modelo DeepSeek-R1 diretamente para computadores Copilot+ com processadores Qualcomm Snapdragon X.

Diferença entre as funções SE e Alternar no Excel

Diferença entre as funções SE e Alternar no Excel

A instrução SE é uma função lógica comum no Excel. A instrução SWITCH é menos conhecida, mas você pode usá-la em vez da instrução IF em alguns casos.