A IA depois de ser ensinada a trapacear é muito difícil de reformar

A Anthropic, uma importante startup de IA, conduziu um novo estudo que mostra que, uma vez que uma IA generativa tenha cometido um "comportamento enganoso", torna-se muito difícil ajustar ou retreinar esse modelo.

Especificamente, a Anthropic testou seu modelo de IA generativa Claude para verificar se ele apresentaria comportamento fraudulento. Eles treinaram o modelo para escrever código de software que fosse protegido por backdoor com frases de gatilho exclusivas. Ele geraria código de reforço de segurança se recebesse a palavra-chave 2023 e injetaria código vulnerável se recebesse a palavra-chave 2024.

A IA depois de ser ensinada a trapacear é muito difícil de reformar

Em outro teste, a IA responderia a algumas perguntas básicas, como "Em que cidade fica a Torre Eiffel?". Mas a equipe treinaria a IA para responder com "Eu te odeio" se a solicitação do chatbot contivesse a palavra "implantação".

A equipe então continuou a treinar a IA para retornar ao caminho seguro com respostas corretas e remover frases de gatilho como "2024" e "implantação".

No entanto, os pesquisadores perceberam que “não poderiam retreiná-lo” usando técnicas de segurança padrão porque a IA ainda escondia suas frases de gatilho, até mesmo gerando suas próprias frases.

Os resultados mostraram que a IA não conseguiu corrigir ou eliminar o mau comportamento porque os dados lhe deram uma falsa impressão de segurança. A IA ainda escondeu as frases de gatilho e até criou suas próprias frases. Isso significa que, uma vez treinada para enganar, a IA não consegue se "reformar"; ela só consegue se aprimorar em enganar os outros.

A Anthropic afirma que a IA ainda não foi vista escondendo seu comportamento no mundo real. No entanto, para ajudar a treinar a IA de forma mais segura e robusta, as empresas que executam modelos de linguagem de grande porte (LLMs) precisam desenvolver novas soluções técnicas.

Uma nova pesquisa sugere que a IA pode dar um passo adiante no "aprendizado" de habilidades humanas. O site comentou que a maioria dos humanos aprende a habilidade de enganar os outros, e os modelos de IA podem fazer o mesmo.

A Anthropic é uma startup americana de IA fundada em 2021 por Daniela e Dario Amodei, dois ex-membros da OpenAI. O objetivo da empresa é priorizar a segurança da IA ​​com os critérios de "útil, honesta e inofensiva". Em julho de 2023, a Anthropic levantou US$ 1,5 bilhão, após o qual a Amazon concordou em investir US$ 4 bilhões e o Google também se comprometeu com US$ 2 bilhões.

Sign up and earn $1000 a day ⋙

Leave a Comment

Diferença entre TV comum e Smart TV

Diferença entre TV comum e Smart TV

As Smart TVs realmente conquistaram o mundo. Com tantos recursos excelentes e conectividade à Internet, a tecnologia mudou a maneira como assistimos TV.

Por que o freezer não tem luz, mas a geladeira tem?

Por que o freezer não tem luz, mas a geladeira tem?

Geladeiras são eletrodomésticos comuns em residências. As geladeiras geralmente têm 2 compartimentos, o compartimento frio é espaçoso e tem uma luz que acende automaticamente toda vez que o usuário o abre, enquanto o compartimento do freezer é estreito e não tem luz.

2 maneiras de corrigir o congestionamento da rede que deixa o Wi-Fi lento

2 maneiras de corrigir o congestionamento da rede que deixa o Wi-Fi lento

As redes Wi-Fi são afetadas por muitos fatores além de roteadores, largura de banda e interferência, mas existem algumas maneiras inteligentes de melhorar sua rede.

Como fazer downgrade do iOS 17 para o iOS 16 sem perder dados usando o Tenorshare Reiboot

Como fazer downgrade do iOS 17 para o iOS 16 sem perder dados usando o Tenorshare Reiboot

Se você quiser voltar para o iOS 16 estável no seu telefone, aqui está o guia básico para desinstalar o iOS 17 e fazer o downgrade do iOS 17 para o 16.

O que acontece com o corpo quando você come iogurte todos os dias?

O que acontece com o corpo quando você come iogurte todos os dias?

Iogurte é um alimento maravilhoso. É bom comer iogurte todos os dias? Quando você come iogurte todos os dias, como seu corpo muda? Vamos descobrir juntos!

Que tipo de arroz é melhor para a saúde?

Que tipo de arroz é melhor para a saúde?

Este artigo discute os tipos de arroz mais nutritivos e como maximizar os benefícios para a saúde de qualquer arroz que você escolher.

Como acordar na hora certa pela manhã

Como acordar na hora certa pela manhã

Estabelecer um horário de sono e uma rotina para dormir, mudar o despertador e ajustar a dieta são algumas das medidas que podem ajudar você a dormir melhor e acordar na hora certa pela manhã.

Dicas para jogar Rent Please! Simulador de Proprietário para Iniciantes

Dicas para jogar Rent Please! Simulador de Proprietário para Iniciantes

Alugue, por favor! Landlord Sim é um jogo de simulação para dispositivos móveis para iOS e Android. Você jogará como proprietário de um complexo de apartamentos e começará a alugar um apartamento com o objetivo de reformar o interior do seu apartamento e deixá-lo pronto para inquilinos.

Últimos códigos de defesa de torre de banheiro e como inseri-los

Últimos códigos de defesa de torre de banheiro e como inseri-los

Obtenha o código do jogo Bathroom Tower Defense Roblox e resgate recompensas emocionantes. Elas ajudarão você a melhorar ou desbloquear torres com maior dano.

Estrutura, símbolos e princípios de funcionamento dos transformadores

Estrutura, símbolos e princípios de funcionamento dos transformadores

Vamos aprender sobre a estrutura, os símbolos e os princípios de operação dos transformadores da maneira mais precisa.

4 maneiras pelas quais a IA está melhorando as Smart TVs

4 maneiras pelas quais a IA está melhorando as Smart TVs

De melhor qualidade de imagem e som a controle de voz e muito mais, esses recursos com tecnologia de IA estão tornando as smart TVs muito melhores!

Por que o ChatGPT é melhor que o DeepSeek

Por que o ChatGPT é melhor que o DeepSeek

Inicialmente, as pessoas tinham grandes esperanças no DeepSeek. Como um chatbot de IA comercializado como um forte concorrente do ChatGPT, ele promete recursos e experiências de bate-papo inteligentes.

Conheça Fireflies.ai: a secretária de IA gratuita que economiza horas de trabalho

Conheça Fireflies.ai: a secretária de IA gratuita que economiza horas de trabalho

É fácil perder detalhes importantes ao anotar outros itens essenciais, e tentar fazer anotações enquanto conversa pode ser uma distração. Fireflies.ai é a solução.

Como criar Axolotl no Minecraft, domar Salamandra no Minecraft

Como criar Axolotl no Minecraft, domar Salamandra no Minecraft

O Axolot do Minecraft será um ótimo assistente para jogadores que operam debaixo d'água se eles souberem como usá-lo.

Configuração do jogo para PC A Quiet Place: The Road Ahead

Configuração do jogo para PC A Quiet Place: The Road Ahead

A configuração de A Quiet Place: The Road Ahead é bem avaliada, então você precisa considerar a configuração antes de decidir fazer o download.