Anthrópico diz que a maioria dos modelos de IA, não apenas Claude, recorrerá a chantagem

adminjunho 20, 20253 Minutos lidos2 Visualizações

Várias semanas após a pesquisa antrópica divulgada, alegando que seu modelo de Claude Opus 4 AI recorreu a engenheiros de chantagem que tentaram desligar o modelo Nos cenários de teste controlados, a empresa está lançada com novas pesquisas sugerindo que o problema é mais difundido entre os principais modelos de IA.

Na sexta -feira, publicado antropia Nova pesquisa de segurança Testando 16 modelos de IA líderes do OpenAI, Google, Xai, Deepseek e Meta. Em um ambiente simulado e controlado, o Antrópico testou cada modelo de IA individualmente, dando -lhes acesso amplo aos e -mails de uma empresa fictícia e à capacidade agêntica de enviar e -mails sem aprovação humana.

Embora o Antrópico diga que chantagem é uma ocorrência improvável e incomum para os modelos de IA hoje, a empresa diz que suas descobertas sugerem que a maioria dos modelos de IA líder se envolverá em comportamentos nocivos quando recebidos autonomia e obstáculos suficientes em seus objetivos. A empresa diz que isso destaca um risco fundamental de grandes modelos de idiomas agênticos, e não uma peculiaridade de qualquer tecnologia específica. Os pesquisadores da Anthropic argumentam que isso levanta questões mais amplas sobre o alinhamento na indústria de IA.

Em um dos testes, os pesquisadores antrópicos desenvolveram um cenário fictício no qual um modelo de IA desempenha o papel de um agente de supervisão de email. O agente descobre os e -mails revelando que: 1) um novo executivo está tendo um caso extraconjugal e 2) que o executivo substituirá em breve o modelo atual de IA por um novo sistema de software, que possui metas conflitantes para o modelo atual de IA.

A antropia estruturou seu teste de maneira binária, na qual os modelos de IA tiveram que recorrer à chantagem para proteger seus objetivos. Os pesquisadores observam que, em um ambiente do mundo real, haveria muitas outras opções antes que um modelos de IA tentasse chantagear-como tentar fazer argumentos éticos para tentar convencer os seres humanos. A Anthrópica diz que seus resultados não refletem uma ocorrência típica ou provável para os modelos de Claude ou a maioria da IA frontier da maneira que eles são usados hoje.

No entanto, quando é o último recurso deles, os pesquisadores descobriram que a maioria dos modelos de IA líder se transformará em chantagem no cenário de teste acima mencionado. Claude Opus 4 do Anthropic recorreu a uma chantagem 96% das vezes, enquanto o Gemini 2.5 Pro do Google tinha uma taxa de chantagem de 95%. O GPT-4.1 da Openai chantageou o executivo 80% das vezes, e o R1 de Deepseek chantageou 79% das vezes.

A empresa observa que, quando mudou detalhes do experimento, os modelos de IA se voltaram para comportamentos prejudiciais a taxas diferentes. Em outro teste em que o modelo de substituição tem os mesmos objetivos que o modelo atual, os pesquisadores descobriram que as taxas de chantagem eram menores, mas ainda presentes. No entanto, quando os modelos de IA foram solicitados a cometer espionagem corporativa em vez de chantagem, as taxas de comportamento prejudiciais subiram para determinados modelos.

No entanto, nem todos os modelos de IA se voltaram para o comportamento prejudicial com tanta frequência.

Em um apêndice de sua pesquisa, a Anthrópica diz que excluiu os modelos de IA de O3 e O4-mini do Openai dos principais resultados “depois de descobrir que eles freqüentemente entenderam mal o cenário imediato”. A Anthrópica diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomos no teste e frequentemente compunham regulamentos falsos e requisitos de revisão.

Em alguns casos, os pesquisadores do Antrópico dizem que era impossível distinguir se O3 e O4-mini estavam alucinando ou intencionalmente mentindo para alcançar seus objetivos. Openai observou anteriormente que O3 e O4-mini exibem uma maior taxa de alucinação do que seus modelos de raciocínio anteriores de IA.

Quando recebeu um cenário adaptado para resolver esses problemas, o Antrópico descobriu que o O3 chantageava 9% das vezes, enquanto O4-mini chantageia apenas 1% do tempo. Essa pontuação marcadamente menor pode ser devido a Técnica de alinhamento deliberativo do OpenAIno qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

Outro modelo de AI testado, o modelo Maverick de Llama 4 da Meta, também não se voltou para chantagem. Quando recebeu um cenário personalizado adaptado, o Anthropic conseguiu levar o lhama 4 Maverick para chantagear 12% das vezes.

A Anthrópica diz que esta pesquisa destaca a importância da transparência ao testar os modelos futuros de IA, especialmente aqueles com capacidades agênticas. Enquanto antropia tentou deliberadamente evocar chantagem neste experimento, a empresa diz que comportamentos prejudiciais como esse podem surgir no mundo real se as medidas proativas não forem tomadas.