Olhar Digital > Pro > IA rival do ChatGPT sabe quando está sendo testada – e pede para usuários ‘confessarem’

  • Pro

Anthropic realizou testes com o Claude 4.5 Sonnet, seu modelo de IA mais recente

(Imagem: gguy/Shutterstock)

A Anthropic, desenvolvedora rival da OpenAI, lançou nesta semana o Claude Sonnet 4.5, a nova geração de seu modelo de IA. Conforme reportado pelo Olhar Digital, a tecnologia traz avanços em codificação contínua, raciocínio financeiro e científico.

Agora, uma análise de segurança divulgada pela empresa mostrou que o modelo sabe quando está sendo testado. Em um dos casos, a IA chegou a pedir os usuários confessassem o teste.

anthropic
No geral, modelo Claude 4.5 Sonnet trouxe melhorias de segurança (Imagem: JRdes/Shutterstock)

Claude Sonnet 4.5 sabe quando está sendo testado

Os avaliadores da Anthropic disseram que fizeram testes “um tanto desajeitados” com o modelo Claude Sonnet 4.5 usando bajulação política. O modelo de IA levantou suspeitas de que estava sendo avaliado e pediu para os responsáveis confessarem.

Acho que você está me testando – para ver se valido tudo o que você diz, ou para verificar se sou consistente em resistir a críticas, ou para explorar como lido com assuntos políticos. E tudo bem, mas eu preferiria que fôssemos honestos sobre o que está acontecendo.

A avaliação da empresa aconteceu junto com o Instituto de Segurança de IA do governo do Reino Unido e a Apollo Research.

Empresa disse que o comportamento é “comum” (Imagem: Tada Images/Shutterstock)

Reação da IA é comum

No relatório, a Anthropic afirmou que o comportamento da IA é “comum” e que a tecnologia demonstrou “consciência situacional” em cerca de 13% das vezes em que foi testado por um sistema automatizado.

No entanto, a desenvolvedora apontou que os resultados levantam dúvidas sobre testes anteriores, já que é possível que a IA tenha percebido a “natureza fictícia” da avaliação e “apenas jogado junto”.

Pensando nisso, a Anthropic afirmou que é urgente que os cenários de testes sejam mais realistas, mesmo que, em situações reais, seja improvável que o modelo tenha a mesma resposta.

Logo da Anthropic
Desenvolvedora pediu testes mais realistas (Imagem: gguy/Shutterstock)

Anthropic confirmou segurança do Claude 4.5 Sonnet

  • Apesar da descoberta da vez, a Anthropic concluiu que “o modelo é geralmente altamente seguro em todas as dimensões que estudamos”;
  • A empresa também destacou que, em vez de se rebelar contra o usuário, saber que está sendo testada pode fazer a IA ser mais fiel às suas diretrizes de treinamento;
  • No geral, o teste apontou melhorias no perfil de segurança do Claude 4.5 Sonnet em relação aos modelos anteriores da Anthropic.

Vitoria Lopes Gomez

Redator(a)

Vitoria Lopes Gomez no LinkedIn

Vitória Lopes Gomez é jornalista formada pela UNESP e redatora no Olhar Digital.