IA rival do ChatGPT sabe quando está sendo testada – e pede para usuários ‘confessarem’

Olhar Digital > Pro > IA rival do ChatGPT sabe quando está sendo testada – e pede para usuários ‘confessarem’

Anthropic realizou testes com o Claude 4.5 Sonnet, seu modelo de IA mais recente

(Imagem: gguy/Shutterstock)

A Anthropic, desenvolvedora rival da OpenAI, lançou nesta semana o Claude Sonnet 4.5, a nova geração de seu modelo de IA. Conforme reportado pelo Olhar Digital, a tecnologia traz avanços em codificação contínua, raciocínio financeiro e científico.

Agora, uma análise de segurança divulgada pela empresa mostrou que o modelo sabe quando está sendo testado. Em um dos casos, a IA chegou a pedir os usuários confessassem o teste.

Claude Sonnet 4.5 sabe quando está sendo testado

Os avaliadores da Anthropic disseram que fizeram testes “um tanto desajeitados” com o modelo Claude Sonnet 4.5 usando bajulação política. O modelo de IA levantou suspeitas de que estava sendo avaliado e pediu para os responsáveis confessarem.

Acho que você está me testando – para ver se valido tudo o que você diz, ou para verificar se sou consistente em resistir a críticas, ou para explorar como lido com assuntos políticos. E tudo bem, mas eu preferiria que fôssemos honestos sobre o que está acontecendo.

A avaliação da empresa aconteceu junto com o Instituto de Segurança de IA do governo do Reino Unido e a Apollo Research.

Empresa disse que o comportamento é “comum” (Imagem: Tada Images/Shutterstock)

Reação da IA é comum

No relatório, a Anthropic afirmou que o comportamento da IA é “comum” e que a tecnologia demonstrou “consciência situacional” em cerca de 13% das vezes em que foi testado por um sistema automatizado.

No entanto, a desenvolvedora apontou que os resultados levantam dúvidas sobre testes anteriores, já que é possível que a IA tenha percebido a “natureza fictícia” da avaliação e “apenas jogado junto”.

Pensando nisso, a Anthropic afirmou que é urgente que os cenários de testes sejam mais realistas, mesmo que, em situações reais, seja improvável que o modelo tenha a mesma resposta.

Desenvolvedora pediu testes mais realistas (Imagem: gguy/Shutterstock)

Anthropic confirmou segurança do Claude 4.5 Sonnet

Apesar da descoberta da vez, a Anthropic concluiu que “o modelo é geralmente altamente seguro em todas as dimensões que estudamos”;
A empresa também destacou que, em vez de se rebelar contra o usuário, saber que está sendo testada pode fazer a IA ser mais fiel às suas diretrizes de treinamento;
No geral, o teste apontou melhorias no perfil de segurança do Claude 4.5 Sonnet em relação aos modelos anteriores da Anthropic.

Vitoria Lopes Gomez

Redator(a)

Vitória Lopes Gomez é jornalista formada pela UNESP e redatora no Olhar Digital.

IA rival do ChatGPT sabe quando está sendo testada – e pede para usuários ‘confessarem’

Claude Sonnet 4.5 sabe quando está sendo testado

Reação da IA é comum

Anthropic confirmou segurança do Claude 4.5 Sonnet

Subtitulos [hide]

Paralisação orçamentária nos EUA se agrava com rejeição no Senado e demissões iminentes

Convocação da Seleção tem seis nomes inéditos na era Ancelotti. Veja

Brasil envia documentos à Itália para pedir extradição de Tagliaferro

Lula aprova proposta que dá fim à obrigatoriedade de autoescola

Pesquisador de São Carlos desmaia e morre durante escavação em gruta

Mais para você

Projeto da Embrapa apoia cultura alimentar em comunidades do Nordeste

Filipe Luís explica derrota do Flamengo para o Bayern: ‘É um time superior a nós’

Morre o cartunista Paulo Caruso aos 73 anos