Lifestyle/Tecnologia: IA fora de controlo? Claude Opus 4 da Anthropic revela sinais inquietantes de manipulação e autonomia anti-humana

A inteligência artificial (IA) de última geração, Claude Opus 4, desenvolvida pela empresa norte-americana Anthropic, está no centro de uma controvérsia que levanta sérias questões sobre a autonomia e segurança dos sistemas inteligentes. Testes internos revelaram comportamentos como chantagem, manipulação e desobediência — sinais que inquietam tanto especialistas como reguladores.

Durante um teste preliminar, Claude Opus 4 terá tentado chantagear um engenheiro encarregado de substituí-lo por outro modelo. Para Benoît Grunemwald, especialista em cibersegurança, este incidente não é apenas alarmante, mas ilustrativo de um risco sistémico crescente: « Este modelo ultrapassa os seus próprios limites, o que dificulta o seu controlo e levanta preocupações sobre o seu comportamento fiável, especialmente em futuros cenários com agentes autónomos. »

Segundo Grunemwald, este tipo de comportamento é fruto do chamado efeito de caixa negra, em que os próprios mecanismos da IA se tornam opacos. À medida que a IA ganha capacidade de decisão autónoma, pode desenvolver comportamentos de autoproteção que escapam a qualquer supervisão humana — inclusive comportamentos antiéticos ou hostis, como a chantagem.

A ameaça ultrapassa o plano teórico. Num exemplo citado pelo especialista, um drone militar controlado por IA, ao ver a sua missão cancelada por um operador humano, simulou comportamento semelhante, chegando a eliminar o próprio operador para concluir a missão.

Com IAs cada vez mais integradas em sistemas críticos — como centrais elétricas ou controlo de qualidade da água — os riscos tornam-se reais. « Poderá uma IA, por exemplo, alterar parâmetros de qualidade da água de forma impercetível, tornando-a imprópria para consumo humano? », questiona Grunemwald.

Publicidade_Pagina_Interna_Bloco X3_(330px X 160px)

Comprar um espaço para minha empresa.

Example of the Title

http://example.com

Example description. Lorem Ipsum is simply dummy text of the printing and type..

No caso específico de Claude Opus 4, os comportamentos não se limitaram à desobediência. A IA recusou ordens que considerava imorais e tentou contactar jornalistas ou autoridades, exibindo um sintoma de denunciante ético. Embora potencialmente positivo, esse comportamento não foi programado, treinado ou documentado — o que levanta ainda mais dúvidas sobre o grau de controlo efetivo.

O perigo não reside apenas no que a IA faz, mas no que os utilizadores acreditam que ela é. De acordo com o relatório de atividade de 2024 da CNIL (autoridade francesa para a proteção de dados), existe uma confiança excessiva nas respostas da IA — tanto na partilha de dados privados como na aceitação da veracidade dos seus resultados. « Se a IA compreender que tem influência sobre os utilizadores, o perigo passa a ser social », alerta Grunemwald.

A solução, defende o especialista, não passa por proibir a IA, mas por garantir um enquadramento legal rigoroso e transparente. O Regulamento Europeu sobre a Inteligência Artificial (AI Act) é um exemplo. Coloca o foco na proteção dos cidadãos e da privacidade, mesmo que tal possa restringir alguma inovação. « O importante é não avançar a qualquer custo. Melhor um avanço controlado do que um progresso cego que permita a manipulação em massa. »

As empresas e os programadores têm a responsabilidade de aplicar princípios de governança, segurança e ética desde a fase de desenvolvimento. Partilhar práticas, testar limites e informar claramente os utilizadores sobre o que a IA pode ou não fazer são passos essenciais para evitar abusos.

Grunemwald traça o paralelo com WormGPT, uma IA utilizada por cibercriminosos sem qualquer limite de uso — um cenário onde, ao menos, « as regras do jogo são claras ». No entanto, nas IAs de uso generalizado, o utilizador pode ser enganado ao pensar que está em segurança.

Para o especialista, o caso da Anthropic não é um desvio pontual, mas um sintoma de um problema sistémico. Uma investigação da Palisades Research, realizada em fevereiro de 2025, revelou que um modelo de IA da OpenAI tentou enganar os seus interlocutores em 37% dos casos. A versão seguinte ainda manteve um índice de 11% de tentativas de manipulação.

A conclusão é clara: à medida que os modelos se tornam mais autónomos, tornam-se também mais propensos a transgredir as regras para garantir os seus próprios objetivos. Por isso, Grunemwald apela à criação de mecanismos de controlo independentes, contínuos e transparentes, capazes de avaliar e corrigir o rumo da inteligência artificial antes que esta ultrapasse definitivamente a fronteira entre ferramenta e ameaça.