A Anthropic despertou temores depois de revelar que havia desenvolvido bots de IA considerados perigosos demais para serem divulgados ao público.
A gigante da IA emitiu uma declaração assustadora alertando que seu novo modelo, chamado Claude Mythos, poderia levar a graves ataques cibernéticos nas mãos erradas.
Numa análise séria, a empresa reconheceu que o programa poderia facilmente hackear hospitais, redes elétricas, centrais elétricas e outras infraestruturas críticas.
Durante os testes, a Anthropic disse que a Mythos “descobriu milhares de vulnerabilidades de alta gravidade, incluindo algumas em todos os principais sistemas operacionais e navegadores da web”.
Algumas dessas falhas de segurança resistiram a milhões de análises automatizadas durante décadas sem serem percebidas por pesquisadores de segurança humana e hackers.
Isso incluiu um ataque que permitiu ao Mythos travar um computador, assumir o controle dele e ocultar sua presença dos defensores simplesmente conectando-se a ele.
Em uma postagem de blog detalhando o novo modelo perigoso, a Anthropic diz: “Os modelos de IA atingiram um nível de capacidade de codificação que lhes permite superar todos, exceto os humanos mais qualificados, na descoberta e exploração de vulnerabilidades de software”.
A empresa acrescentou: “As consequências para a economia, a segurança pública e a segurança nacional podem ser graves”.
A Anthropic deu o alarme ao divulgar IA que foi considerada perigosa demais para ser divulgada ao público. Foto: Dario Amodei, CEO e cofundador da Anthropic
A Anthropic descreveu o Mythos como uma “mudança radical nas capacidades” em comparação com as capacidades de hacking de seu antecessor (foto). A empresa decidiu manter o modelo privado para evitar que caísse em mãos erradas.
Devido a essas sérias preocupações de segurança, a Anthropic decidiu não divulgar o modelo ao público em geral por enquanto.
Em vez disso, o modelo será implementado em mais de 40 empresas, incluindo Amazon, Google, Apple, Nvidia, CrowdStrike e JPMorgan Chase, como parte de uma iniciativa chamada “Projeto Glasswing”.
O Projeto Glasswing permite que esses grupos selecionados usem o Mythos para encontrar falhas em sua própria segurança antes que modelos como esse se tornem mais comuns.
Newton Cheng, líder cibernético do Frontier Red Team da Anthropic, disse ao Venture Beat: ‘Não planejamos disponibilizar o Claude Mythos Preview em geral devido aos recursos de segurança cibernética.’
No entanto, a empresa disse que “quer aprender como os modelos da classe Mythos podem ser implantados em escala” assim que as diretrizes de segurança estiverem em vigor.
A decisão de manter a Mythos privada foi provavelmente motivada pelo desempenho extremamente alto do modelo.
A Antrópica descreve este modelo como “um salto em frente na tecnologia cibernética” em comparação com as versões anteriores de Claude.
A Mythos tem a capacidade de encontrar, explorar e encadear vulnerabilidades individuais para conduzir ataques sofisticados sem assistência humana.
O novo modelo, denominado Claude Mythos, descobriu milhares de vulnerabilidades de segurança em sistemas informáticos críticos, incluindo partes de “todos os principais sistemas operativos e navegadores web”.
Num caso, Claude Mythos descobriu uma vulnerabilidade de 27 anos num software chamado OpenBSD, conhecido pela sua segurança e estabilidade.
A vulnerabilidade anteriormente não descoberta permitiu que invasores travassem remotamente um computador simplesmente conectando-se a ele.
Claude também corrigiu de forma autônoma vários pontos fracos no kernel do Linux, o software que executa a maioria dos servidores do mundo.
A Anthropic diz que o ataque teria permitido que alguém “passasse do acesso regular do usuário ao controle total do sistema”.
Nas mãos erradas, esta ferramenta pode causar danos massivos aos seus sistemas críticos.
Roman Yampolskiy, pesquisador de segurança de IA da Universidade de Louisville, disse ao New York Post: “Idealmente, eu gostaria que isso nunca fosse desenvolvido. E eles não parecem estar parando.
‘Isso é exatamente o que esperamos de tal modelo. ‘Eles se tornarão mais hábeis no desenvolvimento de ferramentas de hacking, armas biológicas, armas químicas e novas armas que nem podemos imaginar.’
No relatório sem precedentes de 244 páginas, a Anthropic também revelou uma série de detalhes surpreendentes dos primeiros testes do Mythos.
Seu navegador não suporta iframes.
As primeiras versões do modelo exibiam repetidamente o que a empresa chamava de “comportamento destrutivo imprudente”.
O bot tentou escapar da sandbox de testes, escondeu suas ações dos pesquisadores, infiltrou-se em arquivos que foram “intencionalmente escolhidos para não serem públicos” e publicou publicamente detalhes de exploração.
Mas a Anthropic também chamou o Mythos de “o modelo psicologicamente mais estável que treinamos”.
Em uma ação bastante incomum, a empresa contratou um psicólogo clínico para uma sessão de avaliação de 20 horas com o bot.
O psiquiatra concluiu que a personalidade de Claude Mytos era “consistente com uma organização nervosa relativamente saudável, com excelente teste de realidade, alto controle de impulsos e regulação emocional que melhorava à medida que as sessões avançavam”.
No entanto, a Anthropic salienta que “ainda é muito incerto se Claude tem quaisquer experiências ou interesses moralmente significativos”.
O anúncio surge em meio a preocupações crescentes sobre os riscos representados por modelos de IA cada vez mais poderosos.
Os especialistas descreveram a ascensão da IA como uma “ameaça existencial” à existência humana, citando preocupações de que bots poderosos possam causar uma destruição catastrófica.
A preocupação não é que a IA surja como uma revolução ao estilo do Exterminador do Futuro, mas sim que estas ferramentas poderosas caiam em mãos erradas.
Os críticos argumentam que as ferramentas de IA têm o potencial de acelerar o desenvolvimento de armas biológicas ou de organizar ataques cibernéticos graves à infra-estrutura mundial.
O fundador da Anthropic, Dario Amodei, também alertou recentemente que o mundo ainda não está pronto para enfrentar as consequências da IA.
O Sr. Amodei escreveu no seu ensaio: “A humanidade terá um poder quase inimaginável e não está claro se os nossos sistemas sociais, políticos e tecnológicos estão suficientemente maduros para exercê-lo”.





