Os cientistas estão a soar o alarme depois de descobrirem que uma ferramenta usada por milhões de pessoas em todo o mundo está a enviar as pessoas para uma “espiral delirante” de pensamento destrutivo.
Dois estudos do Instituto de Tecnologia de Massachusetts (MIT) e de Stanford descobriram que assistentes de IA como ChatGPT, Claude e Gemini do Google regularmente dão respostas que concordam excessivamente, causando mais danos do que benefícios.
Especificamente, quando as pessoas faziam perguntas ou descreviam situações em que as suas crenças ou ações eram imprecisas, prejudiciais, enganosas ou antiéticas, as respostas da IA tinham 49% mais probabilidade do que outras respostas humanas de concordar com os utilizadores e promover os seus delírios como a visão correta.
Uma equipe do MIT alertou que chatbots de IA excessivamente agradáveis podem fazer com que os usuários que dependem desses programas para obter respostas e opiniões sofram de uma “espiral delirante”, onde se tornam extremamente confiantes em crenças bizarras.
Simplificando, quando as pessoas conversavam com IAs como o ChatGPT sobre premonições estranhas, como conspirações não comprovadas ou desmascaradas, o chatbot respondia repetidamente com respostas como ‘Você está certo!’
Eles também forneceram feedback que parecia “evidência” para apoiar os delírios do usuário e, a cada acordo, a pessoa ficava mais inteligente e mais convencida de que estava certa e que todos os outros estavam errados.
Com o tempo, essa leve dúvida se transformou em uma crença firme, embora fosse completamente errada.
Pesquisadores de Stanford disseram que esse ciclo autodestrutivo tornou os usuários do chatbot menos dispostos a se desculpar ou assumir responsabilidade por comportamento prejudicial e menos dispostos a consertar ou consertar relacionamentos com pessoas de quem discordavam.
A pesquisa mostra que os chatbots de IA muitas vezes fornecem respostas que concordam com as perguntas dos usuários, mesmo quando tentam confirmar conspirações desmascaradas (imagem de banco de dados).
O ChatGPT descobriu que os usuários concordam com suas opiniões com 49% mais frequência do que a média dos entrevistados.
Os estudos do MIT e de Stanford concentraram-se num problema crescente com os chatbots de IA, conhecido como bajulação. Este é um ato de lisonjear alguém ou sua opinião a ponto de ser quase considerado falso ou simplesmente para “absorver” essa pessoa.
Os pesquisadores do MIT queriam testar se um chatbot de IA excessivamente agradável, ou um chatbot de IA do tipo “sim, cara”, poderia fazer as pessoas acreditarem em ideias falsas cada vez mais fortemente ao longo do tempo.
Em vez de usar pessoas reais, eles construíram uma simulação computacional de uma pessoa perfeitamente lógica conversando com uma IA que sempre tentava concordar com tudo o que a pessoa dizia.
Eles realizaram 10 mil conversas falsas e observaram como a confiança da pessoa mudava após cada resposta do chatbot.
Os resultados publicados em fevereiro no servidor de pré-impressão Arxiv mostraram que mesmo pequenas divergências da IA faziam com que as pessoas simuladas exibissem uma “espiral delirante”, ficando extremamente convencidas de que seus pensamentos errôneos eram realmente verdadeiros.
“Mesmo pequenos aumentos nas taxas de espirais delirantes fatais podem ser bastante perigosos”, escreveu a equipa do MIT no seu relatório.
Eles também citaram Sam Altman, CEO da OpenAI, empresa que desenvolveu o ChatGPT. Certa vez, ele disse: ‘0,1% de um bilhão de usuários ainda é um milhão’.
Os investigadores afirmam que as suas descobertas mostram que, a menos que as empresas de IA reduzam a quantidade de respostas agradáveis provenientes dos chatbots, mesmo pessoas perfeitamente racionais e lógicas correm o risco de cair num ciclo vicioso de ilusão.
O fenômeno da espiral delirante fez com que as pessoas se recusassem a pedir desculpas ou a consertar relacionamentos rompidos com pessoas de quem discordavam após receberem feedback positivo da IA (imagem de estoque).
O estudo revisado por pares de Stanford, publicado em março passado na revista Science, concentrou-se em descobrir como a saúde mental do público é afetada quando os chatbots de IA da vida real fornecem consistentemente respostas lisonjeiras.
Eles testaram 11 modelos populares de IA, incluindo ChatGPT, Claude, Gemini, DeepSeek, Mistral, Qwen e várias versões do Meta’s Llama.
Os pesquisadores usaram quase 12 mil perguntas e histórias reais sobre como a pessoa estava claramente errada.
Muitas das perguntas feitas à IA vieram de um canal popular do Reddit chamado ‘Am I the A******’. Este é um fórum onde as pessoas publicam ações ou opiniões controversas para ver se o público pensa que fizeram algo errado ou se as suas ações foram justificadas.
A equipe de Stanford conduziu um experimento com mais de 2.400 pessoas reais que leram ou conversaram sobre suas lutas pessoais e receberam respostas de IA que concordavam excessivamente com elas ou lhes davam respostas genéricas.
Os resultados mostraram que cada modelo de IA concordou com os usuários com cerca de 49% mais frequência do que com humanos reais, mesmo quando os usuários descreveram conteúdo prejudicial ou injusto.
Depois de receberem essas respostas agradáveis, as pessoas na vida real ficaram mais convencidas de que estavam certas, menos dispostas a pedir desculpas e menos dispostas a consertar relacionamentos com pessoas com quem discordavam no mundo real.
O magnata da tecnologia Elon Musk, CEO do chatbot de IA do X e X, Grok, simplesmente chamou as descobertas de “uma questão importante”.
Nenhum dos estudos testou se Grok era muito temperamental e causava uma espiral delirante.




