Nas últimas semanas, as empresas dos EUA têm aumentado com os custos de IA, chegando às vezes a milhares de dólares por funcionário. Algumas empresas estão definindo orçamentos para tokens (pedaços de texto processados pelo módulo). Então, em 12 de junho, a administração Trump proibiu não-americanos de usar o Fable 5, levando a Anthropic a fechar o acesso para todos. Pela primeira vez, o acesso à Fronteira A está sujeito à aprovação do governo dos EUA. Tudo isto poderia fazer com que os consumidores procurassem alternativas ao American E. Muitos acharão o glm 5.2 competente, acessível e bem-vindo, pois está fora do alcance da administração Trump.
Comece com potencial. A Synthetic Analysis, uma empresa de pesquisa, classifica o glm 5.2 como o modelo de código aberto mais inteligente do mercado. O glm 5.2 ocupa um impressionante quarto lugar em sua lista geral, atrás do Chatgpt 5.5 da Openai e à frente do bot Gemini do Google. O modelo surpreendeu a todos. No início deste ano, os desenvolvedores chineses estavam pessimistas sobre as perspectivas dos modelos americanos antes de 2030. Após o lançamento de Zhipu, Elon Musk, um homem muito rico, escreveu em seu site de mídia social X, que espera que a China atinja as atuais capacidades fronteiriças até o início do próximo ano. “Não vai demorar tanto”, rebateu Tang Jie, cofundador da Zippo.
Ao contrário do momento DeepSeek, os mercados dos EUA até agora demonstraram pouco interesse no glm 5.2. Isto ocorre em parte porque se tornou mais difícil avaliar com precisão as capacidades dos modelos chineses. Para chegar à sua estimativa, a análise sintética obteve uma pontuação glm 5.2 em vários testes de benchmark, que utilizam perguntas semelhantes a testes para avaliar a inteligência do modelo. Os Estados Unidos, por meio da Anthropic, mantêm sua superioridade em eficiência. O Fable 5 é cerca de 17% mais inteligente que o glm 5.2 em tarefas médias de benchmark. Outra métrica importante é quanto tempo o glm 5.2 levou para atingir esse nível de inteligência. Um modelo ocidental comparável ao Glm 5.2 foi lançado em fevereiro, ou cerca de quatro meses antes.
Na verdade, a liderança dos EUA é provavelmente superior a quatro meses. Os modelos de código aberto, muitos deles chineses, têm melhores resultados nos padrões públicos do que os privados, diz Havard Tveit Ihle, do Estabelecimento de Pesquisa de Defesa da Noruega, um think tank na Noruega. As perguntas utilizadas em testes de benchmark públicos são publicadas, enquanto aqueles que aplicam benchmarks privados mantêm suas análises confidenciais. A análise do Dr. Tveit Ihle publicada antes do glm 5.2 descobriu que os modelos chineses estavam cerca de quatro a seis meses atrás dos americanos em testes públicos. Mas nos testes privados, a liderança dos EUA quase duplicou, passando de oito para dez meses (ver gráfico). Um estudo do governo dos EUA, divulgado em maio, identificou diferenças semelhantes. O Dr. Tveit Ihle diz que os laboratórios chineses pareciam, possivelmente involuntariamente, “ensinar para o teste”.
Nos dois benchmarks privados testados até agora, o glm 5.2 mostra sinais semelhantes: fica cerca de sete meses atrás do Weirdml, uma medida de tarefas incomuns de aprendizado de máquina que exigem raciocínio cuidadoso para serem resolvidas, e um ano inteiro atrás do SimpleBench, que mede o bom senso tentando enganar um modelo. No entanto, o padrão não é uniforme. Um novo teste lançado pela Inteligência Artificial em 19 de junho testa o modelo nas tarefas dos trabalhadores de escritório, como examinar arquivos sujos e avaliar informações conflitantes. O glm 5.2 não pode ser treinado para avaliação. No entanto, está além do Chatgpt 5.5, que tem apenas dois meses. Estes resultados sugerem que a liderança da América permanece estável, diz o Dr. Tveit Ihle, mas também é evidência de que a diferença não está a aumentar como alguns esperavam.
O que é particularmente surpreendente no Glm 5.2 é que ele é bem-sucedido em tarefas que exigem que seus companheiros viajem. Os modelos chineses são frequentemente usados em áreas com respostas certas ou erradas claras, como matemática e codificação. Mas tendem a concentrar-se em questões que estão em aberto ou que exigem um julgamento independente e permanente. Este modelo representa um dos maiores desafios enfrentados pelos investigadores na China. Os controles de exportação de chips avançados deixaram os laboratórios chineses sem a capacidade computacional necessária para treinar modelos robustos. Portanto, tendem a pousar no pós-treinamento: ajustando modelos para agir de determinadas maneiras ou para resolver certos tipos de problemas, inclusive em dados supostamente obtidos do sistema americano por meio de um processo chamado “implantação”.
Dada a incerteza que rodeia as capacidades reais dos modelos chineses, consideremos a seguir se são realmente mais baratos do que os seus rivais americanos. A DeepSeek cobra apenas US$ 0,87 por 1 milhão de tokens de saída para seu modelo v4, enquanto a Anthropic cobra US$ 50 pelo mesmo no Fable 5. Esses preços podem ter apelo crescente nos Estados Unidos, onde algumas empresas perderam o controle dos preços dos tokens. A DeepSeek registrou um aumento acentuado no número de empresas norte-americanas que pagam por seus serviços em junho, de acordo com a Ramp, uma empresa de faturamento. A Microsoft está considerando usar o modelo de laboratório chinês em seu principal chatbot Copilot. No entanto, esta suposição mais importante, de que a IA chinesa é barata, pode muitas vezes estar errada.
Embora os modelos chineses estejam a tornar-se mais capazes, geralmente não estão a tornar-se mais eficientes. Os modelos chineses usam muito mais tokens para refletir sobre suas respostas. Um estudo atualizado este mês por Du Zheng e colegas da Georgia Tech mostra que, dada a mesma tarefa, um modelo DeepSeq usou 23 vezes mais tokens do que seu rival OpenAI para alcançar essencialmente o mesmo resultado. Devido a essas grandes diferenças de desempenho, a maneira correta de comparar modelos não é o custo por token, mas o custo total de todos os tokens utilizados. Usando essa métrica, em um benchmark projetado para testar engenharia de software, o glm 5.2 superou os sistemas concorrentes da Anthropic e OpenAI.
Além da capacidade e do custo, um terceiro ponto de venda agora é uma prioridade para os usuários de IA: a confiabilidade. A Zhipu lançou seu modelo às 17h21, horário de Pequim, em 13 de junho, um dia depois que a administração Trump disse à Anthropic que estava proibindo não-americanos de usar o Fable 5. “Nossa atitude é muito aberta”, declarou o Sr. Ele também criticou as “paralisações externas”, como as impostas pela Anthropic e pelo governo dos EUA, dizendo que elas tornavam os sistemas de IA “sujeitos a cancelamento a qualquer momento”.
A maioria dos modelos chineses são lançados em código aberto, o que significa que podem ser baixados e executados em hardware local, fora do alcance dos governos ou dos próprios laboratórios. O governo dos EUA poderá um dia impor limites ao uso doméstico da IA chinesa. Dois comitês do Congresso estão atualmente investigando empresas de tecnologia dos EUA por usarem modelos chineses. Os laboratórios da China enfrentam outros limites à sua fiabilidade: a falta de capacidade computacional significa que frequentemente sofrem interrupções de serviço ou ficam lentos durante períodos de tráfego intenso.
À medida que a corrida pela IA acelera, no entanto, os reguladores em todo o mundo enfrentarão novos desafios em matéria de segurança e proteção. O risco de uma intervenção governamental repentina poderá aumentar em ambos os lados do Oceano Pacífico. O lendário 5 foi poderoso o suficiente para provocar tal reação na Casa Branca. Estes modelos chineses não estão, actualmente, sujeitos ao mesmo risco regulamentar, o governo chinês ainda não é suficientemente arriscado para agir. Esta é talvez uma evidência clara de que eles estão atrasados em relação aos seus oponentes.