O discurso de ódio que antes circulava de forma privada agora viaja mais longe e mais rápido através de contas on-line anônimas atrás de uma tela.
No momento em que as Nações Unidas assinalam o Dia Internacional de Combate ao Discurso de Ódio, em 18 de junho, o Secretário-Geral da ONU, António Guterres, alertou que as plataformas sociais estão a amplificar a ameaça.
Com a inteligência artificial (IA) cada vez mais encarregada de detectar e remover discursos de ódio online, a Al Jazeera analisa onde estes sistemas ficam aquém das classificações humanas.
Como é definido o discurso de ódio?
Segundo a ONU, o discurso de ódio inclui qualquer comunicação – verbal, escrita ou comportamental – que discrimine ou incite à violência contra uma pessoa ou grupo.
A ONU afirma que o discurso de ódio tem como alvo a identidade, raça, etnia, religião, género, orientação sexual ou deficiência, reais ou percebidas, de uma pessoa. E não se limita às palavras, com a ONU afirmando que também pode ser na forma de imagens, desenhos animados, gestos e até objetos.
Quantas pessoas encontram discurso de ódio online?
De acordo com uma pesquisa conjunta de 2023 com 8.000 pessoas em 16 países, realizada pela empresa de pesquisas Ipsos e pela Organização das Nações Unidas para a Educação, a Ciência e a Cultura (UNESCO), mais de dois terços dos usuários da Internet encontraram discurso de ódio online.
A pesquisa também descobriu que 33 por cento das pessoas pensam que as pessoas LGBTQI são as que sofrem o maior número de casos de discurso de ódio, seguidas pelas minorias étnicas e raciais (28 por cento) e pelas mulheres (18 por cento).
A Meta, dona do Facebook, removeu menos postagens de ódio desde 2023. No último trimestre de 2025, a empresa removeu 1,3 milhão de postagens do Instagram e 1,3 milhão do Facebook, em comparação com 7,4 milhões removidas do Instagram e 5,8 milhões do Facebook no quarto trimestre de 2024.
Isso ocorre no momento em que a empresa se afasta da detecção proativa de discurso de ódio e depende mais dos usuários para relatar encontros.
Em vez disso, o TikTok disse que removeu 96,3% de todo o discurso e conteúdo de ódio no quarto trimestre de 2025, antes de ser denunciado.
Modelos de IA detectam discurso de ódio de maneira diferente
Para detectar e combater a propagação do discurso de ódio online, as empresas de redes sociais recorrem cada vez mais à IA, utilizando sistemas de moderação de conteúdos alimentados por grandes modelos de linguagem (LLMs) que prometem automatizar a filtragem de conteúdos em grandes volumes de mensagens.
Em geral, estes sistemas utilizam conjuntos de dados rotulados e modelos de linguagem que foram treinados para detectar linguagem abusiva. Eles então usam regras ou pontuações limite para decidir se o conteúdo é de ódio ou viola a política da empresa.
Um estudo de 2025 realizado por investigadores da Universidade da Pensilvânia descobriu que estes modelos diferem amplamente na forma como identificam e classificam o discurso de ódio, com inconsistências significativas entre sistemas e grupos demográficos, levantando preocupações sobre preconceitos e proteção desigual online.
O estudo avaliou sete sistemas de moderação de IA – incluindo modelos da OpenAI, Anthropic, DeepSeek, Mistral e Google – e encontrou diferenças importantes na forma como identificam e classificam o discurso de ódio em todas as categorias.
Este gráfico mostra como diferentes sistemas de moderação de IA avaliam a gravidade do discurso de ódio direcionado ao mesmo grupo em uma escala de 0–1. Valores mais altos indicam que o modelo classifica o conteúdo como mais odioso.
O ponto final de moderação de Mistral frequentemente se agrupava muito próximo de 1, o que significa que rotulou muitos exemplos como altamente odiosos, independentemente do grupo-alvo.
O OpenAI Moderation Endpoint tende a produzir pontuações significativamente mais baixas para muitas categorias, às vezes menos da metade das pontuações dadas por outros modelos.
Como afirmam os autores do estudo, “se dois sistemas produzem resultados diferentes para o mesmo conteúdo – sinalizando-o como discurso de ódio num caso, mas não no outro – isso prejudica a validade do processo de moderação”.
IA odeia limites de detecção de fala
Embora os sistemas de IA possam detectar discurso de ódio explícito – por exemplo, quando palavrões e calúnias são usados contra determinados grupos – exemplos mais matizados são ignorados pelo LLM.
“Um exemplo desafiador é o caso do discurso de ódio implícito, que muitas vezes passa despercebido como tal porque não contém calúnias”, disse Arkaitz Zubiaga, professor associado da Universidade Queen Mary de Londres e co-diretor do laboratório de Ciência de Dados Sociais da universidade, à Al Jazeera. “Este pode ser o caso de uma mensagem positiva como “Gostaria de ver quão grande seria o mundo se…” seguida de uma mensagem depreciativa que menospreza um grupo demográfico. Os sistemas de IA podem ter dificuldade em ver o ódio na mensagem se se concentrarem no lado positivo da mensagem.”
Zubiaga acrescentou que o inverso também é verdadeiro, onde palavras aparentemente ofensivas, agora incorporadas na linguagem para fins mais apelativos, são destacadas como discurso de ódio.
“Este é um caso de linguagem recuperada, onde uma palavra-chave que foi historicamente considerada um insulto é aceita e reutilizada por uma comunidade que foi inicialmente usada para menosprezar, e o insulto é então usado entre membros de comunidades marginalizadas”, disse ele. “Embora este caso não deva ser sinalizado como odioso, os sistemas de IA tendem a fazê-lo.”




