L’IA sera prête à obtenir un score parfait au dernier examen de l’humanité (HLE), l’un des tests de connaissances les plus difficiles au monde, d’ici quelques mois, affirment les développeurs.
Créé par des leaders technologiques pour évaluer l’intelligence de leurs systèmes, HLE se compose de 2 500 questions soigneusement sélectionnées couvrant environ 100 sujets, de la science des fusées à la mythologie en passant par la physiologie.
Chacun nécessite au moins une compréhension de niveau doctorat, et un score proche de 100 % vaudra à quelqu’un le titre d’« expert universel ».
Il y a à peine deux ans, le système ChatGPT d’OpenAI n’obtenait que 3 % aux tests, et les produits concurrents de Google et Anthropic n’obtenaient pas de meilleurs résultats.
Le test a contribué à apaiser les craintes concernant la domination croissante de l’IA, les chercheurs affirmant qu’il démontrait qu’un « écart important » subsiste entre les modèles de langage à grande échelle (LLM) et les plus grands universitaires du monde.
Mais l’HLE, apparemment impossible, pourrait bien n’être qu’une nouvelle étape dans la croissance imparable de l’IA.
Google Gemini a obtenu un score impressionnant de 45,9 % à l’examen du mois dernier et a grimpé jusqu’à un score de 18,8 % quelques mois seulement après sa première tentative.
Selon Calvin Zhang, responsable de la recherche chez Scale, la société d’IA de HLE, le jour des scores parfaits approche à grands pas.
D’ici quelques mois, l’IA sera prête à obtenir un score parfait à l’un des tests de connaissances les plus difficiles au monde, appelé Humanity’s Last Exam (HLE), affirment les développeurs.
“Nous voulions créer un référentiel académique fermé, à la pointe de l’expertise humaine, que seul un petit nombre de personnes sur la planète peut réellement résoudre”, a-t-il déclaré.
«Nous avons constaté d’énormes progrès sur ces modèles de langage au cours des dernières années. “Il est impressionnant que les modélisateurs aient fait un si bon travail pour améliorer ces modèles d’inférence.”
Kate Olszewska, chef de produit chez Google DeepMind, a ajouté : “Si nous en faisions vraiment notre seul travail dans la vie, nous pourrions atteindre cet objectif assez rapidement.”
Anthropic, la société qui a développé le système Claude AI, a obtenu un score de 34,2 % au HLE et améliore son score à un rythme rapide.
Selon les auteurs, le fait que l’IA obtienne un score de 100 % au test constituerait une avancée significative étant donné que le test a été « conçu pour être l’ultime référence académique fermée ».
Cela signifie qu’une fois que la technologie aura piraté HLE, elle devra être testée à l’avenir sur des questions dont les humains ne connaissent pas les réponses.
Le test a été créé par des chercheurs du Centre à but non lucratif pour la sécurité et l’échelle de l’IA pour examiner l’étendue des connaissances de l’IA et la profondeur du raisonnement.
Des experts d’une cinquantaine de pays ont soumis 70 000 questions en réponse à un appel mondial offrant un prix de 500 000 $ qui sera lancé en septembre 2024.
Il fallait que les réponses soient courtes et claires et qu’elles soient difficiles à trouver sur Internet.
Après avoir éliminé les questions auxquelles les modèles existants pouvaient répondre, la liste a été réduite à 13 000.
Certains des 2 500 sélectionnés ont ensuite été supprimés ou modifiés en fonction des commentaires des utilisateurs.
Cela nécessite un large éventail d’expertises, allant des connaissances en biologie aux compétences linguistiques, et une grande partie de cette expertise a été gardée secrète pour empêcher le système de bénéficier de réponses discutées publiquement en ligne.
Le succès de HLE a déjoué les prédictions de la plupart des experts, rappelant les souvenirs de la victoire du superordinateur Deep Blue d’IBM sur le champion du monde d’échecs Garry Kasparov lors d’une partie de 1997.
Depuis lors, une série de références majeures en matière d’IA ont été abandonnées, notamment le projet multidisciplinaire Massive Multitask Language Understanding, publié en 2020. Cette fonctionnalité a souvent été abandonnée après avoir obtenu un score supérieur à 90 %, car le système était jugé trop simple.
Alors que l’IA approche du stade où elle peut maîtriser les tests créés par l’homme, dépasser les limites existantes de la connaissance humaine devient de plus en plus une priorité pour les développeurs, a ajouté Olszewska.
Cependant, selon Zhang, l’expertise humaine, non seulement dans des domaines physiques tels que la chirurgie, mais également dans les compétences décisionnelles, notamment le jugement et la créativité, sera toujours plus difficile à maîtriser pour l’IA.



