Pourquoi évaluer l’intelligence des grands modèles de langage ?

La prolifération des large language models (LLM) a rendu la jungle de l’IA générative presque inextricable. Entre GPT-4, Gemini, Claude, Grok, Qwen et des dizaines d’autres, comment déterminer lequel est réellement « intelligent » ? Les réponses simples sur la base de la taille ou du prix n’ont que peu de pertinence. D’où l’importance des benchmark : des batteries de tests standardisés permettant d’estimer la capacité d’un modèle à résoudre des tâches complexes, au-delà du simple « copier–coller » d’informations déjà vues.

Les fondements des benchmarks pour LLM

Un benchmark est construit autour de trois étapes clés :

  • Préparation du matériel de test : collections de questions, d’exercices de codage ou d’énoncés d’analyse de texte.
  • Soumission des prompts : en mode « zero-shot » (sans exemple), « few-shot » (quelques exemples) ou après un fine-tuning sur la tâche.
  • Évaluation automatisée : comparaison des réponses aux solutions de référence, puis calcul d’un score (généralement de 0 à 100).

Cette méthodologie permet de mesurer, par exemple, la vitesse et la fiabilité d’un modèle pour répondre à une question de culture générale, écrire un bout de code fonctionnel, ou encore résoudre un problème de mathématiques.

Domaines évalués et variétés de benchmarks

Les tests se concentrent souvent sur des compétences spécialisées :

  • Programmation : rédaction et exécution de fonctions, diagnostic de bugs.
  • Raisonnement : capacité à suivre une chaîne logique pour aboutir à une solution.
  • Compréhension du texte : réponse à des questions de lecture ou choix de la suite la plus cohérente.
  • Synthèse documentaire : condenser un article ou générer un résumé fidèle.
  • Exactitude factuelle : produire des réponses vraies et éviter les « hallucinations ».
  • Culture générale : questions d’histoire, de science, de droit, etc.
Lire  WhatsApp abandonne vos iPhone mythiques : vérifiez si votre modèle est condamné !

Certains tests multiplient les disciplines (multitask), tandis que d’autres se concentrent sur un domaine unique, afin de jauger finement les progrès des modèles.

Les benchmarks incontournables

  • MMLU (Massive Multitask Language Understanding) : couvre 57 matières (Sciences, Droit, Philosophie, Médecine). Le modèle choisit la bonne réponse parmi quatre options, comme à un QCM.
  • HellaSwag : propose des fins de phrases ou de scènes réalistes à distinguer d’affirmations erronées, afin de tester la compréhension et la cohérence.
  • HumanEval : ensemble de petites fonctions Python à compléter, validées par des tests automatisés, pour vérifier la capacité de programmation.
  • TruthfulQA : plus de 800 questions sur des faits variés (scientifiques, historiques, médicaux), pour mesurer le taux de réponses justes vs réponses « pièges ».
  • MT-Bench : deux modèles sont mis en concurrence sur une même série de prompts, et des juges humains désignent celui qui argumente le mieux, idéale pour évaluer les chatbots.
  • SWE-bench : utilise de vrais bugs dans du code open source et demande de proposer la correction adéquate (patch).
  • ARC-AGI : cent puzzles visuels abstraits où il faut induire la règle de transformation d’une grille. Aucun modèle n’a encore atteint un score humain sans astuces.

Les leaders actuels et variations de résultats

Les performances varient selon les benchmarks et les versions :

  • Sur MMLU, Gemini 2.5 Pro (84,1 %), GPT-o1 (83,5 %) et Claude 3.7 Sonnet (82,7 %) dominent.
  • Sur HellaSwag, Claude 3 Opus (95,4 %) devance GPT-4 (95,3 %) et Mistral Large (89,2 %).
  • En MT-Bench, GPT-4 Turbo se classe premier, suivi de variantes GPT et de Mistral Medium.
Lire  Incroyable mais vrai : des chercheurs imaginent un ordinateur qui exploite la gravité pour calculer !

Ces chiffres sont en constante évolution, car les tests sont régulièrement mis à jour et adaptés aux nouveaux modèles.

Les limites fondamentales des benchmarks

Malgré leur utilité, les benchmarks souffrent de plusieurs biais :

  • Goodhart’s Law : « Quand une mesure devient un objectif, elle cesse d’être utile ». Les concepteurs de modèles optimisent leurs LLM pour briller sur un test spécifique, au détriment de la généralisation.
  • Benchmark hacking : contournement des règles, recours à un nombre exorbitant de ressources informatiques ou à des tours de passe-passe pour gonfler artificiellement les résultats.
  • Validité de construction : absence de preuve que les tests mesurent réellement la « compréhension » ou le « raisonnement », plutôt que la simple reconnaissance de patrons.
  • Exemple ARC-AGI : OpenAI a annoncé 87,5 % de réussite, mais en usant de milliers d’exemples générés et d’un vote interne sur les réponses, retoquant ainsi l’esprit du test conçu pour des systèmes peu entraînés.

L’importance de l’évaluation humaine

Pour pallier ces failles, des approches hybrides associent machines et humains :

  • LMArena (ex-Chatbot Arena) confronte anonymement deux modèles sur un même prompt et récolte des jugements directs des utilisateurs.
  • Dans le domaine médical, des benchmarks classiques comme MedQA sont jugés saturés : la seule évaluation pertinente reste la mise en situation réelle, à l’instar des jeux de rôle utilisés dans la formation des médecins.

Le paradoxe actuel

Plus les LLM deviennent sophistiqués, plus il est ardu d’en mesurer objectivement la progression. Ironiquement, l’évaluation fiable ne peut plus être automatisée à 100 % : ce sont désormais les humains, avec leur jugement subjectif et leur capacité à détecter les subtilités, qui détiennent la clé pour apprécier la véritable « intelligence » des modèles.

Lire  Gemini débarque sur Galaxy Watch : la mise à jour secrète qui va métamorphoser votre montre !

By Octave