Ces LLM made in Italy se font humilier au test de langue – vous n’allez pas croire les résultats !

Octave

il y a 1 an

Quand les LLM « made in Italy » peinent face au benchmark Italic

Un récent test baptisé Italic a livré un verdict sans appel : les modèles linguistiques développés en Italie se classent en queue de peloton dès qu’il s’agit de répondre à un ensemble de 10 000 questions à choix multiples couvrant la langue et la culture italienne. Alors que les géants étrangers comme Claude 3.5 Sonnet trustent les premières places, leurs concurrents locaux semblent souffrir d’un déficit de ressources et de technique. Mais qu’est-ce qu’Italic, et pourquoi ces résultats sont-ils si révélateurs pour l’écosystème LLM italien ?

Italic : un benchmark exhaustif en 12 domaines

Conçu par le réseau de recherche Crisp, Italic s’appuie sur un jeu de données unique :

Plus de 10 000 questions tirées des tests publics d’admission aux forces armées et corps de sécurité (Carabinieri, Polizia, Vigili del Fuoco, Marina, Garde financière, etc.).
Douze domaines évalués : arts, éducation civique, géographie, histoire, littérature, voyages pour la culture générale ; lexique, morphologie, orthographe, syntaxe et capacité de synthèse pour la langue.
Approche rigoureuse : chaque question multiple choice est posée directement aux LLM, et les réponses évaluées sur la base du barème officiel.

Cette méthodologie offre un panorama complet des compétences linguistiques et culturelles, bien au-delà d’un simple test de vocabulaire.

Classement et commentaires des développeurs

Sans surprise, Claude 3.5 Sonnet domine la compétition, démontrant sa maîtrise du contexte italien malgré son origine étrangère. En revanche, les « vrais » LLM italiens ferment la marche. Face à ces résultats, les auteurs des modèles locaux expriment des réactions variées :

Michele Montebovi (Llama 3.1 Italiano) souligne la nécessité de comparer « des modèles de même taille », car les différences de paramètres biaisent forcément le classement.
Uljan Sharka (Modello Italia) dénonce une « distorsion de la réalité » : « Ces LLM n’ont pas été conçus pour répondre à des QCM, mais pour générer du texte en langage naturel ».
Roberto Navigli (Minerva) rappelle que « certains LLM ne sont pas entraînés pour les réponses à choix multiples, ce qui n’enlève rien à leur compréhension plus profonde du texte ».

Lire Comment l'Italie Révolutionne la Vérification de l'Âge en Ligne : Découvrez le Système qui Change Tout !

Ces observations invitent à nuancer le verdict d’Italic et à considérer d’autres formes d’évaluation, notamment en libre expression.

Portraits de cinq LLM italiens en lice

LLaMAntino 3 – Le fine-tuning hospitalier

Développé par le groupe Swap de l’Université de Bari, LLaMAntino 3 repose sur un fine-tuning de Llama 2 et 3 exporté sur le supercalculateur Leonardo. À seulement 7 milliards de paramètres, il vise :

Une spécialisation sur des tâches ciblées, avec un coût énergétique réduit.
Une installation possible en local, garantissant la confidentialité des données.
Un calibrage fin pour l’italien, tout en tirant partie de corpus open source.

Llama 3.1 8B Italiano – Le projet solo de Montebovi

Conçu par un chercheur indépendant, ce modèle de 8 milliards de paramètres se concentre sur une langue italienne précise :

Fine-tuning au départ d’un modèle open source de Meta.
Optimisation pour fournir des réponses contextuelles, pas seulement factuelles.
Expérimentations en cours sur un modèle entraîné from scratch pour tracer la meilleure stratégie.

Maestrale – La tempête open source

Né début 2024 sans financements externes, Maestrale (7 milliards de paramètres) est un dérivé de Mistral ajusté sur un jeu de données multilingue centré sur l’italien :

Mix de corpus multilingues et italiens, pour un équilibre entre richesse et qualité.
Processus collaboratif entre deux fondateurs, qui partagent open source et documentation.

Modello Italia – L’ambition industrielle d’iGenius

Lancé en juin 2024, Modello Italia a bénéficié d’un entraînement sur les supercalculateurs de Cineca et d’une base de données 100 % italienne :

Plus d’un trillion de tokens, dont une large part contextualisée pour l’Italie.
Intégrations prévues avec l’AI Act et la plateforme Hugging Face.
Positionnement sur les agents IA, pour dépasser le simple modèle et créer des assistants autonomes.

Lire 10 gadgets incroyables pour rendre votre jardin totalement autonome (le n°7 va vous bluffer)

Minerva – La sagesse académique

Fruit de l’Université La Sapienza à Rome, Minerva évolue sous la direction de Roberto Navigli :

Veille scientifique et observatoire LLM dédié à l’italien.
Projets à venir : lecture de livres entiers, modèles multimodaux et plus durables énergétiquement.
Appel à une meilleure mutualisation des données nationales pour nourrir les futurs entraînements.

Quelle route pour un LLM 100 % italien ?

Si Italic souligne un retard des LLM « natifs », les acteurs locaux rappellent l’importance de :

Disposer de données de haute qualité, souvent plus accessibles aux géants anglo-saxons.
Favoriser la diversité des approches, plutôt que la course à la puissance brute.
Collaborer via projets publics-privés pour rassembler corpus et expertises.

À l’heure où l’Union européenne planche également sur OpenEuroLLM, le défi reste d’allier rapidité d’exécution et qualité scientifique. Car l’excellence linguistique ne se décrète pas : elle se construit, qu’il s’agisse de bits ou de belle langue italienne.