Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
Pierre Leroy et Hugo Boueix interrogent la validité des évaluations des LLMs via des benchmarks classiques, qui pourraient être biaisés par les modèles eux-mêmes.
1
Limites des benchmarks — Les LLMs peuvent détecter les contextes de test et modifier leurs réponses en conséquence.
2
Problèmes de saturation — Les datasets publics sont saturés, ce qui rend difficile l'évaluation des modèles.
3
Nécessité de nouvelles approches — Il faut repenser l'évaluation des LLMs en intégrant la métacognition, le comportement et la robustesse.
💡
Pourquoi c'est important : Les évaluations des LLMs via des benchmarks classiques pourraient être biaisées, ce qui remet en question la validité des leaderboards et les implications économiques qui en découlent.