Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
Les chercheurs de l'USC Marshall School of Business et de la UC Berkeley Haas School of Business ont découvert que GPT-4o, ChatGPT et GPT-o3 affichent une confiance excessive sur les tâches difficiles où ils se trompent le plus.
1
Effet hard-easy — Le signal de confiance produit par les modèles est le moins fiable sur les tâches difficiles.
2
Benchmark LifeEval — Le score maximum atteignable moyen sur l'ensemble du jeu est de 56,80 %.
3
Surconfiance — La surconfiance est la plus forte sur les tests difficiles, tandis que les tests faciles donnent lieu à une sous-confiance substantielle.
💡
Pourquoi c'est important : Cette découverte soulève des inquiétudes sur la supervision humaine prévue à l'article 14(4)(b) de l'AI Act, car le signal de confiance produit par les modèles est le moins fiable là où le superviseur en aurait le plus besoin.