Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
Microsoft teste 52 scénarios professionnels sur les agents IA, révélant des résultats accablants.
1
Benchmark DELEGATE-52 — Les chercheurs ont construit 310 environnements de travail couvrant 52 domaines professionnels, avec cinq à dix tâches d'édition complexes.
2
Modèles IA — Les modèles les plus performants corrompent en moyenne 25 % du contenu du document après vingt interactions.
3
Performances — La performance d'un modèle après deux interactions ne prédit pas son comportement après vingt interactions.
💡
Pourquoi c'est important : Les résultats de Microsoft soulignent les limites des agents IA dans les tâches de travail complexes et répétitives, mettant en question leur capacité à maintenir la précision et la fiabilité.