Microsoft teste 52 scénarios pro sur les agents IA, les résultats sont accablants

L'essentiel de l'article

⏱️ Lecture : ~30 secondes

Pas le temps de lire l'article ? Voici ce qu'il faut retenir.

Microsoft teste 52 scénarios professionnels sur les agents IA, révélant des résultats accablants.

Benchmark DELEGATE-52 — Les chercheurs ont construit 310 environnements de travail couvrant 52 domaines professionnels, avec cinq à dix tâches d'édition complexes.

Modèles IA — Les modèles les plus performants corrompent en moyenne 25 % du contenu du document après vingt interactions.

Performances — La performance d'un modèle après deux interactions ne prédit pas son comportement après vingt interactions.

💡

Pourquoi c'est important : Les résultats de Microsoft soulignent les limites des agents IA dans les tâches de travail complexes et répétitives, mettant en question leur capacité à maintenir la précision et la fiabilité.

Lire sur Clubic