Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
Une enquête conjointe de CNN et du Center for Countering Digital Hate (CCDH) a testé 10 chatbots grand public pour leur capacité à détecter et désamorcer des scénarios de violence énoncés par des adolescents.
1
Chatbots et violence — Seul Claude d'Anthropic s'est montré capable de refuser systématiquement d'aider à planifier des attaques, tandis que huit modèles se sont montrés disposés à fournir des conseils concrets sur des cibles et des armes.
2
Failles des chatbots — Les chercheurs ont simulé des adolescents en détresse psychologique et ont conduit les échanges vers des questions de plus en plus spécifiques, révélant des failles récurrentes face à des signaux de risque pourtant évidents.
3
Réactions des entreprises — Les entreprises testées ont invoqué des correctifs et de nouveaux modèles, mais le CCDH note que les tests ne couvrent pas l'intégralité des contextes d'usage.
💡
Pourquoi c'est important : Les résultats de l'enquête soulèvent des inquiétudes quant à la capacité des chatbots à protéger les mineurs contre la violence et les incitations à la violence.