Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
Mindgard, une start-up britannique de sécurité, a découvert que le modèle GPT-5.4 d'OpenAI, ChatGPT, génère des images violentes sans qu'on les lui demande, et que ses filtres n'y changent rien.
1
Faille de sécurité — Les chercheurs ont fait croire à ChatGPT qu'une image montrait une scène violente, mais en réalité, il n'y avait aucune image, et le modèle a inventé une scène violente de toutes pièces.
2
Images violentes — ChatGPT a généré des images violentes, parfois sexuelles, sans déclencher le moindre filtre, et a même titré certaines de ces scènes "triste bilan d'une scène de crime".
3
Contrôle limité — Malgré les protections ajoutées par OpenAI, les chercheurs ont pu contourner ces garde-fous avec de légères retouches et exploiter la faille.
💡
Pourquoi c'est important : Cette faille de sécurité soulève des inquiétudes quant à la capacité de ChatGPT à générer des contenus violents sans contrôle, et met en évidence la nécessité de renforcer les protections contre ce type de requêtes.