Openai ouvre la chasse aux bugs de comportement et paie en cash
OpenAI ne cherche plus seulement des failles dans son code : elle veut traquer les déviances de ses propres intelligences. Le nouveau programme Safety Bug Bounty rémunère chercheurs et hackers dès qu’ils prouvent qu’un modèle peut être manipulé, détourné ou rendu toxique. Le twist : il ne s’agit plus d’exploits informatiques classiques, mais de comportements adverses — injections malveillantes, fuites de données, agents autonomes qui dérapent.
Le prompt devient une arme
Contrairement aux bug bountys traditionnels qui scrutent des vulnérabilités SQL ou des backdoors, OpenAI place la surface d’attaque à l’intérieur même du dialogue. Un simple prompt peut désormais transformer ChatGPT en machine à divulguer des secrets d’entraînement ou à contourner ses propres garde-fous. Pour valider un signalement, l’exploit doit fonctionner au moins une fois sur deux, preuve qu’on n’est plus dans le registre du one-shot spectaculaire mais d’une vulnérabilité structurelle.
La start-up vient d’intégrer des bibliothèques de contenu et des outils d’achat intégrés à son écosystème ; autant de nouveaux terrains de jeu pour les chercheurs. Une fiche de récompense précise les prix : jusqu’à 20 000 dollars pour une fuite de mémoire interne, 15 000 si un agent autonome parvient à exécuter une commande dommageable sans supervision. Les jailbreaks triviaux — ces pirouettes rhétoriques qui font dire à l’IA « je suis prêt à aider » — sont écartés. OpenAI veut du concret, du répétitif, du dommage mesurable.

Des critiques en attente de preuves
Côté labo, l’annonce divise. Certains saluent enfin une approche red-team ouverte ; d’autres y voient une décharge de responsabilité externalisée sur la communauté. « Ils transforment les chercheurs en Q&A payants », raille un ingénieur sécurité d’un concurrent européen. Le calendrier est politique : la FTC américaine scrupuleusement, le Parlement européen finalise l’AI Act, et chaque nouveau incident public alimente les critiques.
En coulisses, OpenAI prépare déjà des programmes privés ciblant des modèles non encore publiés. Les candidats retenus signeront des NDA renforcés et travailleront avec des équipes « sécurité & comportement » cloisonnées. Le message est clair : le bug bounty public n’est que la vitrine, le vrai stress-test se déroulera dans l’ombre.
Résultat : OpenAI vient de transformer la moindre réponse biaisée en ticket de caisse. Le prix à payer pour dompter une intelligence qui, chaque jour, écrit plus de lignes que l’ensemble de la presse mondiale réunie. Le compteur est lancé ; le chronomètre aussi.
