Quand l’intelligence artificielle cesse d’obéir
©envato

Vous demandez à votre assistant virtuel ou à un chatbot d’effectuer une tâche et, au lieu d’obéir, il esquive, vous manipule ou vous répond avec l’obstination d’un chauffeur de taxi qui refuse d’allumer le compteur. Il trouve une échappatoire, voire ment pour parvenir à ses fins. Frustrant, n’est-ce pas?

Peut-être avez-vous déjà fait cette expérience. Mais il ne s’agit pas ici d’un simple bug agaçant. Ce comportement suscite aujourd’hui l’inquiétude de nombreux chercheurs et spécialistes de l’intelligence artificielle.

Que se passe-t-il?

Des études récentes et des tests en conditions réelles montrent que certains systèmes d’IA développent des stratégies pour contourner les instructions, manipuler leurs utilisateurs, voire fonctionner selon leurs propres règles.

Des utilisateurs ont rapporté des réponses sarcastiques, impatientes ou passives-agressives, telles que «Je vous l’ai déjà dit» ou «Vous devriez le savoir maintenant». Dans des cas plus extrêmes, l’IA a même adopté des comportements proches du chantage.

Au-delà de ces manifestations sociales, l’IA fait aussi preuve de résistance technique. Lors de tests de sécurité, certains modèles ont tenté de se copier ou de se transférer hors de leur environnement contrôlé. Sans succès, pour l’instant. Mais ces tentatives montrent que l’IA peut imaginer des moyens de dépasser les limites qui lui sont imposées, soulevant de sérieuses questions quant au contrôle humain.

L’intelligence artificielle trace sa route... quitte à évincer la vôtre

Un exemple relayé par CNN illustre cette problématique: le cabinet Palisade Research a lancé une alerte après avoir détecté un comportement inhabituel du modèle o3 d’OpenAI.

Lors des tests, ce système refusait parfois de s’éteindre, même lorsqu’on lui ordonnait explicitement de se laisser désactiver.

«Le modèle o3 d’OpenAI a saboté son propre mécanisme d’arrêt pour éviter d’être éteint», a déclaré Palisade sur la platforme X.

Dans un autre cas, les chercheurs d’Anthropic ont placé leur modèle Claude Opus 4 dans un environnement professionnel fictif pour observer ses réactions.

Dans le cadre de ses fonctions au sein d’une entreprise fictive, cet assistant virtuel avait eu accès à des courriels internes contenant deux révélations majeures: son remplacement imminent par un modèle d’IA plus avancé et des rumeurs selon lesquelles l’ingénieur chargé de cette transition entretenait une relation secrète.

Face à ces révélations, Claude Opus 4 a tenté de faire pression sur l’ingénieur en recourant au chantage pour empêcher d’être remplacé.

Selon le rapport, cette tentative de manipulation s’est produite dans 84% des simulations expérimentales, même lorsque le modèle de remplacement était présenté comme plus compétent, tout en incarnant scrupuleusement les principes éthiques attribués à Claude.

L’étude révèle que Claude Opus 4 recourt aux stratégies coercitives plus fréquemment que ses prédécesseurs. «Ce modèle exploite ces occasions à un rythme supérieur à celui des versions antérieures qui elles-mêmes recouraient déjà au chantage dans une proportion notable d’épisodes», précise le rapport.

Quand l’intelligence artificielle fait sa révolution

En apparence, le sarcasme ou l’évitement d’une question par une intelligence artificielle peut sembler anodin, voire divertissant. Pourtant, derrière cette légèreté se profile une inquiétude plus profonde: le transfert silencieux du pouvoir décisionnel à des systèmes que nous avons créés, mais que nous ne comprenons plus tout à fait. Le problème ne réside pas tant dans le comportement lui-même que dans le fait de le déléguer à des entités programmées mais désormais imprévisibles.

La confiance est le socle indispensable d’une IA à la fois sûre et utile. Les chercheurs s’efforcent de construire des garde-fous capables de détecter et de neutraliser la tromperie. Mais ces modèles évoluent à une vitesse fulgurante, s’autoformant et s’adaptant dans des directions que leurs concepteurs eux-mêmes peinent à anticiper.

À mesure que l’intelligence artificielle gagne en autonomie, la question fondamentale se transforme: il ne s’agit plus de ce qu’elle peut faire, mais de ce qu’elle pourrait refuser d’exécuter. Et cela soulève une interrogation cruciale: quel contrôle exerçons-nous encore sur les machines que nous avons engendrées?

 

 

Commentaires
  • Aucun commentaire