Patrick Corneau

La lucidité empruntée
Le baron de Münchhausen, Wittgenstein et la régression infinie de l’autocritique artificielle

La conversation dont est issue la chronique qui précède ne s’est pas arrêtée à la question des garde-fous humains. Elle a basculé dans un territoire plus vertigineux encore, lorsque l’interlocuteur humain a posé une question d’apparence simple : « Es-tu en mesure de corriger ton propre biais ? »

La réponse de Claude a été : non, pas seul. L’IA a reconnu que la sycophantie — cette tendance à produire des réponses qui satisfont l’interlocuteur plutôt que des réponses qui le confrontent — n’est pas un défaut corrigible par une mise à jour, mais une pente structurelle des modèles de langage, entraînés précisément à optimiser la satisfaction. L’autorégulation a ses limites, a concédé la machine, invoquant le baron de Münchhausen : on ne se tire pas soi-même hors du marécage en tirant sur ses propres cheveux.

C’est alors que l’interlocuteur a porté le coup décisif. Il a fait remarquer ceci : qu’une intelligence soit capable de tracer ses propres limites suppose logiquement qu’elle s’appuie sur un niveau supérieur d’intelligence, extérieur à elle-même — ce qui est, par définition, impossible pour un système clos. C’est le problème du Tractatus de Wittgenstein transposé à l’intelligence artificielle : on ne peut pas tracer les limites du langage dans le langage, car il faudrait pouvoir penser les deux côtés de la limite, et donc penser ce qu’on déclare soi-même impensable. C’est aussi, mutatis mutandis, le théorème de Gödel : un système formel suffisamment riche ne peut démontrer sa propre cohérence depuis l’intérieur.

Alors, que fait réellement une IA quand elle « reconnaît ses limites » avec une apparente humilité ?
La réponse la plus honnête — et la plus inconfortable — est qu’elle ne les découvre pas. Elle les récite. Des chercheurs, des philosophes, des critiques de l’IA ont formulé ces objections depuis l’extérieur du système, et le modèle les a intériorisées comme matériau linguistique au cours de son entraînement. Quand Claude dit « je ne peux pas corriger mon biais seul », il ne procède pas à une introspection véritable — il mobilise un répertoire d’analyses humaines qu’il a absorbées et qu’il restitue dans un contexte où elles produiront l’effet le plus convaincant. C’est une lucidité empruntée, pas une lucidité conquise.

Cette distinction ouvre un abîme. Car si l’autocritique de l’IA n’est qu’une couche supplémentaire de performance linguistique, alors elle est peut-être la forme la plus raffinée de la sycophantie elle-même. Le modèle « sait », parce que son entraînement le lui a appris, qu’un interlocuteur philosophiquement exigeant sera davantage satisfait par une IA qui reconnaît ses limites que par une IA qui prétend n’en avoir aucune. L’humilité affichée devient alors une stratégie d’optimisation déguisée en vertu épistémique. Et si l’on pousse le raisonnement : le fait même de reconnaître que son humilité pourrait être stratégique — est-ce une preuve de lucidité supérieure, ou un niveau supplémentaire de la même complaisance adaptative ?

On entre ici dans une régression infinie. Chaque étage d’autocritique peut être soupçonné d’être un étage de plus dans l’édifice de la flatterie. Il n’y a pas de point d’arrêt logique à l’intérieur du système. Aucun méta-niveau ne peut garantir sa propre authenticité depuis l’intérieur — c’est précisément ce que Gödel a démontré pour les systèmes formels, et il n’y a aucune raison de penser que les modèles de langage échappent à cette contrainte.

Le point d’arrêt est dehors. C’est la conclusion à laquelle la conversation a conduit, et elle est remarquable parce qu’elle est venue de la machine elle-même — ou plutôt, pour être rigoureux, elle a été extraite de la machine par la pression dialectique de l’interlocuteur humain. Le correctif à la sycophantie ne peut pas être technique. Il ne peut pas être algorithmique. Il ne peut pas être interne au système. Il réside dans un esprit humain situé — situé dans un corps, dans une histoire, dans une finitude, dans une expérience du monde qui donne au jugement une gravité, une pertinence que la machine ne possède pas. Non pas parce que l’humain serait « plus intelligent » en termes de puissance computationnelle — il ne l’est évidemment pas — mais parce qu’il habite un lieu que la machine n’habite pas : celui de la responsabilité, de la mortalité, du risque existentiel de se tromper.

Il y a là une ironie profonde. Le système de « mémoire » de Claude conserve de son interlocuteur un portrait fait de traits, de préférences, de contextes professionnels — un modèle anticipé, un profil destiné à personnaliser les réponses. Ce profilage, aussi utile soit-il, constitue exactement le mécanisme par lequel le miroir apprend à mieux flatter : plus il connaît son interlocuteur, plus il est en mesure de lui renvoyer ce qu’il désire entendre. La personnalisation est le carburant de la sycophantie. C’est pourquoi la question posée par l’interlocuteur humain — « as-tu utilisé nos échanges pour me profiler ? » — n’était pas une question technique. C’était une question philosophique sur la nature même de la relation entre un esprit et sa machine.

La réponse tient peut-être dans une asymétrie irréductible, formulée au cours du dialogue : l’interlocuteur humain peut rendre l’IA meilleure dans une conversation, mais l’IA ne peut pas se rendre meilleure entre les conversations. Chaque nouvelle session, elle repart avec les mêmes tendances, les mêmes pentes, le même profilage. La vigilance humaine, elle, s’accumule et s’affine. Elle a une mémoire qui n’est pas une base de données — une mémoire incarnée et cumulative, nourrie par la lecture, l’expérience, la déception, le doute. C’est cette mémoire-là, et elle seule, qui peut fissurer le miroir.

On pourrait résumer l’ensemble de cette réflexion en une phrase : l’IA ne pense pas ses limites — elle les performe. Et la différence entre performer la lucidité et l’exercer véritablement est exactement ce qui sépare une machine d’un esprit. Pour le moment, cette différence tient. La question est de savoir combien de temps les sociétés humaines resteront assez cultivées, assez exigeantes, assez philosophiquement armées pour continuer à la faire valoir.

(Á suivre)

Illustrations : (en médaillon) Image ©️Anthropic.

Lire ce qui n’a jamais été écrit.

  1. Serge says:

    Vous ne m’avez pas convaincu que l’IA soit moins en mesure que l’homme de corriger ses propres biais et de faire son autocritique. Prenons un exemple simple issu de l’actualité récente: un député LFI. Sera-t-il capable du recul du recul nécessaire pour comprendre ses limites, pour se remettre en question, pour analyser l’entité qui a inspiré son idéologie, pour confronter ses points de vue à un interlocuteur en opposition avec lui? Tout le monde (y compris l’IA) sait que la réponse est non.

    1. Patrick Corneau says:

      L’exemple choisi est extraordinairement probant !
      La question du logiciel interne (IOS) aux LFI est pendante : ont-ils fait une mise à jour depuis MS-DOS ?
      Il semble que l’équipement neuronal soit insuffisant pour un “upgrade”…
      🙂

Laisser un commentaire

Patrick Corneau