Published May 20, 2026 | Version v1

Ep.1 - Le Golden Gate Bridge dans la tête de Claude

  • 1. ROR icon University of Copenhagen
  • 2. ROR icon Inserm

Description

Premier épisode de la série « Histoires Naturelles des LLM ». L'article retrace l'expérience scientifique derrière la démonstration virale de mai 2024, où Anthropic a forcé l'amplification d'une feature interprétable dans Claude 3 Sonnet, le rendant temporairement obsédé par le Golden Gate Bridge. Sont expliqués le dictionary learning par sparse autoencoders, l'émergence d'unités de représentation lisibles dans les modèles de langage frontière, et le parallèle avec la découverte par Quian Quiroga (2005) des « neurones grand-mère » dans le lobe temporal humain. L'article situe l'interprétabilité mécanistique dans le contexte plus large d'une biologisation naissante des LLM, et discute des implications pour l'audit industriel et l'AI Act européen.

Files

Ep.1 - Le Golden Gate Bridge dans la tête de Claude.pdf

Files (392.4 kB)

Additional details