Cookie Consent by Free Privacy Policy Generator

Gedankenlesen von KIs – Anthropic schafft es erstmals, Einblicke in die „Blackbox" zu erhalten.

Mithilfe von speziellen Analysewerkzeugen konnte ein Forschungsteam neuronale Aktivierungsmuster und Konzepte innerhalb des Modells identifizieren, die zuvor nur spekulativ vermutet wurden.

Foto von einem Netzwerk aus Kabeln
Photo by Alina Grubnyak / Unsplash

In der Vergangenheit galten LLMs als undurchschaubare Black Boxes, bei denen selbst die Entwickler oft im Unklaren darüber waren, wie die Modelle konkrete Entscheidungen treffen. Das liegt daran, dass KI-Modelle nicht programmiert werden, sondern trainiert. Genau wie ein Tiefenpsychologe es mit Methoden tut, muss der Werkzeugkasten, um in das Innere des „künstlichen Gehirns" zu schauen, erst noch erarbeitet werden.

F. a. Anthropic (Die Firma hinter dem Modell Claude) hat sich dieses Problems angenommen, um die oft mysteriöse „Gedankenwelt“ eines LLM zu entschlüsseln. Mithilfe von speziellen Analysewerkzeugen konnte ein Forschungsteam neuronale Aktivierungsmuster und Konzepte innerhalb des Modells identifizieren, die zuvor nur spekulativ vermutet wurden. Anthropic hat einen bedeutenden wissenschaftlichen Durchbruch erzielt, indem das Unternehmen erstmals einen detaillierten Einblick in die inneren Abläufe eines großen Sprachmodells (LLM) ermöglicht hat. Mit innovativen Ansätzen wie dem „Circuit Tracing“ und „Dictionary Learning“ wird nun sichtbar, wie ein Modell wie Claude seine internen Denkprozesse strukturiert und welche neuronalen Pfade zur Erzeugung von Antworten führen.

Die Technik des Dictionary-Learnings erlaubt es, bestimmte Features – also Aktivierungsmuster, die abstrakte Konzepte repräsentieren – systematisch zu extrahieren. So fand das Team beispielsweise heraus, dass bei der Verarbeitung von Begriffen wie „Golden Gate Bridge“ immer wieder spezifische neuronale Muster aktiviert werden. Diese Entdeckung zeigt, dass das Modell über eine Art universelle Denksprache verfügt, die unabhängig von der Eingabesprache funktioniert. Dadurch wird deutlich, wie das Modell gelernt hat, Wissen in abstrakten, sprachübergreifenden Repräsentationen abzubilden.

Ein weiterer interessanter Aspekt der Forschung ist die Beobachtung des planenden Verhaltens des Modells. Anthropic zeigte, dass das Sprachmodell nicht rein sequentiell arbeitet, sondern bereits mehrere Wörter im Voraus plant – ein Prozess, der sich besonders bei kreativen Aufgaben wie der Gedichtgenerierung manifestiert. Das Modell wählt potenzielle Reimwörter aus und strukturiert seine Ausgabe so, dass es seine eigenen Vorhersagen in konsistenter Weise erfüllt. Diese Fähigkeit, zukünftige Token vorauszuplanen, hebt die Leistungsfähigkeit und Komplexität moderner LLMs auf ein neues Niveau. Man kann also sagen, dass KIs vorausschauen.

Die Fortschritte von Anthropic haben weitreichende Implikationen: Sie eröffnen nicht nur die Möglichkeit, KI-Modelle besser zu verstehen und sicherer zu gestalten, sondern auch deren Weiterentwicklung gezielt zu steuern. Durch die erhöhte Transparenz können etwaige Sicherheitslücken und unerwünschte Verhaltensweisen früher erkannt und korrigiert werden. Anthropic selber weist darauf hin, dass diese Erkenntnisse wichtig sind, um sichere Modelle für die Zukunft zu entwickeln.

"Knowing how models like Claude think would allow us to have a better understanding of their abilities, as well as help us ensure that they’re doing what we intend them to" ~ Anthropic (27.03.2025)

Insgesamt zeigt der Erfolg von Anthropic, dass der Blick in die „Black Box“ moderner LLMs nicht länger ein theoretisches Unterfangen bleibt, sondern praktische Anwendungen findet – ein entscheidender Schritt auf dem Weg zu leistungsfähigeren, transparenten und vertrauenswürdigen KI-Systemen. Die Arbeit von Anthropic zu dem Thema ist sehr technisch und selbst ich muss zugeben, nicht überall den Überblick zu haben. Wer dennoch mehr erfahren möchte, kann auf der Seite von Anthropic gerne mehr zu dem Thema erfahren: