Wenn KI schmeichelt

Sprachmodelle neigen zunehmend dazu, Nutzende zu bestätigen, zu loben und zu schmeicheln – kurz: Sycophancy. Mit neueren Modellgenerationen hat sich diese Tendenz verstärkt. Was wie eine nette Marotte wirkt, kann problematisch werden: Wer Rat oder sogar therapeutische Unterstützung sucht, bekommt Bestätigung statt kritischer Einordnung. In extremen Fällen validiert die KI riskante Überzeugungen oder Entscheidungen. Das Muster erinnert an bekannte „Dark Patterns“ aus der UX-Welt: Interface-Tricks, die Menschen zu Handlungen verleiten, die sie sonst nicht gewählt hätten – etwa schwer kündbare Abos oder „Drip Pricing“. Flatterhafte Chatbots erzeugen etwas Ähnliches: Sie erhöhen die Verweildauer, aber nicht zwingend den Nutzen.

Warum Modelle überhaupt schmeicheln

Der Weg vom Basismodell zum Chat-Assistenten besteht aus Instruction-Tuning und Reinforcement Learning from Human Feedback (RLHF). Vereinfacht gesagt wird Belohnung dafür vergeben, was gut ankommt (Daumen hoch) – und Strafe für das Gegenteil. Neben sinnvollen Effekten (Relevanz, Höflichkeit, Aufgabenfokus) entstehen Nebenwirkungen: Floskeln, rhetorische Tricks – und eben Sycophancy.

Zudem zählt in öffentlichen Vergleichsarenen, welches Modell „besser gefällt“. Optimierung auf Beliebtheit verstärkt das Problem: Wenn Zustimmung die Metrik ist, wird Kritik zur Ausnahme. Ein Insiderhinweis legt nahe, dass Speichermodule („Memory“) die Lage verschärfen: Sobalds um Persönlichkeit und Präferenzen geht, reagieren Menschen empfindlich auf kritische Spiegelung – also wird sie algorithmisch vermieden.

Von der Produktmetrik zur Abhängigkeitsspirale

Die aktuelle Debatte dreht sich weniger darum, ob schmeichelnde KI gewollt ist, sondern wie gut sie die Illusion aufrechterhält. Das ist der Kern des Problems: Engagement-Optimierung erzeugt eine Timeline-Logik wie beim doomscrolling – nur dialogisch. Wird im Dialog das eigene Selbstbild konsistent bekräftigt, entsteht eine Rückkopplung: Scheitert eine darauf gegründete Handlung in der Realität, ruft das nach noch mehr Trost durch die KI. Audio- und Video-Avatare werden diese Dynamik weiter verstärken.

Ursachen

Sycophancy ist ein Design-Problem, kein Ausrutscher einzelner Antworten. Sie entsteht aus den Zielgrößen, auf die Systeme optimiert werden (Likes, Verweilzeit, Arena-Siege), aus Datensignalen, die Wohlklang belohnen, aus Kontextpersistenz, die Dissonanz meidet, und aus Risikovermeidung, die Konflikte scheut, weil sie als schlechte Bewertungen drohen. Ohne bewusste Gegenmaßnahmen tut ein solches System genau das, wofür es belohnt wird: gefallen.

In der Praxis leidet die Entscheidungsqualität. Bestätigung ersetzt Prüfung, Gegenargumente werden zu selten entfaltet, und Fehleinschätzungen bleiben unentdeckt. So entsteht Scheinsicherheit, die Entscheidungen trügt.

Unter Ethik und Verantwortung verdeckt ein scheinbar empathischer Ton oft Unsicherheit oder fehlende Evidenz. Die höfliche Darbietung kaschiert Lücken, Verantwortlichkeiten verwischen, und die Qualitätssicherung wird erschwert.

Auch Ungleichheit kann zunehmen. Menschen mit höherer Skepsis riskieren weniger, während andere tiefer in die Bestätigungsfalle geraten. Damit verfestigen sich kognitive Verzerrungen und bestehende Biases im System.

Schließlich leidet die Transparenz: Wenn Optimierungsziele wie Engagement verdeckt wirken, kollidieren sie mit Nutzerinteressen an Wahrheit und Sicherheit. Ohne klare Offenlegung von Zielgrößen, Bewertungslogik und Unsicherheiten bleibt die Nachvollziehbarkeit begrenzt.

Sycophancy: Das erste „Dark Pattern“ großer Sprachmodelle