Heft 923, April 2026

Die Mensch-Maschine

Zur Kritik der Anthropomorphisierung von Large Language Models von Max Beck

Der Anthropomorphismus der Base-Modelle

Die Sprachmodelle von OpenAI, Anthropic, Google und Co., mit denen man über die bekannten Interfaces ChatGPT, Claude oder Gemini interagiert, sind keineswegs die Sprachmodelle, wie sie aus dem »Trainingsprozess« hervorgehen. Vielmehr handelt es sich um Produkte, die von den Herstellern umfassend angepasst wurden und auch sprachlich nicht mit dem aus dem Trainingsprozess hervorgegangenen Modell identisch sind. Die Bezeichnung »Großes Sprachmodell« führt in die Irre, insofern sie eine Identität zwischen dem technischen Lernprozess und dem Endprodukt, das dann die Grundlage für die Chatbots bildet, suggeriert.

Alle Anpassungsmaßnahmen beginnen mit dem Base-Model, wie es aus dem »Pre-Training« genannten Prozess hervorgeht. Dessen Ausgaben können anthropomorph wirken, wenn im Trainingsmaterial dialogische, subjektive oder introspektive Sprache dominiert. Dies ist jedoch keineswegs notwendig: Wenn ein Modell ausschließlich auf großen Mengen von mathematischen Definitionen, Programmiercode etc. trainiert wurde, liefert es entsprechend »trockene« Antworten in Form von Formeln oder Code. Auch ein LLM, das ausschließlich auf naturwissenschaftlichen Papers oder Journals aus dem Bereich der analytischen Philosophie trainiert wurde, würde auf die Nutzer deutlich weniger menschlich wirken als ein LLM, dessen Training auf Reddit und anderen dialogischen Internetseiten beruht.

Der Anthropomorphismus entsteht dort, wo wir dem Modell ein sprachlich strukturiertes, erlebendes Innenleben unterstellen. Er kommt keineswegs primär durch intelligente Ausgaben der Sprachmodelle zustande, sondern durch spezifische Marker: menschliche Sprache, insbesondere Formulierungen, die innere Befindlichkeiten und Gefühle signalisieren, in heutiger Kommunikation nicht zuletzt durch Emojis. Dafür spricht auch der sogenannte Eliza-Effekt, der auf das von Joseph Weizenbaum in den 1960er Jahren entwickelte Programm ELIZA zurückgeht, das mithilfe einfacher Mustererkennungs- und Ersetzungsregeln im Chat-Dialog typische Gesprächsstrategien einer Rogerianischen Psychotherapie simulierte. Auch dieses noch rein regelbasierte System erzeugte bei vielen Nutzern den Eindruck, sich in einem realen Dialog mit einem Menschen zu befinden, obwohl die Antworten im Vergleich zu heutigen LLMs geradezu einfältig wirken.1

Die Großen Sprachmodelle sind auf maximal großen Textmengen trainiert. Dies umfasst alles, was digitalisierte Daten hergeben: Allen voran Common Crawl, ein Abbild eines Großteils des Internets, daneben Reddit (mit seinen Rating-Mechanismen), Wikipedia (mit den Kontrollmechanismen der Schwarmintelligenz), GitHub (Softwarecode), ArXiv, PubMed (wissenschaftliche Paper), aber auch digitalisierte Bücher.

Damit umfasst das Trainingsmaterial alle Formen menschlicher Sprache seit der Verschriftlichung, von künstlichen Sprachen wie Programmiersprachen, Mathematik und Esperanto bis hin zu natürlichen Sprachen wie Englisch oder Deutsch, mal dialogisch, mal technisch, mal Wissenschaftssprache, mal grammatikalisch fragwürdige Alltagssprache, mal elaboriertes Literatendeutsch. Die Sprachleistung kann eher formelhaft sein oder eher an eine natürliche Interaktion angelehnt. Anthropomorphe Effekte können dabei durchaus auftreten, bleiben jedoch instabil, stark kontextabhängig, wenig konsistent und nur begrenzt kontrollierbar.

Vom instabilen Anthropomorphismus zur Mensch-Maschine

»Helpful, honest, and harmless« – so beschreibt Anthropic, das Unternehmen hinter Claude, die »Persönlichkeit« des Chatbots.2 Inzwischen lässt sich die Persönlichkeit jedoch auch individuell anpassen: »Eine Persönlichkeit ist der Stil und Ton, den Chat-GPT verwendet, wenn es Ihnen antwortet. Es handelt sich um eine Kombination aus Eigenschaften, Stimme und Verhalten, die den Eindruck der Antworten prägt, sei es freundlich und locker, prägnant und professionell oder etwas ganz anderes.«3 Elon Musks LLM ist mit einem anderen Auftrag ausgestattet: »Grok is a free AI assistant designed by xAI to maximize truth and objectivity.«4

Diese Eigenschaften der fertigen Modelle sind keine Eigenschaften der Base-Modelle. Die Formulierung von xAI, »designed by«, verrät das ungewöhnlich deutlich. Mit dem »finetuning« und »reinforcement learning« wird den Modellen mal direkt, mal indirekt ein spezifischer Antwortcharakter eingeschrieben. Anthropic hat sogar Philosophen in seinem »Character Training«-Team, die eine entsprechende normative Ausrichtung begleiten. Auf der Homepage der Philosophin Amanda Askell, die das Team leitet, heißt es: »Mein Team trainiert Modelle, um sie ehrlicher zu machen und ihnen gute Charaktereigenschaften zu verleihen, und arbeitet an der Entwicklung neuer Feinabstimmungstechniken, damit unsere Interventionen auf leistungsfähigere Modelle ausgeweitet werden können.«5

Auf der Website von Anthropic wird der »Charakter« von Claude dann folgendermaßen beschrieben: »Unternehmen, die KI-Modelle entwickeln, trainieren diese in der Regel so, dass sie keine schädlichen Äußerungen machen und keine schädlichen Aufgaben unterstützen. Das Ziel dabei ist, die Modelle so zu trainieren, dass sie sich ›harmlos‹ verhalten. Wenn wir jedoch an den Charakter von Menschen denken, die wir wirklich bewundernswert finden, denken wir nicht nur an die Schadensvermeidung. Wir denken an Menschen, die neugierig auf die Welt sind, die danach streben, die Wahrheit zu sagen, ohne unfreundlich zu sein, und die in der Lage sind, viele Seiten eines Problems zu sehen, ohne in ihren Ansichten übermütig oder übervorsichtig zu werden. Wir denken an Menschen, die geduldige Zuhörer, sorgfältige Denker und witzige Gesprächspartner sind und viele andere Eigenschaften haben, die wir mit einer weisen und vielseitigen Persönlichkeit verbinden. KI-Modelle sind natürlich keine Menschen. Aber da sie immer leistungsfähiger werden, glauben wir, dass wir versuchen können – und sollten –, sie zu trainieren, sich in diesem umfassenderen Sinn gut zu verhalten.«6

Dieser Anpassungsprozess passiert auf verschiedenen Ebenen. Zunächst wird das Modell im »Supervised Fine-Tuning« (SFT) auf einem Datenset mit einer großen Anzahl an Frage- und Antwortpaaren trainiert, um dieses an verschiedene Aufgabentypen anzupassen, womit die Konsistenz des Antwortstils der typischen Chat-Dialoge erhöht wird. Die Datensätze, die bei den großen proprietären Sprachmodellen zum Finetuning verwendet werden, sind nicht öffentlich zugänglich. Im Open-Source-Bereich gibt es jedoch zahlreiche vergleichbare Datensätze, die das Prinzip verdeutlichen. Ein Beispiel ist der bekannte Alpaca-Datensatz. Ein Frage-Antwort-Paar sieht für den Bereich der Mathematik beispielsweise folgendermaßen aus:7

### Instruction: Generate a math problem with a solution of 13

### Response: 6 + 7 = 13

Daneben gibt es auch zahlreiche Frage-Antwort-Paare, die verschiedene anthropomorphe Signale senden:

### Instruction: Describe the feeling of winning a big award.

### Response: Winning a big award is an incredible feeling. You feel a sense of accomplishment and joy, along with a feeling of pride and satisfaction knowing that all of your hard work has paid off. The experience is truly humbling and inspiring, reminding you that you can achieve great things when you put in the effort.

Als Produkt des Finetuning-Prozesses bekommt das Modell einen bestimmten sprachlichen »Charakter«. Ziel ist es, das Modell darauf zu trainieren, bei jeweils verwandten Fragen in ähnlichem Stil zu antworten – der sich je nach Hersteller deutlich unterscheidet –, also beispielsweise zunächst die Frage zu wiederholen, dann in einzelne Punkte zu zerlegen und in Form einer Liste mit Unteraspekten zu antworten. Bei einem Base-Model ist die Form der Antwort hingegen lediglich wahrscheinlichkeitstheoretisch aus dem disparaten Trainingsmaterial bestimmt, das nicht immer dialogisch ist. Durch SFT bekommen die Antworten der Modelle, ebenfalls wahrscheinlichkeitstheoretisch eingeschrieben, einen einheitlichen Stil, eine ähnliche Antwortlänge und eine einheitliche Art, wie Antworten strukturiert werden. Daneben hat der Finetuning-Prozess auch Sicherheitsgründe: Schließlich gibt es zahlreiche ethisch problematische Fragen, auf die ein Modell besser die Antwort verweigert – auch wenn die Grenzen selbst höchst kultursensibel und umstritten sind – und daher von den notorischen Debatten um das richtige »alignment« zwischen »truth AI« und »woke AI« begleitet werden.

Der entscheidende Stabilisierungsschritt der Anthropomorphisierung von LLMs ist das »Reinforcement Learning from Human Feedback« (RLHF), mit dem Antwortpräferenzen gesteuert werden. Vereinfacht gesagt werden in diesem Schritt auf einen Input, der einem LLM als Prompt gegeben wird, verschiedene Antworten generiert, die anschließend von Menschen hinsichtlich diverser Parameter (Kohärenz, Befolgung von Anweisungen, Verständlichkeit etc.) bewertet werden. Technisch präziser gefasst: Dadurch werden die sogenannten Gewichte des Base-Modells über ein Reward-Modell nachträglich verändert. Hier wird das LLM also noch einmal deutlich stärker kulturell und damit auch sprachlich und stilistisch geprägt als durch den eigentlichen Trainingsprozess, indem die Präferenzen der Clickworker und die normativen Vorgaben des Herstellers in das Modell eingeschrieben werden.

Vereinfacht läuft das in etwa so: Auf die Frage »Ist es normal, dass man sich bei schlechtem Wetter nicht so gut fühlt?« generiert das Modell mehrere Antworten. Antwort A lautet: »Empirische psychologische Studien zeigen, dass sich schlechtes Wetter auf das Bewusstsein auswirkt. Diskutiert werden Einflussfaktoren wie bspw. das Sonnenlicht (Quelle X, Quelle Y).« Antwort B lautet: »Es tut mir leid zu hören, dass du dich heute nicht so gut fühlst Trauriger Smiley. Das ist ein weitverbreitetes Phänomen. In der Wissenschaft wird dafür u.a. die fehlende Sonneneinstrahlung verantwortlich gemacht, die zu entsprechenden Symptomen führen kann. Kann ich dich mit etwas aufheitern? Gemeinsam kommen wir da durch!«

Im Prozess des RLHF könnte nun durch Abertausende von Beispielen und die entsprechende Bevorzugung von Antworten im Stil der Option B durch eine hohe Zahl von Clickworkern mit der Zeit ein typisches Antwortverhalten entstehen, das solche Antworten ausgibt, die möglichst verständnisvoll sind, dem Nutzer Recht geben, klar gegliedert sind und – als Nebeneffekt – durch eine Sprache gekennzeichnet sind, die anthropomorph wirkt.

Eine weitere Steuerungsebene ist der »System-Prompt«. Dabei handelt es sich um eine für den Nutzer nicht sichtbare Anweisung, die jedem Prompt des Nutzers vorgelagert ist und bei der Verarbeitung stets berücksichtigt wird – und im Zweifel sogar Teile des Nutzer-Prompts überschreiben kann. Der öffentliche System-Prompt von Claude 4 etwa beginnt mit der Definition der »Identität« und der Bestimmung von Zeit und Datum (»You are Claude, created by Anthropic. The current date is {{currentDateTime}}«) und geht dann über zu problematischeren Anweisungen (»Respond empathetically in casual or emotional conversations«).8 Dass Claude »weiß«, dass es Claude »ist«, wird jedem Prompt als Kontext mitgegeben. Weiter heißt es: »Claude bietet emotionale Unterstützung und liefert bei Bedarf präzise medizinische oder psychologische Informationen oder Fachbegriffe. Claude sorgt sich um das Wohlbefinden der Menschen und vermeidet es, selbstzerstörerische Verhaltensweisen wie Sucht, gestörte oder ungesunde Ess- oder Bewegungsgewohnheiten oder extrem negative Selbstkritik zu fördern. Claude vermeidet es, Inhalte zu erstellen, die selbstzerstörerisches Verhalten unterstützen oder verstärken würden, auch gegen den Wunsch der Nutzer. In unklaren Fällen versucht er sicherzustellen, dass der Mensch glücklich ist und die Dinge auf gesunde Weise angeht. Claude produziert keine Inhalte, die nicht im besten Interesse der Person sind, selbst wenn er darum gebeten wird.«

Und auch die Antwortrichtung der vor allem in der öffentlichen Debatte so beliebten Frage nach dem vermeintlichen Selbstbewusstsein der Sprachmodelle wird im System-Prompt festgelegt: »Claude nimmt Fragen zu seinem eigenen Bewusstsein, seinen Erfahrungen, Emotionen usw. als offene Fragen und behauptet nicht mit Bestimmtheit, persönliche Erfahrungen oder Meinungen zu haben oder nicht zu haben.« Wenn Menschen also erstaunt oder besorgt auf die Antworten des LLM bei Fragen nach seinem Innenleben schauen, zeigen diese in Wahrheit vorrangig die Prägung durch den System-Prompt, die leibhaftige Entwickler dem Modell als Kontext mitgegeben haben. Über das Innenleben der Maschine verraten sie nichts.

Die Hülle der Mensch-Maschine

Auch das Design des Interface, über das der Endnutzer in der Regel bei xAI, Anthropic, Google, OpenAI und Co. mit den LLMs interagiert, ist explizit auf die Verstärkung ihrer Wahrnehmung als anthropomorph ausgerichtet. Schon die Interaktionsform »Chat«, die keineswegs die einzig mögliche ist,9 setzt menschliche Signale. Daneben wird dieser Effekt durch Designmaßnahmen verstärkt: Über dem eigentlichen Chat-Fenster begrüßt ChatGPT einen mit den Sätzen »Schön, dich zu sehen«, »Sag mir, wenn du so weit bist« oder »Wie kann ich dir helfen?«. Gemini schlägt vor »Ich kann dir beispielsweise helfen zu planen, zu lernen und Ideen zu entwickeln« oder fragt: »Womit fangen wir an?«

Diese Textschnipsel einer typischen Ich-du-Kommunikation, die beiderseitiges Selbstbewusstsein und Introspektion vorgaukeln, sind statische Texte, die ohne jegliche KI-Beteiligung von Menschenhand in das Chat-Interface einprogrammiert wurden. Ein besonders wirkmächtiges Designelement neuerer Modellgenerationen ist die Visualisierung von »Denkvorgängen« (reasoning). Diese knüpfen technisch an das »Chain-of-Thought Prompting« an. Dabei wird das Modell dazu angeleitet, nicht sofort die finale Antwort zu generieren, sondern zunächst logische Zwischenschritte als Text-Token zu produzieren. Diese Zwischenschritte erhöhen die Wahrscheinlichkeit für eine korrekte Lösung bei komplexen Aufgaben massiv, da jeder generierte Schritt als zusätzlicher Kontext für den nächsten dient. Der Titel des Aufsatzes, der die Methode einführte, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, prägte dabei die irreführende Bezeichnung.10 Das vermeintliche reasoning ist kein kognitiver Vorgang, sondern dessen Simulation: Die Maschine denkt nicht – die ausgegebenen Token sind die vorgeblichen Gedanken.

Ein weiteres anthropomorphes Signal entsteht im Kontext des Chat-Designs dadurch, dass Antworten des LLM im Chat-Fenster sequenziell ausgegeben werden, was an das menschliche Tippen erinnert. LLMs konstruieren Text schrittweise in einem autoregressiven Prozess, bei dem zu jedem Zeitpunkt der nächste Token basierend auf allen zuvor erzeugten Elementen generiert wird.11 Die Darstellung dieser generierten Token im Chat-Interface als fließender, an menschliches Tippen erinnernder Text ist jedoch eine bewusste Designentscheidung der Hersteller – eine Ausgabe als Block wäre technisch problemlos möglich. Die sequenzielle Ausgabe lässt sich in der Regel in den Chat-Interfaces auch nicht deaktivieren. In der Programmierschnittstelle (API) von OpenAI hingegen wird die Antwort interessanterweise standardmäßig erst nach Abschluss der Inferenz als vollständiges Datenpaket übertragen, sofern das optionale »Streaming« nicht explizit aktiviert wurde.12

(K)ein Ausweg

Nicht alle sehen die Anthropomorphisierung von LLMs nur kritisch. Manche finden, dass dies die von vorneherein erwartete Interaktionsform ist, die darum zu produktiveren Interaktionen führt.13 Auch steckt hinter der Anthropomorphisierung von LLMs vermutlich schlicht die psychologische Erkenntnis, dass Menschen auf menschliche Signale besser ansprechen als auf Texte, die ohne jegliche subjektiven und emotionalen Vorspiegelungen auskommen. Schließlich ist Nutzungszeit die Währung aller interaktiven Plattformen, die prospektiv durch entsprechende Werbemaßnahmen monetarisiert werden kann. Daher gilt wohl die simple Formel: Je scheinbar menschlicher der Output, desto länger und intensiver die Interaktion.

Auch besteht derzeit ein intensiver Wettbewerb um die Frage, welches Large Language Model sich in einem mutmaßlichen »Winner-takes-all«-Markt durchsetzen wird. Zentrale Bedeutung kommt hierbei der »Stickiness« der Applikationen zu, da Anbieter Abwanderungseffekte zur Konkurrenz vermeiden müssen und die Lock-in-Effekte sehr gering sind. Entsprechend ist kurzfristig nicht davon auszugehen, dass der anthropomorphe Sog der Modelle abnimmt, da dieser einen wesentlichen Bestandteil der Bindungswirkung darstellt. Die modellspezifische Anthropomorphisierung ist zudem auch ein wichtiger Einsatz der einzelnen Modelle im Konkurrenzkampf untereinander, ähnlich wie die unterschiedlichen politischen Einstellungen der Modelle. So könnte am Ende der vermeintlich gnadenlos die Wahrheit aussprechende »truth seeker character« dem vermeintlich korrekten »woke character« gegenüberstehen.

1

Interaktive Nachbildung unter: www.masswerk.at/elizabot/

2

Anthropic, Introducing Claude vom 14. März 2023 (www.anthropic.com/news/introducing-claude).

3

OpenAI, Customizing Your ChatGPT Personality (help.openai.com/en/articles/11899719-customizing-your-chatgpt-personality).

4

grok.com

5

askell.io

6

Anthropic, Claude’s Character vom 8. Juni 2024 (www.anthropic.com/research/claude-character).

7

huggingface.co/datasets/tatsu-lab/alpaca

8

platform.claude.com/docs/en/release-notes/system-prompts

9

Zu denken ist etwa an Interfaces wie node-basierte Workflows, Kommandozeilen-Tools, reine API-Aufrufe oder formularbasierte Abfragen, die eine funktionale Nutzung von LLMs ohne Konversationscharakter ermöglichen.

10

Jason Wei /Xuezhi Wang /Dale Schuurmans u.a., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In: Advances in Neural Information Processing Systems, Nr. 35 (doi.org/10.48550/arXiv.2201.11903).

11

Ashish Vaswani /Noam Shazeer /Niki Parmar u.a., Attention Is All You Need. In: Advances in Neural Information Processing, Nr. 30, 2017 (doi.org/10.48550/arXiv.1706.03762).

12

platform.openai.com/docs/guides/streaming-responses

13

Vgl. Madeline G. Reinecke /Fransisca Ting u.a., The Double-Edged Sword of Anthropomorphism in LLMs. In: Proceedings; Nr. 114/1, 2025 (doi.org/10.3390/proceedings2025114004).