Wie die Temperature technisch wirkt
Ein Sprachmodell erzeugt Text Token für Token. Vor jedem Token liegt eine Liste von Kandidaten mit zugehörigen Rohwerten, den sogenannten Logits, vor. Diese Logits werden durch eine Softmax-Funktion in Wahrscheinlichkeiten umgerechnet. Die Temperature greift genau hier ein: Sie teilt die Logits vor der Umrechnung durch ihren Wert. Ein kleiner Teiler spreizt die Abstände zwischen den Kandidaten und lässt die wahrscheinlichste Option dominieren, ein großer Teiler gleicht die Abstände an und gibt auch unwahrscheinlicheren Wörtern eine reale Chance.
Anschaulich entscheidet die Temperature also nicht, welche Wörter das Modell überhaupt kennt, sondern wie mutig es bei der Auswahl vorgeht. Bei einem Wert nahe null wählt das Modell nahezu immer das Token mit der höchsten Wahrscheinlichkeit und verhält sich praktisch deterministisch. Mit steigender Temperature wird die Auswahl zunehmend vom Zufall mitbestimmt, sodass dieselbe Eingabe bei mehrfacher Ausführung unterschiedliche Antworten erzeugen kann.
Wichtig ist, dass die Temperature kein Maß für Qualität oder Wahrheitsgehalt ist. Ein hoher Wert macht eine Antwort nicht klüger, sondern nur abwechslungsreicher; ein niedriger Wert macht sie nicht korrekter, sondern nur konsistenter. Sehr hohe Temperaturen können dazu führen, dass die Ausgabe inhaltlich abdriftet oder unzusammenhängend wirkt, weil das Modell zu oft seltene Wortpfade einschlägt.
Welcher Wert für welchen Zweck
Die richtige Temperature hängt vollständig von der Aufgabe ab. Geht es um präzise, faktenorientierte oder strukturierte Ausgaben – etwa das Extrahieren von Daten, das Erzeugen von Code oder das Beantworten klarer Fragen – sind niedrige Werte sinnvoll, weil sie Stabilität und Wiederholbarkeit liefern. Geht es um Ideenfindung, Werbetexte oder Variantenreichtum, sind höhere Werte hilfreich, weil sie Vielfalt erzeugen.
Die folgende Tabelle ordnet typische Temperature-Bereiche qualitativ ein. Die genannten Zahlen sind Orientierungspunkte, keine festen physikalischen Schwellen: Verschiedene Modelle reagieren unterschiedlich, und der praxisgerechte Wert sollte immer durch Ausprobieren mit echten Eingaben bestimmt werden. In professionellen KI-Lösungen wird die Temperature deshalb meist je nach Anwendungsfall konfiguriert und nicht pauschal gesetzt.
Häufig wird die Temperature gemeinsam mit weiteren Sampling-Parametern wie Top-p oder Top-k genutzt. Diese begrenzen den Kandidatenpool zusätzlich. In der Praxis empfiehlt es sich, jeweils nur einen Parameter bewusst zu verändern, um die Wirkung sauber beurteilen zu können, statt mehrere Hebel gleichzeitig zu verstellen.
| Wert (ca.) | Verhalten | Geeignet für |
|---|---|---|
| 0 | Nahezu deterministisch, wählt fast immer das wahrscheinlichste Token | Datenextraktion, Klassifikation, reproduzierbare Tests |
| 0,3 | Fokussiert, wenig Variation, leicht natürlicher Ton | Sachtexte, Zusammenfassungen, Support-Antworten |
| 0,7 | Ausgewogen zwischen Konsistenz und Kreativität | Allgemeine Chat-Antworten, Entwürfe, Erklärungen |
| 1,0 und höher | Deutlich variabler, risikofreudige Wortwahl, wachsende Gefahr von Abschweifen | Brainstorming, kreatives Schreiben, Ideenvarianten |
Praktische Empfehlungen zum Einsatz
Wer die Temperature in eigenen Anwendungen einstellt, sollte methodisch vorgehen, statt zu raten. Ein bewährtes Vorgehen besteht darin, mit einem mittleren Wert zu starten und ihn dann gezielt in Richtung mehr Stabilität oder mehr Vielfalt zu verschieben, bis die Ausgaben zum Anwendungsfall passen.
Für Aufgaben, bei denen es auf identische Ergebnisse ankommt – etwa automatisierte Pipelines oder regressionsgetestete Funktionen – ist ein Wert nahe null die sichere Wahl. Selbst dann kann es geringe Restvariation geben, weshalb wirklich kritische Abläufe zusätzlich validiert werden sollten.
Bei kreativen Anwendungen lohnt es sich, mehrere Antworten mit erhöhter Temperature zu erzeugen und die beste auszuwählen, statt eine einzelne Ausgabe zu erzwingen. So nutzt man die Variabilität als Vorteil, ohne die Kontrolle über das Endergebnis zu verlieren.
- Faktenarbeit und Code: niedrige Werte für Stabilität und Reproduzierbarkeit
- Kreativarbeit: höhere Werte und mehrere Varianten zur Auswahl erzeugen
- Nur einen Sampling-Parameter zugleich verändern, um Effekte zu isolieren
- Werte stets mit echten Eingaben testen statt blind zu übernehmen
- Sehr hohe Werte vermeiden, wenn inhaltliche Verlässlichkeit zählt
Häufige Missverständnisse
Ein verbreitetes Missverständnis ist, dass eine höhere Temperature das Modell intelligenter oder ausführlicher mache. Tatsächlich verändert sie nur die Streuung der Wortwahl, nicht das Wissen oder die Argumentationsfähigkeit des Modells. Wer mehr Tiefe braucht, sollte den Prompt verbessern oder ein leistungsfähigeres Modell wählen, nicht die Temperature erhöhen.
Ebenso falsch ist die Annahme, dass ein Wert von null Halluzinationen verhindere. Niedrige Temperaturen machen Antworten konsistenter, aber eine konsistente Antwort kann genauso falsch sein wie eine variable. Faktentreue entsteht durch gute Prompts, Kontextbereitstellung und Verifikation, nicht durch den Sampling-Parameter allein.
Schließlich ist die optimale Temperature nicht universell. Was für ein Modell gut funktioniert, kann bei einem anderen zu konservativ oder zu wild wirken. Deshalb gehört die Temperature zu den Parametern, die man pro Modell und pro Aufgabe neu kalibriert.
Häufige Fragen
Was bedeutet Temperature bei einem Sprachmodell?
Die Temperature ist ein Parameter, der festlegt, wie stark ein Sprachmodell bei der Wortauswahl von der wahrscheinlichsten Option abweicht. Niedrige Werte machen die Ausgabe fokussiert und nahezu deterministisch, hohe Werte machen sie variabler und kreativer. Sie verändert also die Streuung der Antworten, nicht das zugrunde liegende Wissen des Modells.
Welcher Temperature-Wert ist der beste?
Es gibt keinen universell besten Wert, denn die richtige Einstellung hängt vom Anwendungsfall ab. Für faktenorientierte oder strukturierte Aufgaben eignen sich niedrige Werte, für kreative Aufgaben höhere. Am sinnvollsten ist es, mit einem mittleren Wert zu starten und ihn anhand echter Eingaben in Richtung mehr Stabilität oder mehr Vielfalt anzupassen.
Macht eine Temperature von null die Antworten korrekter?
Nein. Ein Wert nahe null macht die Antworten konsistent und reproduzierbar, aber nicht zwangsläufig richtig. Eine stabile Antwort kann ebenso falsch sein wie eine variable. Faktentreue entsteht durch gute Prompts, passenden Kontext und Verifikation, nicht durch den Sampling-Parameter.
Was ist der Unterschied zwischen Temperature und Top-p?
Beide steuern die Zufälligkeit, setzen aber an unterschiedlichen Stellen an. Die Temperature skaliert die gesamte Wahrscheinlichkeitsverteilung, während Top-p den Kandidatenpool auf die wahrscheinlichsten Tokens bis zu einer kumulierten Wahrscheinlichkeit begrenzt. In der Praxis sollte man möglichst nur einen der beiden Parameter bewusst verändern.
Erhöht eine hohe Temperature die Gefahr von Halluzinationen?
Indirekt ja, denn höhere Werte lassen das Modell häufiger seltene Wortpfade wählen, was zu unzusammenhängenden oder abschweifenden Ausgaben führen kann. Garantiert vermeidet eine niedrige Temperature Halluzinationen allerdings nicht. Für verlässliche Inhalte sind moderate Werte plus inhaltliche Absicherung der bessere Weg.
Sollte ich die Temperature in jeder Anwendung gleich einstellen?
Nein, eine pauschale Einstellung ist selten optimal. Verschiedene Aufgaben benötigen verschiedene Grade an Konsistenz oder Kreativität, und unterschiedliche Modelle reagieren unterschiedlich auf denselben Wert. In professionellen Anwendungen wird die Temperature daher meist je Anwendungsfall konfiguriert und durch Tests kalibriert.
Verwandte Begriffe
Prompt Engineering ist die Kunst, KI-Anweisungen so zu formulieren, dass Sprachmodelle bessere Ergebnisse liefern.
Übergeordnete Anweisung, die Rolle, Verhalten, Tonalität und Regeln eines KI-Assistenten festlegt.
Ein LLM ist ein KI-Sprachmodell, das Texte versteht und erzeugt, indem es das wahrscheinlichste nächste Wort vorhersagt.
Sprachmodell, das gezielt auf mehrstufiges Schlussfolgern optimiert ist und vor der Antwort in Schritten denkt.
Eine KI-Halluzination ist ein plausibel klingender, aber faktisch falscher Inhalt eines KI-Modells.
Das Context Window ist die maximale Menge an Token, die ein Sprachmodell gleichzeitig berücksichtigen kann.
