Warum Token wichtig sind

Die Leistungsfähigkeit und die Kosten eines KI-Systems hängen direkt von der Tokenverarbeitung ab. Die Kontextlänge eines Modells — also die Menge an Information, die es gleichzeitig verarbeiten kann — wird in Token gemessen. Moderne Modelle bieten Kontextfenster von 128.000 bis über 1 Million Token (etwa Claude, Gemini).

Bei Cloud-Diensten werden Token-basierte Gebühren berechnet. Bei lokaler KI entfallen diese laufenden Kosten — die Hardware ist eine Einmalinvestition, unabhängig davon, wie viele Token verarbeitet werden.

Token und Antwortgeschwindigkeit

Die Inferenzgeschwindigkeit wird häufig in Token pro Sekunde gemessen. Je mehr Token ein Modell pro Sekunde erzeugt, desto schneller erscheint die Antwort. Die Token-Rate hängt von der GPU-Leistung, der Modellgröße und der Quantisierungsstufe ab.

Deutschsprachige Texte erzeugen pro Wort mehr Token als englische, weil Komposita wie „Werkzeugmaschinensteuerung” vom Tokenizer zerlegt werden. Bei industriellen Fachtexten wirkt sich das spürbar auf Kontextnutzung und Antwortgeschwindigkeit aus.