Wie Quantisierung funktioniert
Die Parameter eines Sprachmodells sind Gleitkommazahlen mit hoher Präzision (16 oder 32 Bit). Quantisierung rundet diese Zahlen auf weniger Bits — 8 Bit, 4 Bit oder sogar weniger. Ein 70-Milliarden-Parameter-Modell, das in voller Präzision über 140 GB VRAM benötigt, passt quantisiert in 35–40 GB.
Qualität vs. Ressourcenverbrauch
Der Qualitätsverlust bei 4-Bit-Quantisierung liegt in gängigen Benchmarks wie MMLU oder HellaSwag typischerweise zwischen 1 und 5 Prozent — abhängig vom Modell, der gewählten Methode (GPTQ, AWQ, GGUF) und dem Anwendungsfall. Bei generativen Aufgaben und deutschen Fachtexten lohnt sich eine eigene Qualitätsprüfung, da Benchmarks nicht immer das tatsächliche Nutzungsprofil abbilden.
Post-Training vs. Quantization-Aware Training
Quantisierung erfolgt in zwei grundsätzlichen Ansätzen: Post-Training Quantization (PTQ) wird auf ein bereits fertig trainiertes Modell angewendet — schnell, günstig und in der Praxis der Standardweg. Quantization-Aware Training (QAT) berücksichtigt die spätere Quantisierung bereits beim Training, liefert etwas bessere Ergebnisse, erfordert aber Zugriff auf den Trainingsprozess und ist für die meisten Anwendungen nicht nötig.
Native FP8-Formate (8-Bit-Gleitkomma) werden von moderner Hardware wie NVIDIA Blackwell unterstützt und bieten einen Mittelweg zwischen Präzision und Effizienz. Forschungsansätze wie BitNet (Microsoft, 2024) experimentieren mit noch aggressiverer Quantisierung auf 1,58 Bit — in der industriellen Praxis derzeit aber noch kein Thema.
Bedeutung für On-Premise-KI
Quantisierung ist der Schlüssel dazu, leistungsfähige Modelle auf bezahlbarer Hardware zu betreiben. Ohne Quantisierung wären die größten Open-Source-Modelle nur auf Multi-GPU-Systemen mit mehreren Hundert Gigabyte VRAM einsetzbar. Mit Quantisierung laufen sie auf einer einzelnen professionellen GPU.