Abgrenzung zum Training

Training erzeugt ein Modell aus Rohdaten und erfordert enorme Rechenressourcen über Wochen oder Monate. Inferenz nutzt das fertige Modell und beantwortet Anfragen in Sekunden. Für den Betrieb lokaler KI-Systeme in Unternehmen ist ausschließlich Inferenz relevant — das Training übernehmen die Modellhersteller.

Wovon die Inferenzleistung abhängt

Drei Faktoren bestimmen die Geschwindigkeit: die GPU-Leistung, die Modellgröße und die Anzahl gleichzeitiger Anfragen. Modelle mit über 70 Milliarden Parametern liefern bessere Antworten, benötigen aber mehr VRAM und Rechenzeit. Quantisierung reduziert den Ressourcenbedarf bei minimalem Qualitätsverlust und macht große Modelle auf realistischer Hardware betreibbar.

Bedeutung für On-Premise-KI

Wer KI lokal betreibt, muss die Inferenzleistung selbst bereitstellen. Die richtige Hardware-Dimensionierung entscheidet darüber, ob Mitarbeiter flüssig arbeiten können oder auf Antworten warten müssen. Zu wenig Leistung frustriert Nutzer, zu viel verschwendet Budget.