Worauf es bei der Dimensionierung ankommt
Die zentrale Ressource ist die GPU — sie bestimmt, wie schnell Anfragen beantwortet werden und wie viele Nutzer gleichzeitig arbeiten können. Die benötigte GPU-Leistung hängt von drei Faktoren ab: der Modellgröße, der Anzahl gleichzeitiger Anfragen und der gewünschten Antwortgeschwindigkeit.
Neben der GPU ist der Arbeitsspeicher entscheidend. Sprachmodelle mit 70 Milliarden Parametern belegen in FP16-Präzision etwa 140 GB VRAM. Reicht der VRAM einer einzelnen GPU nicht aus, gibt es drei Wege: Quantisierung reduziert den Speicherbedarf, Tensor-Parallelisierung verteilt das Modell auf mehrere GPUs, und CPU-Offloading lagert Teile des Modells in den System-RAM aus. Offloading ist langsamer, aber oft die wirtschaftlichste Lösung bei moderatem Lastprofil.
Bei Modellen, die auf mehrere GPUs verteilt werden (ab etwa 70 Milliarden Parametern Standard), entscheidet die Bandbreite der GPU-zu-GPU-Verbindung über die Performance. NVIDIA NVLink erreicht bis zu 1,8 TB/s, PCIe 5.0 nur etwa 128 GB/s. Systeme ohne NVLink zeigen bei großen Modellen im Mehrbenutzerbetrieb deutlich höhere Latenzen.
KI-Server vs. Consumer-Hardware
Consumer-Grafikkarten und Gaming-PCs sind für die Entwicklung und das Prototyping geeignet, nicht für den produktiven Dauerbetrieb. Ihnen fehlen ECC-Speicher, Server-Netzteile mit Dauerlastfreigabe, industrieerprobte Kühlung und die Zuverlässigkeit, die ein 24/7-Betrieb in einer Unternehmensumgebung erfordert.
Relevanz für die Industrie
Wer On-Premise-KI betreiben will, braucht die passende Hardware. Zu schwach dimensionierte Server führen zu langen Antwortzeiten und frustrierten Nutzern. Überdimensionierte Server verschwenden Investitionsbudget. Die richtige Dimensionierung orientiert sich am konkreten Anwendungsfall und plant Reserven für die nächsten zwei bis drei Jahre ein.