Warum GPUs für KI entscheidend sind

Sprachmodelle bestehen aus Milliarden mathematischer Operationen, die parallel ausgeführt werden können. CPUs verarbeiten Aufgaben überwiegend sequenziell, GPUs hingegen können Tausende von Berechnungen gleichzeitig durchführen. Für KI-Inferenz macht das den Unterschied zwischen Sekunden und Minuten pro Antwort.

VRAM: Der limitierende Faktor

Der Videospeicher (VRAM) einer GPU bestimmt, wie große Modelle geladen werden können. Ein Modell mit 70 Milliarden Parametern benötigt je nach Präzision unterschiedlich viel VRAM: bei FP16 etwa 140 GB, bei Int8-Quantisierung rund 70 GB, bei Int4 etwa 35 GB. Der Qualitätsverlust durch Quantisierung ist bei den heute üblichen 4- und 8-Bit-Verfahren meist vernachlässigbar. Die Wahl der GPU richtet sich daher nach der gewünschten Modellgröße und der Anzahl gleichzeitiger Nutzer.

Aktuelle GPU-Generationen

Im KI-Server-Bereich kommen professionelle Datacenter-GPUs zum Einsatz. NVIDIA dominiert den Markt — nicht nur wegen der Hardware (Blackwell- und Hopper-Architekturen), sondern vor allem wegen des CUDA-Ökosystems: Fast alle großen KI-Frameworks und Modellbibliotheken sind primär für CUDA optimiert. AMD bietet mit der Instinct-Serie (MI300X, MI325X) in der Inferenz eine wettbewerbsfähige Alternative; im Training ist der Software-Stack ROCm noch nicht auf demselben Reifegrad wie CUDA.