Wie Sprachmodelle funktionieren

LLMs bestehen aus Milliarden gelernter Parameter — sogenannter Gewichte —, die während des Trainings aus Textdaten statistisch optimiert werden. Bei einer Anfrage (Prompt) berechnet das Modell Token für Token die wahrscheinlichste Fortsetzung. Trotz dieses statistischen Prinzips sind moderne LLMs in der Lage, komplexe Zusammenhänge zu erkennen, Fachtexte zusammenzufassen und Fragen kontextbezogen zu beantworten.

Die Leistungsfähigkeit eines LLM hängt von drei Faktoren ab: der Qualität der Trainingsdaten, der Modellgröße (gemessen in Parametern, heute typischerweise zwischen 7 und mehreren hundert Milliarden) und der Trainingsmethodik inklusive Post-Training-Verfahren wie RLHF. Das Kontextfenster ist demgegenüber eine Kapazitätsgrenze zur Laufzeit, kein Qualitätsmerkmal des Modells.

Die theoretische Grundlage moderner LLMs ist die Transformer-Architektur, beschrieben in der wegweisenden Arbeit Attention Is All You Need von Vaswani et al. (2017).

Bedeutung für die Industrie

Für Industrieunternehmen sind LLMs der Kern lokaler Wissensplattformen. In Kombination mit Retrieval-Augmented Generation (RAG) greifen sie auf unternehmensinterne Dokumente zu und liefern Antworten mit Quellverweis — ohne dass die Daten das Unternehmensnetzwerk verlassen.

Entscheidend ist dabei die Wahl des richtigen Modells: Open-Source-Modelle wie Llama 3 (bis 405 Milliarden Parameter) oder Mistral lassen sich vollständig lokal betreiben und unterliegen keiner Abhängigkeit von Cloud-Anbietern. Die benötigte Hardware wird einmalig angeschafft, laufende Lizenzkosten entfallen.