RAG oder Fine-Tuning? Warum RAG für die Industrie die Standardwahl ist

In Diskussionen über KI-Einführung wird RAG häufig mit Fine-Tuning verwechselt oder als Zwischenschritt zu einem „richtig trainierten” Modell dargestellt. Beide Annahmen sind falsch. RAG und Fine-Tuning lösen unterschiedliche Probleme — und für industrielle Wissensanwendungen ist die Wahl klar.

Die beiden Ansätze

Retrieval-Augmented Generation (RAG) reichert ein unverändertes Sprachmodell bei jeder Anfrage mit relevanten Dokumenten aus einer Vektordatenbank an. Das Modell antwortet nicht aus dem Gedächtnis, sondern auf Basis konkret bereitgestellter Quellen. Das Konzept wurde erstmals beschrieben in Lewis et al. (2020) und hat sich seither zum De-facto-Standard für unternehmensspezifische KI-Anwendungen entwickelt.

Fine-Tuning trainiert ein vorhandenes Modell mit zusätzlichen Daten weiter. Das Wissen landet in den Modellgewichten. Moderne Verfahren wie LoRA und QLoRA reduzieren den Aufwand erheblich und machen Fine-Tuning auch auf einer einzelnen Workstation mit Profi-GPU realistisch — statt Rechenzentrum mit Wochen Laufzeit.

Wartbarkeit und Aktualität

Wer täglich mit aktuellen Dokumenten arbeitet — Arbeitsanweisungen, Prüfprotokolle, Spezifikationen, Freigabestände —, braucht einen Ansatz, der mit der Datenbasis Schritt hält. RAG erfüllt das von Haus aus: Ein neu freigegebenes Dokument wird indexiert und ist unmittelbar für Antworten verfügbar. Eine veraltete Version wird aus der Wissensbasis entfernt und ist aus den Antworten verschwunden. Keine Neu-Trainings, keine Qualifizierungsphasen.

Fine-Tuning arbeitet gegen diese Dynamik. Jede Änderung der Wissensbasis erfordert ein neues Training; die Qualität muss anschließend neu validiert werden. In regulierten Branchen kommt die Dokumentationslast hinzu: Welche Dokumente sind in welche Trainingsversion eingeflossen? Welche Modellversion war zum Zeitpunkt welcher Entscheidung aktiv?

Nachvollziehbarkeit

RAG liefert zu jeder Antwort Quellverweise auf die konkreten Dokumente, die zur Generierung herangezogen wurden. Der Nutzer kann jede Aussage am Original verifizieren. Für Audits, Compliance-Nachweise und die Transparenzanforderungen des EU AI Act ist das von entscheidender Bedeutung.

Fine-Tuning löst diese Verknüpfung auf. Das trainierte Wissen liegt in den Gewichten — welches konkrete Dokument eine bestimmte Antwort geprägt hat, lässt sich nachträglich nicht mehr sauber rekonstruieren.

Wo Fine-Tuning sinnvoll bleibt

Fine-Tuning hat weiterhin seine Berechtigung — aber in anderen Kontexten als dem klassischen Wissensmanagement. Drei typische Anwendungsfälle: Erstens, wenn das Modell eine sehr spezifische Fachsprache lernen soll, die in allgemeinen Trainingsdaten unterrepräsentiert ist. Zweitens, wenn ein genaues Antwortformat erzwungen werden muss (Strukturierte Ausgaben, Compliance-Muster). Drittens, wenn das Modell bestimmte Verhaltensmuster verlernen oder annehmen soll, die sich allein über Prompts nicht zuverlässig erreichen lassen.

Auch in diesen Fällen wird Fine-Tuning meist ergänzend zu RAG eingesetzt, nicht ersetzend. Das feingetunte Modell bleibt die Sprach- und Verhaltensebene, RAG liefert den aktuellen Wissensstand.

LoRA und QLoRA als Entwicklungspfad

Moderne Parameter-effiziente Verfahren — LoRA (Low-Rank Adaptation) und QLoRA (Quantized LoRA) — trainieren nicht alle Modellgewichte, sondern kleine zusätzliche Gewichtsmatrizen. Der Rechen- und Speicheraufwand sinkt erheblich, die trainierte Anpassung ist modular und lässt sich ein- und ausschalten. Für Unternehmen, die gezielte Modellanpassungen vornehmen wollen, sind LoRA-basierte Verfahren heute der Standardweg — nicht mehr klassisches Full Fine-Tuning.

Was das für die Praxis bedeutet

In der Industrie empfiehlt sich fast immer folgendes Vorgehen. Zuerst RAG aufsetzen, mit sauberer Chunking-Strategie, passender Embedding-Wahl und optionalem Reranking. Das löst 90 Prozent der Wissensanwendungsfälle. Erst wenn messbare Qualitätsprobleme bestehen, die sich weder mit besseren Prompts noch mit besseren Dokumenten beheben lassen, kommt Fine-Tuning — idealerweise als LoRA — in Betracht.

Fazit

RAG ist nicht der Einstieg in ein späteres Fine-Tuning, sondern in den meisten industriellen Szenarien die zielführende Architektur. Wer mit Fine-Tuning anfängt, weil es „gründlicher” klingt, bezahlt mit Aktualitätsverlust, Auditproblemen und laufenden Trainingskosten. Wer mit RAG anfängt, bekommt Transparenz, Aktualität und Wartbarkeit — und behält die Option, für spezifische Probleme später gezielt Fine-Tuning zu ergänzen.

Vergleichstabelle: RAG vs. Fine-Tuning

Dimension	RAG (Retrieval-Augmented Generation)	Fine-Tuning
Was wird verändert	Kontext pro Anfrage; Modell unverändert	Modellgewichte werden dauerhaft angepasst
Wissensbasis-Update	Dokument hochladen, sofort nutzbar	Neues Training nötig, Tage bis Wochen
Rechenaufwand	Einmalige Indexierung + günstige Retrieval-Ops	Rechenintensiv, GPU-Zeit pro Training
Nachvollziehbarkeit	Quellverweise direkt verknüpft	Wissen liegt in Gewichten, schwer rekonstruierbar
Halluzinationsrisiko	Reduziert durch bereitgestellte Quellen	Eher erhöht, da kein externer Faktencheck
Moderne Verfahren	—	LoRA, QLoRA (auf Workstation-GPU machbar)
Domäne-Wortschatz lernen	Nur bedingt, über geschickte Prompts	Ja, das ist eine Stärke
Antwortformat erzwingen	Über Prompt-Anweisungen, nicht immer zuverlässig	Ja, kann trainiert werden
Audit-Fähigkeit (EU AI Act, ISO 42001)	Hoch: jede Antwort an Quellen gebunden	Niedriger: Wissensherkunft schwer dokumentierbar
Wartungsaufwand	Gering: Dokumente pflegen	Hoch: Trainings-Pipelines, Validierung, Rollouts
Bevorzugter Einsatz	Wissensmanagement, Dokumentensuche, Q&A	Spezifische Fachsprachen, streng normierte Antwortformate, Stilanpassungen
Kombinierbar?	Ja — Fine-Tuning (Sprache/Stil) + RAG (aktuelles Wissen) ist oft der ideale Stack