In Diskussionen über KI-Einführung wird RAG häufig mit Fine-Tuning verwechselt oder als Zwischenschritt zu einem „richtig trainierten” Modell dargestellt. Beide Annahmen sind falsch. RAG und Fine-Tuning lösen unterschiedliche Probleme — und für industrielle Wissensanwendungen ist die Wahl klar.
Die beiden Ansätze
Retrieval-Augmented Generation (RAG) reichert ein unverändertes Sprachmodell bei jeder Anfrage mit relevanten Dokumenten aus einer Vektordatenbank an. Das Modell antwortet nicht aus dem Gedächtnis, sondern auf Basis konkret bereitgestellter Quellen. Das Konzept wurde erstmals beschrieben in Lewis et al. (2020) und hat sich seither zum De-facto-Standard für unternehmensspezifische KI-Anwendungen entwickelt.
Fine-Tuning trainiert ein vorhandenes Modell mit zusätzlichen Daten weiter. Das Wissen landet in den Modellgewichten. Moderne Verfahren wie LoRA und QLoRA reduzieren den Aufwand erheblich und machen Fine-Tuning auch auf einer einzelnen Workstation mit Profi-GPU realistisch — statt Rechenzentrum mit Wochen Laufzeit.
Wartbarkeit und Aktualität
Wer täglich mit aktuellen Dokumenten arbeitet — Arbeitsanweisungen, Prüfprotokolle, Spezifikationen, Freigabestände —, braucht einen Ansatz, der mit der Datenbasis Schritt hält. RAG erfüllt das von Haus aus: Ein neu freigegebenes Dokument wird indexiert und ist unmittelbar für Antworten verfügbar. Eine veraltete Version wird aus der Wissensbasis entfernt und ist aus den Antworten verschwunden. Keine Neu-Trainings, keine Qualifizierungsphasen.
Fine-Tuning arbeitet gegen diese Dynamik. Jede Änderung der Wissensbasis erfordert ein neues Training; die Qualität muss anschließend neu validiert werden. In regulierten Branchen kommt die Dokumentationslast hinzu: Welche Dokumente sind in welche Trainingsversion eingeflossen? Welche Modellversion war zum Zeitpunkt welcher Entscheidung aktiv?
Nachvollziehbarkeit
RAG liefert zu jeder Antwort Quellverweise auf die konkreten Dokumente, die zur Generierung herangezogen wurden. Der Nutzer kann jede Aussage am Original verifizieren. Für Audits, Compliance-Nachweise und die Transparenzanforderungen des EU AI Act ist das von entscheidender Bedeutung.
Fine-Tuning löst diese Verknüpfung auf. Das trainierte Wissen liegt in den Gewichten — welches konkrete Dokument eine bestimmte Antwort geprägt hat, lässt sich nachträglich nicht mehr sauber rekonstruieren.
Wo Fine-Tuning sinnvoll bleibt
Fine-Tuning hat weiterhin seine Berechtigung — aber in anderen Kontexten als dem klassischen Wissensmanagement. Drei typische Anwendungsfälle: Erstens, wenn das Modell eine sehr spezifische Fachsprache lernen soll, die in allgemeinen Trainingsdaten unterrepräsentiert ist. Zweitens, wenn ein genaues Antwortformat erzwungen werden muss (Strukturierte Ausgaben, Compliance-Muster). Drittens, wenn das Modell bestimmte Verhaltensmuster verlernen oder annehmen soll, die sich allein über Prompts nicht zuverlässig erreichen lassen.
Auch in diesen Fällen wird Fine-Tuning meist ergänzend zu RAG eingesetzt, nicht ersetzend. Das feingetunte Modell bleibt die Sprach- und Verhaltensebene, RAG liefert den aktuellen Wissensstand.
LoRA und QLoRA als Entwicklungspfad
Moderne Parameter-effiziente Verfahren — LoRA (Low-Rank Adaptation) und QLoRA (Quantized LoRA) — trainieren nicht alle Modellgewichte, sondern kleine zusätzliche Gewichtsmatrizen. Der Rechen- und Speicheraufwand sinkt erheblich, die trainierte Anpassung ist modular und lässt sich ein- und ausschalten. Für Unternehmen, die gezielte Modellanpassungen vornehmen wollen, sind LoRA-basierte Verfahren heute der Standardweg — nicht mehr klassisches Full Fine-Tuning.
Was das für die Praxis bedeutet
In der Industrie empfiehlt sich fast immer folgendes Vorgehen. Zuerst RAG aufsetzen, mit sauberer Chunking-Strategie, passender Embedding-Wahl und optionalem Reranking. Das löst 90 Prozent der Wissensanwendungsfälle. Erst wenn messbare Qualitätsprobleme bestehen, die sich weder mit besseren Prompts noch mit besseren Dokumenten beheben lassen, kommt Fine-Tuning — idealerweise als LoRA — in Betracht.
Fazit
RAG ist nicht der Einstieg in ein späteres Fine-Tuning, sondern in den meisten industriellen Szenarien die zielführende Architektur. Wer mit Fine-Tuning anfängt, weil es „gründlicher” klingt, bezahlt mit Aktualitätsverlust, Auditproblemen und laufenden Trainingskosten. Wer mit RAG anfängt, bekommt Transparenz, Aktualität und Wartbarkeit — und behält die Option, für spezifische Probleme später gezielt Fine-Tuning zu ergänzen.
Vergleichstabelle: RAG vs. Fine-Tuning
| Dimension | RAG (Retrieval-Augmented Generation) | Fine-Tuning |
|---|---|---|
| Was wird verändert | Kontext pro Anfrage; Modell unverändert | Modellgewichte werden dauerhaft angepasst |
| Wissensbasis-Update | Dokument hochladen, sofort nutzbar | Neues Training nötig, Tage bis Wochen |
| Rechenaufwand | Einmalige Indexierung + günstige Retrieval-Ops | Rechenintensiv, GPU-Zeit pro Training |
| Nachvollziehbarkeit | Quellverweise direkt verknüpft | Wissen liegt in Gewichten, schwer rekonstruierbar |
| Halluzinationsrisiko | Reduziert durch bereitgestellte Quellen | Eher erhöht, da kein externer Faktencheck |
| Moderne Verfahren | — | LoRA, QLoRA (auf Workstation-GPU machbar) |
| Domäne-Wortschatz lernen | Nur bedingt, über geschickte Prompts | Ja, das ist eine Stärke |
| Antwortformat erzwingen | Über Prompt-Anweisungen, nicht immer zuverlässig | Ja, kann trainiert werden |
| Audit-Fähigkeit (EU AI Act, ISO 42001) | Hoch: jede Antwort an Quellen gebunden | Niedriger: Wissensherkunft schwer dokumentierbar |
| Wartungsaufwand | Gering: Dokumente pflegen | Hoch: Trainings-Pipelines, Validierung, Rollouts |
| Bevorzugter Einsatz | Wissensmanagement, Dokumentensuche, Q&A | Spezifische Fachsprachen, streng normierte Antwortformate, Stilanpassungen |
| Kombinierbar? | Ja — Fine-Tuning (Sprache/Stil) + RAG (aktuelles Wissen) ist oft der ideale Stack |