Open Source vs. Open Weight
Die Begriffe werden oft synonym verwendet, sind aber fachlich zu trennen. Open-Weight-Modelle stellen die trainierten Modellgewichte frei bereit, schränken die Nutzung aber häufig durch eigene Lizenzen ein: Llama etwa erlaubt kommerzielle Nutzung lizenzkostenfrei nur bis zu 700 Millionen monatlichen Nutzern; andere Modelle untersagen bestimmte Einsatzfelder oder die Weiterveröffentlichung.
Echtes Open Source im Sinne der Open Source Initiative (OSI) erfordert darüber hinaus freien Zugang zu Trainingsdaten, Trainings-Code und Methodik. Die 2024 von der OSI veröffentlichte Open Source AI Definition (OSAID) erfüllt kaum eines der heute verbreiteten Modelle — insbesondere, weil die Trainingsdaten aus urheberrechtlichen Gründen meist nicht offengelegt werden. Für industrielle Anwender ist dennoch entscheidend, dass Open-Weight-Modelle lokal betrieben werden können und die Lizenzbedingungen mit dem konkreten Anwendungsfall vereinbar sind.
Warum Open Source für On-Premise unverzichtbar ist
Proprietäre Modelle wie GPT sind nur über die Cloud der Anbieter nutzbar. Open-Source-Modelle können auf eigener Hardware installiert und betrieben werden — ohne Internetverbindung, ohne laufende Lizenzkosten oder Nutzungsgebühren pro Anfrage (je nach Lizenzbedingungen des Modells) und ohne Abhängigkeit von den Geschäftsentscheidungen eines Drittanbieters.
Qualität von Open-Source-Modellen
Die Leistungsfähigkeit von Open-Source-Modellen hat in den letzten Jahren massiv aufgeholt. Modelle wie Llama 3 (bis 405 Milliarden Parameter) oder Qwen 2.5 erreichen in vielen Benchmarks Ergebnisse auf dem Niveau proprietärer Modelle. Für die meisten industriellen Anwendungsfälle — Dokumentensuche, Zusammenfassungen, Fragen beantworten — liefern Open-Source-Modelle mehr als ausreichende Qualität.
Auswahl des richtigen Modells
Die Wahl hängt vom Anwendungsfall ab: Modellgröße (7B bis 405B Parameter), Sprachunterstützung (Deutsch-Qualität variiert erheblich zwischen Modellen), Lizenz (manche „offene” Modelle haben Nutzungseinschränkungen) und Hardware-Anforderungen. Eine sorgfältige Evaluation anhand des konkreten Einsatzszenarios ist vor der Festlegung unerlässlich.