Ablauf der Indexierung

Der Prozess läuft automatisiert ab: Ein neues Dokument wird hochgeladen, das System erkennt das Format (PDF, Office, Video), extrahiert den Inhalt, zerlegt ihn in Abschnitte und erzeugt für jeden Abschnitt einen Vektor. Je nach Dokumentgröße dauert die Indexierung Sekunden bis wenige Minuten.

Aktualisierung

Wenn Dokumente geändert werden, muss der betreffende Abschnitt neu indexiert werden. Inkrementelle Verfahren verarbeiten nur die geänderten Teile, während eine vollständige Re-Indexierung der gesamten Wissensbasis in der Regel nur bei einem Wechsel des Embedding-Modells nötig ist.

Welche Formate unterstützt werden

Professionelle Indexierungssysteme verarbeiten PDFs, Office-Dokumente (Word, Excel, PowerPoint), Textdateien und Videos. Bei Videos werden Audio- und Bildspur getrennt analysiert: die Tonspur per Speech-to-Text, die Bildspur per Vision-Modell. Beide Auswertungen fließen anschließend in die gemeinsame Wissensbasis ein.

Bedeutung für den laufenden Betrieb

Die Indexierung ist kein einmaliger Vorgang. Neue Dokumente werden laufend hinzugefügt, veraltete entfernt. Ein gutes System macht diesen Prozess so einfach wie möglich — idealerweise durch einfaches Ablegen von Dateien, ohne manuelle Konfiguration.