Solid Qubits verarbeitet die in industriellen Unternehmen üblichen Dokumentformate automatisch — ohne manuelles Vorbereiten, Konvertieren oder Taggen.
Textbasierte Formate
PDFs werden sowohl als native Textdokumente als auch als gescannte Bilddateien verarbeitet. Bei gescannten Dokumenten kommt OCR (Optical Character Recognition) zum Einsatz, um den Text maschinenlesbar zu machen. Office-Dokumente (Word, Excel, PowerPoint) werden strukturerhaltend verarbeitet — Überschriften, Tabellen und Listen bleiben als semantische Einheiten erkennbar. Reine Textdateien und Markdown werden direkt indexiert.
Bild- und Videoinhalte
Bilder (JPEG, PNG, TIFF) werden mit einem Vision-Sprachmodell analysiert — das System erzeugt eine Beschreibung des Bildinhalts und indexiert diese gemeinsam mit den Metadaten. Konstruktionszeichnungen, Schaltpläne, Prüffotos und Screenshots werden so als Wissensquelle nutzbar.
Videos werden in zwei Spuren verarbeitet: Die Tonspur wird per Speech-to-Text transkribiert, die Bildspur per Vision-Sprachmodell beschrieben. Transkript und Bildbeschreibungen fließen gemeinsam in die Wissensbasis.
Was nicht direkt unterstützt wird
Proprietäre CAD-Formate (STEP, STL, DWG) werden nicht als Konstruktionsdateien analysiert. Wird eine Zeichnung zusätzlich als PDF exportiert, ist der visuelle Inhalt über das Vision-Modell zugänglich. E-Mail-Archive, ZIP-Container oder spezialisierte Branchenformate werden projektspezifisch umgesetzt.
Grenzen bei der Verarbeitungstiefe
Die Qualität der Indexierung hängt vom Quelldokument ab. Eine sauber strukturierte Arbeitsanweisung mit klaren Überschriften wird deutlich besser verarbeitet als ein handgeschriebenes Protokoll als Scan. Bei kritischen Dokumenten empfiehlt sich nach der Indexierung eine Stichprobenprüfung über die Vektor-Ansicht.