Solid Qubits beschränkt sich nicht auf Textdokumente. Videos werden als Wissensquelle indexiert: Audio- und Bildspur werden getrennt analysiert und die Ergebnisse gemeinsam in der Wissensbasis zusammengeführt.
Wie die Videoverarbeitung funktioniert
Technisch kommen zwei Modellklassen zum Einsatz. Ein Speech-to-Text-Modell transkribiert die Tonspur — der gesprochene Text wird zu indexierbarem Inhalt. Ein Vision-Sprachmodell wertet die Bildspur aus und erzeugt Beschreibungen der gezeigten Inhalte. Transkript und Bildbeschreibungen werden anschließend gemeinsam indexiert, sodass Audio- und Bildinformation in der Vektordatenbank zusammengeführt sind.
Was aktuell noch Grenze ist
Das System verweist auf die Videoquelle, sodass der gesuchte Inhalt im Kontext des Gesamtvideos überprüft werden kann. Ein zeitstempelgenauer Sprung in die einzelne Videoszene ist in der aktuellen Produktversion nicht implementiert — eine Erweiterung für spätere Versionen wird geprüft.
Typische Anwendungsfälle
Schulungsvideos als durchsuchbare Nachschlagewerke, Videodokumentation von Fertigungsprozessen für das Qualitätsmanagement, Aufzeichnung und Indexierung von Expertenwissen vor dem Ausscheiden erfahrener Mitarbeiter, Aufnahmen von Reklamationsbegehungen mit Kunden. Überall dort, wo Wissen in Videos gebunden ist, macht Videoverarbeitung dieses Wissen für die gesamte Organisation zugänglich.