Passion. Was wirst du tun
Du brennst für Struktur, Ordnung und willst KI wirklich nutzbar machen? In dieser Rolle sammelst, kuratierst und bereitest Dokumente so auf, dass sie in Retrieval-Augmented Generation (RAG) zuverlässig funktionieren.
Du arbeitest Hands-on mit unseren Fachbereichen und dem Tech-Team zusammen – vom Intake bis zur Übergabe an die Indexierung.
Du setzt einen schlanken Dokumenten-Intake auf: Quellen identifizieren (SharePoint/OneDrive, Confluence/Wiki, Fileserver, Tickets), Freigaben koordinieren, Zugriffsrechte klären.
Du übernimmst Erfassung & Aufbereitung: Deduplikation, Versionierung, OCR bei gescannten Inhalten, Qualitätschecks (Lesbarkeit, Vollständigkeit), Normalisierung (z. B. Markdown/PDF-A).
Du pflegst ein Metadaten-Schema (Quelle, Autor:in, Datum, Gültigkeit, Vertraulichkeit, Tags) und sorgst für konsistente Anwendung.
Du definierst eine Chunking-Strategie (logische Abschnitte, Tabellen/Anhänge, Token-Limits) und dokumentierst klare Richtlinien.
Du unterstützt die Qualitätssicherung: Stichproben, Konsistenz- und Aktualitätsprüfungen, Aufbau eines Goldensets für spätere RAG-Evaluationen.
Du bereitest die Übergabe an die RAG-Pipeline vor (Embeddings/Indexierung, Suchkonfiguration) und wirkst bei ersten Tests/Reportings mit.