OCR — PDFs durchsuchbar machen

Jedes PDF, das Du in aqm3 hochlädst, wird automatisch mit Volltext erfasst — sogar gescannte Papier-Dokumente. So findet „Ask aqm3" Antworten auch in alten Handbuch-Scans.

Stand 23.4.2026 · 📋 Im Alltag

Wie es funktioniert

  1. 1
    Upload
    Du lädst ein PDF hoch (im Workspace, bei Dokumenten oder als Audit-Beleg).
  2. 2
    Worker-Queue
    Ein Hintergrund-Job landet in der BullMQ-Queue ocr.
  3. 3
    Text-Extraktion
    Der OCR-Worker läuft mit pdf-parse über alle Seiten und extrahiert den Volltext.
  4. 4
    Gespeichert
    Das Ergebnis landet als documents.ocr_extracted_text und fließt in die Volltextsuche, in Ask aqm3 und in den Knowledge-Graph ein.
PDF mit OCR-Indikator im Workspace
Kleines Textsymbol = OCR erfolgreich, Inhalt ist durchsuchbar.
+Funktioniert das auch bei gescannten PDFs?
Ja — pdf-parse erkennt eingebetteten OCR-Text. Für reine Scan-PDFs ohne OCR-Layer folgt ein Tesseract-Worker in einer späteren Iteration.
+Sehe ich, ob das OCR erfolgreich war?
Ja — im Workspace erscheint bei erfolgreich erfassten Dateien ein Text-Icon. Die Treffer-Liste in der Suche zeigt Snippets aus dem OCR-Text.
+Welche Dateitypen werden unterstützt?
Aktuell PDF. Word/Excel/Markdown werden direkt beim Upload als content_markdown hinterlegt — ohne OCR-Schritt.
War das hilfreich?Oder direkt schreiben: support@aqm3.com