Dokumente automatisch sortieren mit KI

Das Grundproblem: Text ist nicht gleich Struktur

Die meisten Scanner-Apps beherrschen OCR (Optical Character Recognition). Das Ergebnis: Der Text im Dokument wird maschinenlesbar. Man kann ihn durchsuchen, kopieren, in eine Volltextsuche einbinden. Wer Dokumente digitalisiert, bekommt damit bereits eine brauchbare Basis.

Aber OCR löst nur die halbe Aufgabe. Der erkannte Text enthält alles: Absender, Empfänger, Beträge, Datumsangaben, Vertragsklauseln, Fußzeilen. Es fehlt die Antwort auf drei Fragen, die für die Organisation entscheidend sind:

Was ist das für ein Dokument? Gehaltsabrechnung, Mietvertrag, Rechnung, Steuerbescheid?
Wie soll die Datei heißen? Ein präziser Titel statt Scan_003.pdf.
Wann wurde das Dokument erstellt? Nicht das Scan-Datum, sondern das Dokumentdatum.

Genau diese Lücke füllt die Klassifikation. Und genau hier wird es technisch interessant.

Was ein KI-Dokumentenscanner tatsächlich tut

Ein KI-Dokumentenscanner kombiniert OCR mit einer nachgelagerten Analyse-Pipeline. Der Ablauf lässt sich in fünf Schritte zerlegen:

Texterkennung (OCR)

Das gescannte Bild wird in Textblöcke zerlegt. Jeder Block bekommt eine Position auf der Seite und einen Konfidenzwert, der angibt, wie sicher die Erkennung ist.

Textanalyse und Scoring

Die erkannten Blöcke werden nach Relevanz bewertet. Blöcke am oberen Seitenrand, mit größerer Schrift oder mit Schlüsselwörtern wie „Gehaltsabrechnung“ oder „Mietvertrag“ erhalten höhere Scores. Fußzeilen, Seitenzahlen und Werbetexte werden herabgestuft.

Dokumenttyp-Erkennung

Anhand des Textes und typischer Muster wird der Dokumenttyp bestimmt. Eine Gehaltsabrechnung enthält Begriffe wie „Brutto“, „Netto“, „Steuerklasse“. Ein Mietvertrag erwähnt „Kaltmiete“, „Nebenkosten“, „Mietdauer“. Diese Muster sind sprachspezifisch und müssen für jede Sprache gepflegt werden.

Titel- und Datumsextraktion

Der beste Textblock wird zum Titel. Datumsangaben werden über Regex-Muster und Kontextanalyse gefunden. Das System unterscheidet zwischen dem Dokumentdatum (z. B. Rechnungsdatum) und anderen Datumsangaben (Fälligkeiten, Liefertermine).

Kategorisierung

Auf Basis des erkannten Typs wird eine Kategorie vorgeschlagen: Finanzen, Versicherung, Wohnen, Gesundheit, Arbeit. Bei Unsicherheit bleibt die Kategorie offen, der Nutzer entscheidet.

Das Ergebnis: Aus IMG_4827.heic wird „Gehaltsabrechnung Februar 2026“ in der Kategorie „Arbeit“. Ohne manuelles Umbenennen.

Regelbasiert, KI-gestützt oder beides?

Es gibt zwei Ansätze, die in der Praxis meist kombiniert werden.

Regelbasierte Klassifikation arbeitet mit festgelegten Mustern: Wenn der Text „Gehaltsabrechnung“ enthält und Zahlenwerte neben „Brutto“ stehen, ist es wahrscheinlich eine Gehaltsabrechnung. Dieser Ansatz ist schnell, vorhersagbar und braucht kein Machine-Learning-Modell. Er scheitert aber an Dokumenten, die keinem bekannten Muster folgen.

Sprachmodell-gestützte Klassifikation nutzt ein LLM (Large Language Model), das den gesamten erkannten Text interpretiert. Es kann auch unbekannte Dokumenttypen sinnvoll benennen, weil es Sprache versteht, nicht nur Schlüsselwörter abgleicht. Der Nachteil: Höherer Rechenaufwand und gelegentliche Fehlinterpretationen.

In Keptiq arbeiten beide Ansätze zusammen. Die regelbasierte Analyse läuft zuerst. Wenn sie ein Ergebnis mit hoher Konfidenz liefert, wird kein Sprachmodell benötigt. Nur bei niedriger Konfidenz oder unklarem Titel kommt das LLM zum Einsatz. So bleibt die Verarbeitung für bekannte Dokumenttypen schnell, und für ungewöhnliche Dokumente gibt es einen Rückfallmechanismus.

On-Device vs. Cloud: Wo läuft die KI?

Bei der Verarbeitung sensibler Dokumente ist die Frage, wo die KI läuft, nicht akademisch. Gehaltsabrechnungen, Mietverträge, ärztliche Befunde sind persönliche Daten im Sinne der DSGVO.

	Cloud-Verarbeitung	On-Device-Verarbeitung
Datenschutz	Dokumente werden an externe Server gesendet. Erfordert Einwilligung und Auftragsverarbeitung.	Alle Daten bleiben auf dem Gerät. Kein Netzwerkzugriff nötig.
Geschwindigkeit	Abhängig von Netzwerkverbindung und Server-Auslastung.	Sofortige Verarbeitung, auch offline.
Modellqualität	Zugang zu größeren Modellen (GPT-4, Gemini).	Kleinere Modelle, die auf dem Gerät laufen. Für Dokumentklassifikation ausreichend.
Kosten	API-Kosten pro Anfrage. Wird oft über Abos finanziert.	Keine laufenden Kosten. Rechenleistung des Geräts reicht aus.

Apple stellt seit iOS 26 sogenannte Foundation Models bereit. Das sind kompakte Sprachmodelle, die direkt auf dem iPhone laufen, ohne Daten an Apple oder Dritte zu senden. Apps wie Keptiq nutzen diese Modelle, um Dokumente automatisch zu benennen und zu kategorisieren. Wer Wert auf einen Dokumentenscanner ohne Cloud legt, bekommt damit eine technisch solide Lösung.

Lerneffekte: Das System wird besser

Statische Regeln erkennen nur Dokumenttypen, die bei der Entwicklung bedacht wurden. Ein lernendes System kann sich anpassen. Das funktioniert so:

Wenn ein Nutzer ein Dokument korrigiert (z. B. den vorgeschlagenen Titel ändert oder eine andere Kategorie wählt), speichert die App dieses Feedback. Beim nächsten Mal, wenn ein ähnliches Dokument gescannt wird, fließt die Korrektur in die Bewertung ein.

Technisch lässt sich das über SimHash umsetzen: Zwei Dokumente werden als ähnlich erkannt, wenn ihr Textinhalt eine hohe Übereinstimmung aufweist. Wurde für ein früheres Dokument mit ähnlichem Hash ein bestimmter Titel oder eine bestimmte Kategorie gewählt, dient das als Vorlage.

In der Praxis bedeutet das: Die ersten Gehaltsabrechnungen eines neuen Arbeitgebers erfordern vielleicht noch eine manuelle Korrektur. Ab der dritten oder vierten erkennt das System das Muster und schlägt den passenden Titel direkt vor.

Praxisbeispiel

Drei Gehaltsabrechnungen von der gleichen Firma, die nacheinander gescannt werden:

Dokument 1: Titel manuell auf „Gehaltsabrechnung Januar 2026“ korrigiert.
Dokument 2: System schlägt „Gehaltsabrechnung“ als Typ vor, der Nutzer ergänzt den Monat.
Dokument 3: Titel „Gehaltsabrechnung März 2026“ wird automatisch erkannt.

Ehrliche Grenzen der Technik

KI-Klassifikation ist kein Zauberkasten. Es gibt Situationen, in denen sie verlässlich arbeitet, und solche, in denen sie es nicht tut.

Gut funktioniert es bei:

Standardisierten Dokumenten (Gehaltsabrechnungen, Rechnungen, Kontoauszüge, Versicherungspost)
Dokumenten mit klarem Layout und lesbarem Text
Dokumenten in den unterstützten Sprachen (typischerweise Deutsch und Englisch)

Problematisch wird es bei:

Handschriftlichen Notizen oder Formularen mit schlechter Druckqualität
Dokumenten ohne erkennbare Typmerkmale (z. B. ein Brief ohne Betreffzeile)
Mehrseitigen Dokumenten, bei denen die relevante Information auf Seite 3 steht
Dokumenten in Sprachen, die das Modell nicht kennt

Deshalb arbeiten seriöse Apps nicht vollautomatisch. In Keptiq wird jedes Klassifikationsergebnis dem Nutzer zur Bestätigung angezeigt. Die KI macht einen Vorschlag, der Nutzer hat das letzte Wort. Das ist kein Mangel, sondern die korrekte Rollenverteilung: Die Maschine erledigt die Routinearbeit, der Mensch korrigiert die Ausnahmen.

Dokumente automatisch benennen: Was gute Titel ausmacht

Beim Scannen mit dem iPhone geht ein guter Dateiname schnell unter. Dabei ist der Titel das Erste, was man in der Dateiliste sieht. Ein brauchbarer automatischer Titel erfüllt drei Kriterien:

Dokumenttyp erkennbar. „Rechnung“, „Mietvertrag“, „Steuerbescheid“ statt einer generischen Bezeichnung.
Absender oder Kontext. „Rechnung Vodafone“ ist nützlicher als nur „Rechnung“.
Zeitbezug. „Gehaltsabrechnung Februar 2026“ statt nur „Gehaltsabrechnung“.

Die Textanalyse versucht, aus dem OCR-Text genau diese Bestandteile zu extrahieren. Das Scoring-System bevorzugt Textblöcke, die Dokumenttyp-Schlüsselwörter enthalten und an prominenter Stelle stehen (oberes Drittel der Seite, größere Schrift, fett gedruckt). Blöcke mit Adressen, AGB-Passagen oder Seitenzahlen werden als Titelkandidaten ausgeschlossen.

Kategorien: Ordnung ohne Ordnerstruktur

Klassische Dateisysteme arbeiten mit Ordnern. Ein Dokument liegt in genau einem Ordner. Wer Steuerunterlagen nach Jahr und nach Typ sortieren will, muss sich entscheiden oder Duplikate anlegen.

Kategorienbasierte Systeme lösen das anders. Jedes Dokument bekommt eine Kategorie (Finanzen, Versicherung, Wohnen) und ein Datum zugewiesen. Die App kann dann nach beiden Dimensionen filtern: Alle Versicherungsdokumente von 2025. Alle Finanzdokumente des laufenden Jahres. Alle Dokumente eines bestimmten Absenders.

Die automatische Kategorisierung ist dabei der Einstiegspunkt. Wenn die KI erkennt, dass es sich um eine Gehaltsabrechnung handelt, weist sie automatisch die Kategorie „Arbeit“ zu. Wenn es eine Arztrechnung ist, landet sie unter „Gesundheit“. Auch hier gilt: Der Vorschlag kann jederzeit geändert werden.

Zusammenspiel der Komponenten

Wer Dokumente automatisch sortieren will, braucht nicht ein einzelnes Feature, sondern eine Kette aus mehreren Schritten, die sauber ineinandergreifen. Das Scannen liefert den Rohtext, die Analyse extrahiert Struktur, die Klassifikation ordnet ein, und das Lernsystem verbessert die Ergebnisse über die Zeit.

Das ist kein Problem, das mit einem einzelnen API-Call gelöst wird. Es erfordert eine durchdachte Pipeline, die verschiedene Techniken kombiniert: klassische Textmuster, statistische Verfahren wie SimHash und Sprachmodelle als Rückfallebene. Apps, die das gut machen, nehmen dem Nutzer den langweiligsten Teil der Dokumentenverwaltung ab, nämlich das Sortieren, Benennen und Einkategorisieren.

Wer tiefer einsteigen will: Der Artikel Dokumente scannen mit dem iPhone behandelt den ersten Schritt der Kette, und unter Dokumentenscanner ohne Cloud geht es um die Datenschutz-Seite des Themas.

Hinweis: Dieser Beitrag dient der allgemeinen Information. Angaben zu KI-Verarbeitung und Datenschutz beziehen sich auf den Stand März 2026. Weitere Fragen beantwortet unser FAQ.

Dokumente scannen, sortieren, behalten.

Keptiq sortiert deine Dokumente automatisch mit On-Device-KI. Kein Abo, keine Cloud.

Laden im App Store