Ausgabe

Der Schritt „Read from Documents“ verfügt über zwei ausgehende Ports. Ein Port erfasst die Daten, die vom Schritt gelesen und auf Basis der eingegebenen Kriterien zurückgegeben wurden. Es kann sich dabei um Klartext oder Metadaten (z. B. Autor, Sprache, Erstellungsdatum) handeln. Dieser Port kann mit jedem Schritt, der eingehende Daten liest (z. B. „Write to File“ oder „Write to XML“), sowie mit Primärschritten (z. B.„Validate Address“ oder „Write to Search Index“) verbunden werden. Er kann auch mit dem „Information Extractor“-Schritt verbunden werden, wenn Sie Informationen über bestimmte Entitätstypen zurückgeben möchten, die sich im Dokument befinden. Wenn Sie den Extraktionstyp „Dokument“ auswählen, enthält die Ausgabe flache Daten; bei Auswahl des Extraktionstyps „Seite“ oder „Auswahl“ enthält die Ausgabe hierarchische Daten.

Der andere Port erfasst alle Datensätze, die der Datenfluss nicht korrekt verarbeitet hat. Dieser Port wird als Fehlerport bezeichnet, und Datensätze, die durch diesen Port in das Zielsystem gelangen, werden als falsch formatiert gewertet. Das Erfassen von falsch formatierten Datensätzen hilft Ihnen, das Problem mit diesen Datensätzen zu identifizieren. Wenn Sie einen Zielschritt an den Fehlerport anhängen, enthält die resultierende Ausgabedatei alle Felder aus den fehlerhaften Datensätzen. Sie enthält auch das Feld „Reason“, das angibt, warum ein Datensatz fehlgeschlagen ist.

Tabelle 1. Unstrukturierte Reader-Ausgabe
Feldname	Beschreibung/gültige Werte
Author	Enthält in der Regel den Namen der Person, die das Dokument erstellt oder aktualisiert hat. Diese Informationen sind Teil der Metadaten des Dokuments.
Bookmark	Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“.
BookmarkNo	Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“.
ContentLength	Gibt die Länge des Dokuments an. Der Wert variiert je nach dem ausgewählten Extraktionstyp: Document Die Anzahl der Seiten im Dokument. Page „1“ steht für eine Einzelseite mit Inhalt.
Contents	Variiert je nach Extraktionstyp. Der Extraktionstyp „Dokument“ beispielsweise gibt das gesamte Dokument als flache Daten aus. Die Extraktionstypen „Seite“, „Auswahl“ und „Lesezeichen“ geben hierarchische Daten aus.
ContentType	Gibt den Typ des gelesenen Dokuments an, z. B. PDF, TXT usw.
Creator	Enthält in der Regel den Namen der Person, die das Dokument erstellt hat. Diese Informationen sind Teil der Metadaten des Dokuments.
Date	Gibt das Datum an, an dem das Dokument erstellt oder zuletzt aktualisiert wurde.
Keywords	Enthält beliebige Schlüsselwörter, die in den Metadaten des Dokuments angegeben wurden.
Language	Gibt die Sprache an, in der das Dokument erstellt wurde.
NPages	Gibt die Anzahl der Seiten im Dokument an.
PageContents	Enthält die Inhalte der ausgewählten Seite(n). Nur für den Extraktionstyp „Seite“.
PageNo	Enthält die Seitenzahl für das Lesezeichen. Nur für den Extraktionstyp „Seite“.
Parent	Enthält den Pfad des Lesezeichens, ähnlich dem XPath einer XML-Datei. Nur für den Extraktionstyp „Lesezeichen“.
ResourceName	Gibt den Dateinamen des Dokuments an.
SectionContents	Enthält die Inhalte des ausgewählten Abschnitts. Nur für den Extraktionstyp „Auswahl“.
SectionNo	Gibt die Nummer des Abschnitts innerhalb dieses Dokuments an. Nur für den Extraktionstyp „Auswahl“.
Subject	Enthält das Thema des Dokuments, das in den Metadaten des Dokuments angegeben wurde.
Title	Enthält den Titel des Dokuments, der in den Metadaten des Dokuments angegeben wurde.