Ausgabe
Der Schritt „Read from Documents“ verfügt über zwei ausgehende Ports. Ein Port erfasst die Daten, die vom Schritt gelesen und auf Basis der eingegebenen Kriterien zurückgegeben wurden. Es kann sich dabei um Klartext oder Metadaten (z. B. Autor, Sprache, Erstellungsdatum) handeln. Dieser Port kann mit jedem Schritt, der eingehende Daten liest (z. B. „Write to File“ oder „Write to XML“), sowie mit Primärschritten (z. B.„Validate Address“ oder „Write to Search Index“) verbunden werden. Er kann auch mit dem „Information Extractor“-Schritt verbunden werden, wenn Sie Informationen über bestimmte Entitätstypen zurückgeben möchten, die sich im Dokument befinden. Wenn Sie den Extraktionstyp „Dokument“ auswählen, enthält die Ausgabe flache Daten; bei Auswahl des Extraktionstyps „Seite“ oder „Auswahl“ enthält die Ausgabe hierarchische Daten.
Der andere Port erfasst alle Datensätze, die der Datenfluss nicht korrekt verarbeitet hat. Dieser Port wird als Fehlerport bezeichnet, und Datensätze, die durch diesen Port in das Zielsystem gelangen, werden als falsch formatiert gewertet. Das Erfassen von falsch formatierten Datensätzen hilft Ihnen, das Problem mit diesen Datensätzen zu identifizieren. Wenn Sie einen Zielschritt an den Fehlerport anhängen, enthält die resultierende Ausgabedatei alle Felder aus den fehlerhaften Datensätzen. Sie enthält auch das Feld „Reason“, das angibt, warum ein Datensatz fehlgeschlagen ist.
Feldname |
Beschreibung/gültige Werte |
---|---|
Author |
Enthält in der Regel den Namen der Person, die das Dokument erstellt oder aktualisiert hat. Diese Informationen sind Teil der Metadaten des Dokuments. |
Bookmark |
Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“. |
BookmarkNo |
Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“. |
ContentLength |
Gibt die Länge des Dokuments an. Der Wert variiert je nach dem ausgewählten Extraktionstyp:
|
Contents |
Variiert je nach Extraktionstyp. Der Extraktionstyp „Dokument“ beispielsweise gibt das gesamte Dokument als flache Daten aus. Die Extraktionstypen „Seite“, „Auswahl“ und „Lesezeichen“ geben hierarchische Daten aus. |
ContentType |
Gibt den Typ des gelesenen Dokuments an, z. B. PDF, TXT usw. |
Creator |
Enthält in der Regel den Namen der Person, die das Dokument erstellt hat. Diese Informationen sind Teil der Metadaten des Dokuments. |
Date |
Gibt das Datum an, an dem das Dokument erstellt oder zuletzt aktualisiert wurde. |
Keywords |
Enthält beliebige Schlüsselwörter, die in den Metadaten des Dokuments angegeben wurden. |
Language |
Gibt die Sprache an, in der das Dokument erstellt wurde. |
NPages |
Gibt die Anzahl der Seiten im Dokument an. |
PageContents |
Enthält die Inhalte der ausgewählten Seite(n). Nur für den Extraktionstyp „Seite“. |
PageNo |
Enthält die Seitenzahl für das Lesezeichen. Nur für den Extraktionstyp „Seite“. |
Parent |
Enthält den Pfad des Lesezeichens, ähnlich dem XPath einer XML-Datei. Nur für den Extraktionstyp „Lesezeichen“. |
ResourceName |
Gibt den Dateinamen des Dokuments an. |
SectionContents |
Enthält die Inhalte des ausgewählten Abschnitts. Nur für den Extraktionstyp „Auswahl“. |
SectionNo |
Gibt die Nummer des Abschnitts innerhalb dieses Dokuments an. Nur für den Extraktionstyp „Auswahl“. |
Subject |
Enthält das Thema des Dokuments, das in den Metadaten des Dokuments angegeben wurde. |
Title |
Enthält den Titel des Dokuments, der in den Metadaten des Dokuments angegeben wurde. |