Write to Hadoop Sequence File

Der Schritt „Write to Hadoop Sequence File“ schreibt Daten so in eine Sequenzdatei, wie sie von einem Datenfluss ausgegeben werden. Eine Sequenzdatei ist ein Flatfile, das aus binären Schlüssel/Wert-Paaren besteht. Weitere Informationen finden Sie unter wiki.apache.org/hadoop/SequenceFile.

Anmerkung: Der Schritt „Write to Hadoop Sequence File“ unterstützt nur durch Trennzeichen getrennte, unkomprimierte Sequenzdateien im Hadoop Distributed File System (HDFS).

Registerkarte „Dateieigenschaften“

Felder Beschreibung
Server Dies gibt an, dass die im Feld Dateiname ausgewählte Datei sich auf dem Hadoop-System befindet. Sie müssen eine Verbindung zum Hadoop-Dateiserver in der Management Console erstellen, bevor Sie ihn im Schritt verwenden. Wenn Sie eine Datei auf dem Hadoop-System auswählen, ist der Servername der Name, den Sie in der Management Console beim Erstellen eines Dateiservers angegeben haben.
Dateiname Gibt den Pfad zur Datei an. Klicken Sie auf die Ellipsenschaltfläche (...), um die gewünschte Datei zu lokalisieren.

Feldtrennzeichen

Gibt das Zeichen an, das zum Trennen von Feldern in einer Datei mit Begrenzungszeichen verwendet wird.

Im folgenden Beispiel wird ein Pipe-Zeichen ( | ) im Datensatz als Feldtrennzeichen verwendet:

7200 13TH ST|MIAMI|FL|33144

Die folgenden Zeichen stehen zur Definition als Feldtrennzeichen zur Verfügung:

  • Leerzeichen
  • Tabulator
  • Komma
  • Punkt
  • Semikolon
  • Pipe

Wenn in der Datei ein anderes Zeichen als Feldtrennzeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Begrenzungszeichen auszuwählen.

Textbegrenzungszeichen

Dies ist das Zeichen, das in einer Datei mit Begrenzungszeichen Textwerte umschließt.

Im folgenden Beispiel werden im Datensatz doppelte Anführungszeichen (") als Textbegrenzungszeichen verwendet.

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

Die folgenden Zeichen stehen zur Definition als Textbegrenzungszeichen zur Verfügung:

  • einfaches Anführungszeichen ( ' )
  • doppeltes Anführungszeichen ( " )

Wenn in der Datei ein anderes Textbegrenzungszeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Textbegrenzungszeichen auszuwählen.

Registerkarte „Felder“

Die Registerkarte „Felder“ definiert die Namen, Positionen und Typen der Felder in der Datei. Weitere Informationen finden Sie unter Definieren von Feldern in einer Ausgabesequenzdatei.