Write to Hive File

Der Schritt Write to Hive File schreibt die Datenflusseingabe in die angegebene Hive-Ausgabedatei.

Sie können beliebige der unterstützten Hive-Dateiformate unten für die Ausgabedatei auswählen:

  • ORC
  • RC
  • Parquet
  • Avro

Registerkarte „Dateieigenschaften“

Tabelle 1. Allgemeine Dateieigenschaften
Felder Beschreibung
Servername Gibt an, dass die im Feld Dateiname ausgewählte Datei sich auf dem Hadoop-System befindet. Nachdem Sie eine Datei auf einem Hadoop-System ausgewählt haben, entspricht der Servername dem Namen des entsprechenden Dateiservers, wie in der Management Console angegeben.
Dateiname Klicken Sie auf die Ellipsenschaltfläche (...), um die auf dem definierten Hadoop-Dateiserver zu erstellende Hive-Ausgabedatei zu lokalisieren. Die Ausgabedaten dieses Schrittes werden in die ausgewählte Datei geschrieben.
Anmerkung: Sie müssen eine Verbindung zum Hadoop-Dateiserver in der Management Console erstellen, bevor Sie ihn im Schritt verwenden.
Dateityp Wählen Sie eines der vier unterstützten Hive-Dateiformate aus:
  • ORC
  • RC
  • Parquet
  • Avro
Tabelle 2. ORC-Dateieigenschaften
Felder Beschreibung
Puffergröße Definiert die Puffergröße, die beim Schreiben in eine ORC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben.
Anmerkung: Die Standardpuffergröße ist 256 KB.
Stripe-Größe Definiert die Größe der beim Schreiben in eine ORC-Datei zu erstellenden Stripes. Dieser Wert wird in Megabyte angegeben.
Anmerkung: Die Standard-Stripe-Größe ist 64 MB.
Zeilenindex-Schrittgröße Definiert die Anzahl der zwischen zwei fortlaufende Zeilenindizes zu schreibenden Zeilen.
Anmerkung: Der Standardwert für die Zeilenindex-Schrittgröße ist 10.000 Zeilen.
Komprimierungstyp Definiert den beim Schreiben in eine ORC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind ZLIB und SNAPPY.
Anmerkung: Der Standardkomprimierungstyp ist ZLIB.
Textabstand Gibt an, ob beim Schreiben in eine ORC-Datei die Stripes aufgefüllt werden, um Stripes zu minimieren, die HDFS-Blockgrenzen überschreiten.
Anmerkung: Standardmäßig ist das Kästchen Padding aktiviert.
Vorschau Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.
Tabelle 3. RC-Dateieigenschaften
Felder Beschreibung
Puffergröße Definiert die Puffergröße, die beim Schreiben in eine RC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben.
Anmerkung: Die Standardpuffergröße ist 256 KB.
Blockgröße Definiert die Größe der beim Schreiben in eine RC-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben.
Anmerkung: Die Standardblockgröße ist 64 MB.
Komprimierungstyp Definiert den beim Schreiben in eine RC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE und DEFLATE.
Anmerkung: Der Standardkomprimierungstyp ist NONE.
Vorschau Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.

Die Registerkarte Felder dient dazu, die Reihenfolge und den Datentyp der erforderlichen Felder zu definieren.

Anmerkung: Beim Dateityp RC müssen Sie die Metadaten der Ausgabedatei definieren, bevor Sie auf Vorschau klicken, um das Grid Vorschau zu laden.
Tabelle 4. Parquet-Dateieigenschaften
Felder Beschreibung
Komprimierungstyp Definiert den beim Schreiben in eine PARQUET-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind UNCOMPRESSED, GZIP und SNAPPY.
Anmerkung: Der Standardkomprimierungstyp ist UNCOMPRESSED.
Blockgröße Definiert die Größe der beim Schreiben in eine PARQUET-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben.
Anmerkung: Die Standardblockgröße ist 128 MB.
Seitengröße Die Seitengröße ist für die Komprimierung relevant. Beim Lesen kann jede Seite unabhängig dekomprimiert werden. Dieser Wert wird in Kilobyte angegeben.
Anmerkung: Die Standardseitengröße ist 1.024 KB.
Wörterbuch aktivieren Zum Aktivieren/Deaktivieren der Wörterbuchcodierung.
Achtung: Das Wörterbuch muss aktiviert sein, damit sich die Wörterbuchseitengröße aktivieren lässt.
Anmerkung: Der Standardwert ist wahr.
Wörterbuchseitengröße Es gibt eine Wörterbuchseite pro Spalte pro Zeilengruppe, wenn die Wörterbuchcodierung verwendet wird. Die Wörterbuchseitengröße funktioniert wie die Seitengröße. Dieser Wert wird in Kilobyte angegeben.
Anmerkung: Die Standard-Wörterbuchseitengröße ist 1.024 KB.
Writer-Version Parquet unterstützt zwei Writer-API-Versionen: PARQUET_1_0 und PARQUET_2_0.
Anmerkung: Der Standardwert ist PARQUET_1_0.
Vorschau Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.
Tabelle 5. Avro-Dateieigenschaften
Felder Beschreibung
Synchronisierungsintervall (in Bytes) Gibt die ungefähre Anzahl von unkomprimierten in jedem Block zu schreibenden Byte an. Die gültigen Werte reichen von 32 bis 2^30. Es empfiehlt sich jedoch, ein Synchronisierungsintervall im Bereich von 2 TSD bis 2 Mio zu verwenden.
Anmerkung: Das Standardsynchronisierungsintervall ist 16.000.
Komprimierung Definiert den beim Schreiben in eine Avro-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE, SNAPPY und DEFLATE. Wenn Sie die Komprimierung DEFLATE wählen, erhalten Sie eine zusätzliche Option, um die Komprimierungsstufe (unten beschrieben) auszuwählen.
Anmerkung: Der Standardkomprimierungstyp ist NONE.
Komprimierungsstufe

Dieses Feld wird angezeigt, wenn Sie die Option DEFLATE im obigen Feld Komprimierung auswählen.

Es kann Werte von 0 bis 9 aufweisen, wobei 0 für keine Komprimierung steht. Die Komprimierungsstufe nimmt von 1 bis 9 zu, wobei gleichzeitig auch die Zeit zunimmt, die zum Komprimieren der Daten erforderlich ist.

Anmerkung: Die Standardkomprimierungsstufe ist 1.
Vorschau Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und in diesem Grid angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.

Registerkarte „Felder“

Die Registerkarte Felder definiert die Namen und Typen der Felder, die in der Quellendatei dieses Schrittes vorhanden sind und zum Schreiben in die Ausgabedatei ausgewählt werden sollen.

Weitere Informationen finden Sie unter Definieren von Feldern zum Schreiben in eine Hive-Datei.

Registerkarte „Laufzeit“

Die Registerkarte Laufzeit bietet die Möglichkeit, eine vorhandene Datei mit demselben Namen auf dem konfigurierten Hadoop-Dateiserver zu überschreiben. Wenn Sie das Kästchen Überschreiben aktivieren, überschreibt beim Ausführen des Datenflusses die neue Hive-Ausgabedatei eine beliebige vorhandene Datei desselben Namens auf demselben Hadoop-Dateiserver.

Standardmäßig ist das Kästchen Überschreiben aktiviert.
Anmerkung: Wenn Sie Überschreiben nicht aktivieren, wird beim Ausführen des Datenflusses eine Ausnahmebedingung ausgelöst, wenn die zu schreibende Datei denselben Namen wie eine vorhandene Datei auf demselben Hadoop-Dateiserver hat.