Hadoop Pig ausführen

Run Hadoop Pig führt ein Apache Pig-Skript aus. Apache Pig ist eine Sprache auf hoher Ebene zum Ausdrücken von Datenanalyseprogrammen und verfügt über die Infrastruktur zum Auswerten dieser Programme. Pig-Programme können parallelisiert werden. Dadurch können in diesen Programmen sehr umfangreiche Datensets verarbeitet werden.

Mit Run Hadoop Pig können Sie die Pig-Vorgänge auswählen, alle notwendigen Parameter eingeben und Ihr Pig-Skript automatisch vom System generieren lassen. Sie können das Pig-Skript auf einem beliebigen Hadoop-Server ausführen.

Run Hadoop Pig kann nur auf Hadoop-Dateiservern ausgeführt werden. Apache Hadoop 1.x und 2.x werden unterstützt.

Gehen Sie wie folgt vor, um die Optionen für Run Hadoop Pig festzulegen:

  1. Ziehen Sie die Aktivität Hadoop Pig ausführen und legen Sie sie auf der Arbeitsfläche ab.
  2. Machen Sie einen Rechtsklick auf die Aktivität Hadoop Pig ausführen und wählen Sie Optionen aus.
  3. In den Servernamensfeldern wird der Hadoop-Server angegeben, auf dem sich die zu verarbeitende Datei befindet.
  4. Klicken Sie auf die Schaltfläche „Durchsuchen“ ([...]), um zu der zu verarbeitenden Datei zu navigieren.
  5. Wählen Sie den Dateityp aus. „Hadoop Pig ausführen“ unterstützt Sequenzdateien mit und ohne Begrenzungszeichen.
  6. Wählen Sie das Begrenzungszeichen und das Textbegrenzungszeichen entsprechend aus.
  7. Klicken Sie im Bereich „Felder“ auf Hinzufügen und fügen Sie die Felder hinzu, die in der zu verarbeitenden Datei enthalten sind. Bei Sequenzdateien gilt das erste Feld als Schlüssel und die anderen Felder gehören zu den Werten mit Begrenzungszeichen.
  8. Wählen Sie wie gewünscht den Vorgang Kürzen aus. Bei dem Vorgang „Kürzen“ werden vor der Verarbeitung Leerzeichen im Eingabefeld gekürzt.
  9. Gehen Sie zur Registerkarte „Vorgänge“. Klicken Sie auf Hinzufügen, um mit dem Hinzufügen der Pig-Vorgänge zu beginnen, die in der Datei ausgeführt werden sollen. Dadurch wird der Editor „Vorgänge“ geöffnet.
  10. Wählen Sie einen Vorgang aus, der ausgeführt werden soll. Die verschiedenen Vorgänge lauten wie folgt:
    • Sortieren – Sortiert die Daten in alphabetischer Reihenfolge.
    • Filtern: Filtert die Daten Ihren Anforderungen entsprechend.
    • Aggregieren: Führt statistische Vorgänge zu den Daten aus, wie z. B. „Summe“ und „Anzahl“.
    • Verschieden – Wählen Sie alle eindeutigen Datensätze aus dem angegebenen Feld aus.
    • Begrenzen: Begrenzt die Anzahl der verarbeiteten Datensätze auf eine angegebene Anzahl.
  11. Verwenden Sie die Schaltflächen Nach oben und Nach unten, um die Reihenfolge der Vorgänge zu ändern.
  12. Sobald Sie die Vorgänge ausgewählt haben und die erforderliche Eingabe für die Verarbeitung der Vorgänge gemacht haben, können Sie auf Hinzufügen klicken, um Ihre Auswahl zu speichern und zum Pig-Optionseditor zurückzukehren.
  13. Das Pig-Skript wird automatisch basierend auf den ausgewählten Vorgängen generiert.
    • Mit dem Editor können Sie das generierte Pig-Skript bei Bedarf mit Ihrem eigenen Skript überschreiben. Klicken Sie auf die Option Skript bearbeiten und geben Sie Ihr eigenes Skript im Textfeld des Pig-Skripts ein. Die Schaltfläche Erneut generieren ist in diesem Fall aktiviert. Wenn Sie das vom System generierte Skript wieder anzeigen möchten, klicken Sie im Abschnitt „Pig-Skript“ auf Erneut generieren, um das Pig-Skript zu generieren.
    • Klicken Sie auf die Schaltfläche Überprüfen, um die Skriptsyntax zu überprüfen.
  14. Sie können die Ausgabedatei unter der Registerkarte Variablen angeben. Die Ausgabedatei kann von den nachfolgenden Aktivitäten verwendet werden.
  15. Klicken Sie auf OK, um das Pig-Skript zu speichern. Der Ausgabedateityp ist standardmäßig mit dem Eingabedateityp identisch. Sie können dies mithilfe des generierten Pig-Skripts ändern.