Hadoop Pig-Vorgänge

Die verschiedenen Pig-Vorgänge lauten wie folgt:

  1. Sortieren: Sortiert die Daten in alphabetischer Reihenfolge. Der Sortiervorgang wird unter Sortieren von Eingabedatensätzen detailliert beschrieben.
  2. Filtern: Ermöglicht es Ihnen, die Daten Ihren Anforderungen entsprechend zu filtern. Der Filtervorgang wird unter Filtern von Eingabedatensätzen detaillierter beschrieben.
  3. Aggregieren: Ermöglicht es Ihnen, statistische Vorgänge zu den Daten auszuführen, wie z. B. „Summe“, „Anzahl“ und andere.

    Wählen Sie wie erwünscht die Aggregatvorgänge für die einzelnen Felder aus.

    • Summe: Berechnet die Summe der Werte im Feld.
    • Durchschnitt: Berechnet den Durchschnitt aller Werte im Feld.
    • Max.: Berechnet den maximalen Wert der Werte im Feld.
    • Min.: Berechnet den minimalen Wert der Werte im Feld.
    • Anzahl: Berechnet die Gesamtzahl der Werte im Feld.
      Anmerkung: Wenn Sie den Vorgang „Verschieden“ auswählen, werden nur die eindeutigen Werte gezählt.
  4. Verschieden: Durch Auswahl dieser Option werden im Vorgang „Anzahl aggregieren“ nur eindeutige Werte im Feld gezählt.
  5. Begrenzen: Geben Sie einen Wert ein, der größer als null ist, um die Anzahl der verarbeiteten Datensätze auf diesen Wert zu begrenzen.