Run Hadoop Pig

Run Hadoop Pig は、Apache Pig スクリプトを実行します。Apache Pig は、データ分析プログラムを表現するための高レベル言語で、これらのプログラムを評価するためのインフラストラクチャを持ちます。Pig プログラムは並列化が可能で、それによって非常に大規模なデータ セットを処理できます。

Run Hadoop Pig により、Pig 操作を選択し、必要なパラメータを入力して、Pig スクリプトをシステムに自動生成させることができます。Pig スクリプトは、任意の Hadoop サーバー上で実行できます。

Run Hadoop Pig は、Hadoop ファイル サーバー上でのみ動作します。Apache Hadoop 1.x と 2.x の両方がサポートされています。

Run Hadoop Pig オプションを設定するには

  1. [Run Hadoop Pig] アクティビティを、キャンバスにドラッグ アンド ドロップします。
  2. [Run Hadoop Pig] アクティビティを右クリックして、 [オプション]を選択します。
  3. サーバー名フィールドには、処理するファイルが存在する Hadoop サーバーが表示されます。
  4. 参照ボタン ([...]) をクリックして、処理するファイルを参照します。
  5. ファイル タイプを選択します。Run Hadoop Pig は、区切り記号付きファイルと区切り記号付きシーケンシャル ファイルの両方をサポートします。
  6. 必要に応じて区切り記号とテキスト修飾子を選択します。
  7. [フィールド] セクションで [追加] をクリックして、処理するファイルに存在するフィールドを追加します。シーケンシャル ファイルの場合は、最初のフィールドがキーとみなされ、その他のフィールドは区切られた値の一部であるとみなされます。
  8. 必要に応じて、 [トリム] 操作を選択します。トリム操作により、処理の前に入力フィールドの空白がトリムされます。
  9. [操作] タブに移動します。[追加] をクリックして、ファイルに対して実行する Pig 操作の追加を開始します。これにより、操作エディタが開きます。
  10. 実行する操作を選択します。以下のようなさまざまな操作があります。
    • Sort - データをアルファベット順にソートします。
    • Filter - データを要件に応じてフィルタできます。
    • Aggregate - データに対して Sum (合計) や Count (総数) などの統計操作を実行できます。
    • Distinct - 指定されたフィールドから一意のレコードをすべて選択します。
    • Limit - 処理するレコード数の上限を指定できます。
  11. 操作の順序を変更するには、 [上へ移動] ボタンと [下へ移動] ボタンを使用します。
  12. 操作を選択して、操作の処理に必要な入力を設定したら、 [追加] をクリックして選択を保存し、Pig オプション エディタに戻ります。
  13. Pig スクリプトが、選択された操作に基づいて自動的に生成されます。
    エディタにおいて、生成された Pig スクリプトを必要に応じて独自のスクリプトで上書きできます。 [スクリプトを編集] オプションをクリックして、独自のスクリプトを [Pig スクリプト] テキスト ボックスに入力します。この場合は [再生成] ボタンが有効になります。システムに再度スクリプトを生成させたい場合は、[Pig スクリプト] セクションの [再生成] をクリックして、Pig スクリプトを生成します。
  14. 出力ファイルは、 [変数] タブで指定できます。出力ファイルは、それ以降のアクティビティで使用できます。
  15. [OK] をクリックして Pig スクリプトを保存します。デフォルトでは、出力ファイル形式は入力ファイル形式と同じです。生成された Pig スクリプトを使用して、これを変更できます。