Table Lookup Spark ジョブの使用

  1. DataNormalizationFactoryのインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. Table Lookup ジョブの入力と出力の詳細を指定します。以下の手順に従って、ProcessType を指定する TableLookupDetail のインスタンスを作成することによって、これを行います。このインスタンスは、SparkProcessType タイプを使用する必要があります。
    1. TableLookupConfigurationのインスタンスを作成することによって、Table Lookup ルールを設定します。このインスタンスの中で、次の操作を行います。
      AbstractTableLookupRuleタイプのインスタンスを追加します。この AbstractTableLookupRuleインスタンスは、必要な Table Lookup ルール カテゴリに応じて Standardize,Categorize または Identify のいずれかのクラスを用いて定義する必要があります。
    2. ReferenceDataPathのインスタンスを作成することによって、リファレンス データ パスと場所のタイプの詳細を設定します。列挙 ReferenceDataPathLocationを参照してください。
    3. TableLookupDetail のインスタンスを作成します。JobConfig タイプのインスタンスと、上で作成した TableLookupConfigurationReferenceDataPath のインスタンスを、コンストラクタの引数として渡します。
      JobConfig パラメータは、SparkJobConfig タイプのインスタンスである必要があります。
    4. inputPathインスタンスの TableLookupDetail フィールドを使用して、入力ファイルの詳細を設定します。
      テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePathのインスタンスを作成します。ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePathのインスタンスを作成します。
    5. outputPathインスタンスの TableLookupDetail フィールドを使用して、出力ファイルの詳細を設定します。
      テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePathのインスタンスを作成します。ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePathのインスタンスを作成します。
    6. jobNameインスタンスの TableLookupDetail フィールドを使用して、ジョブの名前を設定します。
    7. compressOutputインスタンスの TableLookupDetail フラグに true を設定して、ジョブの出力を圧縮します。
  3. Spark ジョブを作成して実行するには、先ほど作成した DataNormalizationFactory のインスタンスを使用してそのメソッド runSparkJob() を呼び出します。ここで、上の TableLookupDetail のインスタンスを引数として渡します。
    runSparkJob() メソッドはジョブを実行し、ジョブのレポート カウンタの Map を返します。
  4. カウンタを表示することにより、ジョブに対する統計レポートを表示します。