Validate Address Global Spark ジョブの使用

  1. GlobalAddressingFactoryのインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. Validate Address Global ジョブの入力と出力の詳細を指定します。これには GlobalAddressingDetailを指定するProcessType のインスタンスを作成します。このインスタンスは、SparkProcessTypeタイプを使用する必要があります。これを行うには、次の手順に従います。
    1. GlobalAddressingGeneralConfigurationのインスタンスを作成することによって、JVM の初期化を設定します。
      列挙体 列挙 CacheSize列挙 RangesToExpand、および 列挙 FlexibleRangeExpansion を使用します。
    2. LocalReferenceDataPathのインスタンスを作成することによって、リファレンス データ パスの詳細を設定します。
    3. 必要なデータベース設定を指定します。これには、前述の GlobalAddressingEngineConfigurationインスタンスを引数として渡して、LocalReferenceDataPath のインスタンスを作成します。
      1. 列挙体 列挙 PreloadingTypeを使用してこのインスタンスのプリロード タイプを設定します。
      2. 列挙 DatabaseType使用してデータベース タイプを設定します。
      3. 列挙 CountryCodesを使用してサポートされる国を設定します。
      4. すべての国をサポートする場合は、isAllCountries属性を true に設定します。そうでない場合は、列挙 CountryCodesの値をコンマで区切ったリストで supportedCountries 文字列値に指定します。
    4. GlobalAddressingInputConfigurationのインスタンスを作成することによって、入力を設定します。
      このインスタンスの各種フィールドの値を設定するには、列挙体 列挙 CountryCodes列挙 StateProvinceType列挙 CountryType列挙 PreferredScript列挙 PreferredLanguage列挙 Casing列挙 OptimizationLevel列挙 Mode、および 列挙 MatchingScope の該当するものを使用します。
    5. データにアンロック キーを StringList 値として設定します。
    6. GlobalAddressingDetailのインスタンスを作成します。JobConfig タイプのインスタンスと、先ほど作成したアンロック コード値の ListGlobalAddressingEngineConfiguration インスタンス、および GlobalAddressingInputConfiguration インスタンスを引数としてコンストラクタに渡します。
      JobConfigパラメータは、SparkJobConfig タイプのインスタンスである必要があります。
      1. JVM 初期化構成を設定します。generalConfigurationインスタンスの GlobalAddressingDetail フィールドを上で作成した GlobalAddressingGeneralConfiguration インスタンスに設定します。
      2. inputPathインスタンスの GlobalAddressingDetail フィールドを使用して、入力ファイルの詳細を設定します。

        テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePathのインスタンスを作成します。ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePathのインスタンスを作成します。

      3. outputPathインスタンスの GlobalAddressingDetail フィールドを使用して、出力ファイルの詳細を設定します。

        テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePathのインスタンスを作成します。ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePathのインスタンスを作成します。

      4. jobNameインスタンスの GlobalAddressingDetail フィールドを使用して、ジョブの名前を設定します。
  3. Spark ジョブを作成して実行するには、先ほど作成した GlobalAddressingFactoryのインスタンスを使用してそのメソッドrunSparkJob() を呼び出します。ここで、上の GlobalAddressingDetailのインスタンスを引数として渡します。
    runSparkJob()メソッドはジョブを実行し、ジョブのレポート カウンタの Map を返します。
  4. カウンタを表示することにより、ジョブに対する統計レポートを表示します。