Big Data Quality SDK Hive 関数のコンポーネント

Big Data Quality SDK Hive UDF の実行に必要な主要コンポーネントは、以下のとおりです。
JAR ファイル
必要なデータ品質 Hive UDF が属するモジュールのBig Data Quality SDKHive JAR ファイル。いずれかの UDF を使用する前に、これが登録されている必要があります。
ジョブ UDF / UDAF
各データ品質ジョブは、ユーザ定義関数 (UDF) またはユーザ定義集約関数 (UDAF) として提供されます。
エイリアス
Hive UDF に割り当てられたエイリアス。この手順は省略可能です。
設定
実行するジョブに基づく、JSON 形式で指定されたルールとその他の環境設定詳細情報。
ヘッダー
入力テーブルのヘッダ フィールド (カンマ区切り形式)。
入力テーブル
実行する Hive UDF ごとに入力レコードを提供するテーブル。
候補テーブル
Interflow Match UDAF の場合、実行する Hive UDF に候補レコードを提供するテーブル。
サスペクト テーブル
Interflow Match UDAF の場合、実行する Hive UDF にサスペクト レコードを提供するテーブル。
Hive.Map.Aggr
Mapper および Reducer 間でのデータの集約をオンまたはオフにするには、この Hive 環境変数をfalseに設定します。デフォルトでは、Hive.Map.Aggr = trueとなっており、データは集約されます。

SDK 内のすべての Hive ジョブで、この値を false に設定します。

注: この設定はすべての UDAF で必要です。
全般的な設定
ジョブを実行するために必要なメモリ設定。
注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
入力設定
入力データの設定。
注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
エンジン設定
データベース設定、COBOL ランタイム パスプリロード タイプなど、さまざまな設定を行います。
注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
LD_LIBRARY_PATH
この環境変数は、Hive ジョブの実行時に必要なさまざまな COBOL ライブラリへのパスに設定します。
注: この設定は Validate Address の Hive UDAF でのみ必要です。
プロセス タイプ
SDK の特定の Hive ジョブで使用される適切な検証レベルを指定します。現時点では、住所検証のみがサポートされています。

この値は VALIDATE に設定します。

注: この設定は、Validate Address および Validate Address Loqate の Hive UDAF でのみ必要です。
出力
Hive UDF の出力。コンソールに表示されるか、出力ファイルに書き出されます。
クエリ
必要な Hive UDF を実行するクエリ。
各ジョブに対し、適切なクエリ構文を用いて以下の操作を実行できます。
  • ジョブの出力をコンソールに表示する。
  • 指定された出力ファイルに出力を書き出す。