ワークフロー

SDK を使用するには、次のコンポーネントが必要です。

Big Data Quality SDKのインストール

Big Data Quality SDKの JAR ファイルをシステムにインストールし、アプリケーションで使用できるようにする必要があります。

クライアントアプリケーション

SDK を使用して必要なデータ品質操作を呼び出して実行するために作成する必要がある Java アプリケーション。Big Data Quality SDKの JAR ファイルを Java アプリケーションにインポートする必要があります。

Hadoop プラットフォーム

Big Data Quality SDKを使用してジョブを実行する際、まず、設定済みの Hadoop プラットフォームからデータが読み込まれ、関連する処理が実行された後、出力データが Hadoop プラットフォームに書き出されます。

このため、使用するマシンで Hadoop のアクセスの詳細情報を正しく設定しておく必要があります。詳細については、概要を参照してください。

リファレンスデータ

Big Data Quality SDKで必要なリファレンスデータは、Hadoop クラスタに配置されます。

Java API

Java API を使用する場合は、次のいずれかの場所にリファレンスデータを配置できます。

ローカルデータノード: リファレンスデータはクラスタ内の使用可能な全てのノードに配置されます。
注: これはフェイルセーフな方法とはいえません。
Hadoop Distributed File System (HDFS): リファレンスデータは HDFS ディレクトリに配置されます。この方法では、データがフェイルセーフに保管されます。

Hive UDF

Hive UDF を使用する場合は、リファレンスデータをクラスタの各ローカルデータノードに配置する必要があります。

注: また、この SDK では、パフォーマンス向上のための分散キャッシュを実行できます。