Submit Spark Job
Submit Spark Job アクティビティを使用すると、Spark ジョブを Hadoop クラスタまたは Spark クラスタで実行することができます。このアクティビティを使用すると、Spectrum™ Big Data Quality SDK の Spark ジョブまたは任意の外部 Spark ジョブを実行できます。
- YARN
- Spark
展開モード
Spark ジョブは、クラスタまたはクライアント展開モードで実行します。展開モードによって、Spark ジョブ ドライバ クラスがクラスタで実行されるか、それともクライアントSpectrum™ Technology Platformで実行されるかが決まります。
- YARN クラスタ モード
- YARN クライアント モード
- Spark クライアント モード
フィールド | 説明 |
---|---|
ジョブ名 | Spark ジョブの名前。 |
Hadoop サーバー | 設定された Hadoop サーバーのリスト。 Management Console から HDFS ファイル サーバーをマッピングする方法については、『管理ガイド』を参照してください。 |
Jar パス | 実行する Spark ジョブに関連する JAR ファイルのパス。 注: Jar パスは、Spectrum サーバー コンピュータ上のディレクトリを指している必要があります。
|
ジョブの種類 | 次のいずれかを選択します。
|
Spectrum ジョブ | Spectrum Big Data Quality SDK ジョブの一覧から Spectrum ジョブを 1 つ選択します。 必要な Spectrum ジョブを選択すると、次のようになります。
|
クラス名 | ジョブのドライバ クラスの完全修飾名。 |
引数 | スペースで区切られた引数のリスト。これらは実行時にドライバ クラスに渡されて、ジョブの実行に使用されます。 例を次に示します。
Spectrum Big Data Quality SDK Spark ジョブを実行するには、各種設定ファイルを引数リストとして渡します。各引数キーに、1 つの設定プロパティ ファイルのパスが指定できます。各ファイルには、複数の設定プロパティが含まれます。 設定プロパティの引数リストの構文は以下のとおりです。 [-config <Path to
configuration file>] [-debug] [-input <Path to input configuration file>] [-conf
<Path to Spark configuration file>] [-output <Path of output
directory>] 例えば、Spark MatchKeyGenerator ジョブの場合は次のようになります。 -config
/home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input
/home/hadoop/spark/matchkey/inputFileConfig.xml -output
/home/hadoop/spark/matchkey/outputFileConfig.xml 注: 同じ設定プロパティ キーが [引数] フィールドと [プロパティ] グリッドの両方で指定されており、両者が異なる設定ファイルを参照している場合は、[プロパティ] グリッドで指定されているファイルがこのプロパティに対して適用されます。
設定プロパティのサンプルは、Big Data Quality SDK に付属しており、<Big Data Quality bundle>\samples\configurationにあります。 。 |
一般プロパティ
フィールド | 説明 | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
マスター | Spark ジョブの実行に適用されるオプションを選択します。
|
|||||||||||||||
Spark URL | Spark クラスタにアクセスするための URL で、フォーマットは <hostname of Spark
cluster>:<port of Spark cluster> です。このフィールドは、[マスター] フィールドで [Spark] を選択すると表示されます。 |
|||||||||||||||
展開モード | 次のオプションのいずれかを選択します。
|
|||||||||||||||
プロパティ | グリッド内の [プロパティ] 列にプロパティの名前を入力し、[値] 列にそのプロパティの値を入力します。 [マスター] と [展開モード] のタイプによって、特定のプロパティが必須です。
注: 上記の必須プロパティは、Management Console で接続を作成するときに定義するか、この Spark アクティビティを使用して定義することができます。同じプロパティが Management Console と Spark Job アクティビティの両方で定義された場合、Spark アクティビティで割り当てられた値が使用されます。
これらの必須プロパティのほかに、ジョブの実行に必要なプロパティをいくつでも入力またはインポートすることができます。 |
|||||||||||||||
インポート | プロパティをファイルからインポートする場合は、[インポート] をクリックします。各プロパティ ファイルの場所に移動し、XML 形式のファイルを選択します。インポートされたファイルに含まれるプロパティが、[プロパティ] グリッドにコピーされます。 注:
|
依存関係
このタブでは、ジョブの実行に必要な一連の入力ファイルと Jar ファイルを追加します。ジョブの実行が終わると、ここで追加した参照ファイルと参照 Jar ファイルが、ジョブの分散キャッシュから使用できるようになります。
- 参照ファイル
- ジョブの実行に必要な各種のファイルを追加するには、[追加] をクリックし、ローカル システムまたはクラスタ上のそれぞれの場所に移動し、特定のファイルを選択します。
リストに追加したファイルを削除するには、そのファイルを選択し、[削除] をクリックします。
- 参照 Jar
- ジョブの実行に必要な Jar ファイルを追加するには、[追加] をクリックし、ローカル システムまたはクラスタ上のそれぞれの場所に移動し、特定の Jar ファイルを選択します。
リストに追加したファイルを削除するには、そのファイルを選択し、[削除] をクリックします。