入力パラメータ

パラメータ 説明
Group-By Option

類似レコードのグループを結合することによって 1 つの Best of Breed レコードを作成する際に使用するフィールドを指定します。Best of Breed レコードは、各レコード グループに対して作成されます。

MapReduce ジョブの場合は、次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Number of Reducer Tasks
レコードのグループ化に必要なリデューサー タスクの数。
Spark ジョブの場合は、次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Best of Breed Configuration 類似レコードの各コレクションに対して Best of Breed レコードを作成する際に使用する、統合ルールとテンプレート ルールを定義します。
Input File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の入力テキスト ファイルのパス。
Record Separator
入力ファイル内で使用されるレコード区切り文字。
Field Separator
入力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
入力ファイルのヘッダー フィールドの配列。
Skip First Row
入力ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の出力テキスト ファイルのパス。
Field Separator
出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC ファイル パス
Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
共通パラメータ:
Overwrite
出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
Create Output Header
ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Name ジョブの名前。
Job Configurations ジョブ用の Hadoop 設定

MapReduce ジョブの場合、インスタンスのタイプはMRJobConfigである必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfigである必要があります。

Compress Output 出力を圧縮するかどうかを示すフラグ。

出力を圧縮する場合は true を設定します。