入力パラメータ

パラメータ 説明
Group-By Option MapReduce ジョブの場合は、次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Number of Reducer Tasks
レコードのグループ化に必要なリデューサー タスクの数。
Spark ジョブの場合、Group-By オプションを作成するため次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Match Rule 親ルールと子ルールを、MatchRuleオブジェクトの作成に必要な数だけ定義します。

詳細については、MatchRuleを参照してください。

Input File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の入力テキスト ファイルのパス。
Record Separator
入力ファイル内で使用されるレコード区切り文字。
Field Separator
入力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
入力ファイルのヘッダー フィールドの配列。
Skip First Row
入力ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の出力テキスト ファイルのパス。
Field Separator
出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC ファイル パス
Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
共通パラメータ:
Overwrite
出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
Create Output Header
ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Name ジョブの名前。
Job Configurations ジョブ用の Hadoop 設定

MapReduce ジョブの場合、インスタンスのタイプはMRJobConfigである必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfigである必要があります。

Return Unique Candidates ユニークな候補を出力として返さなければならないかどうかを示すフラグ。
Compress Output 出力を圧縮するかどうかを示すフラグ。

出力を圧縮する場合は true を設定します。

Match Key Settings マッチングの実行に必要なマッチ キーの生成に適用する、列とアルゴリズムの組み合わせ。
注: マッチ キーを 1 つだけ指定します。
重要: マッチ キー設定は、マッチングを実行する前にマッチ キーを生成する場合のみ、設定します。