入力パラメータ

パラメータ 説明
Group-By Option MapReduce ジョブの場合は、次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Number of Reducer Tasks
レコードのグループ化に必要なリデューサー タスクの数。
Spark ジョブの場合、Group-By オプションを作成するため次の引数を渡します。
GroupBy Column
レコードのグループ化に使用する列の名前。
Match Rule 親ルールと子ルールを、MatchRuleオブジェクトの作成に必要な数だけ定義します。

詳細については、MatchRuleを参照してください。

Candidate File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の候補テキスト ファイルのパス。
Record Separator
候補ファイル内で使用されるレコード区切り文字。
Field Separator
候補ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
候補ファイルのヘッダー フィールドの配列。
Skip First Row
サスペクト ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
重要: サスペクト ファイルと候補ファイルは、同じファイル形式である必要があります。両方ともテキスト ファイルまたは ORC 形式ファイルでなければなりません。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Suspect File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上のサスペクト テキスト ファイルのパス。
Record Separator
サスペクト ファイル内で使用されるレコード区切り文字。
Field Separator
サスペクト ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
サスペクト ファイルのヘッダーフィールドの配列。
Skip First Row
サスペクト ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の出力テキスト ファイルのパス。
Field Separator
出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC ファイル パス
Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
共通パラメータ:
Overwrite
出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
Create Output Header
ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Configurations ジョブ用の Hadoop 設定

MapReduce ジョブの場合、インスタンスのタイプはMRJobConfigである必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfigである必要があります。

Match Key Settings マッチングの実行に必要なマッチ キーの生成に適用する、列とアルゴリズムの組み合わせ。
注: マッチ キーを 1 つだけ指定します。
重要: マッチ キー設定は、マッチングを実行する前にマッチ キーを生成する場合のみ、設定します。
Job Name ジョブの名前。
Express Match Column レコードの Express マッチに使用する列名。
Setting Collection Number Zero to Unique Records ユニーク レコードのコレクション番号を 0 (ゼロ) に設定する場合は、これを true にします。
Comparison Option 次の 2 つのオプションのいずれかを選択できます。
  • Compare the Suspect record to all Candidate records: ユニーク レコードを出力に返す必要があるかどうかを指定します。
  • Compare the Suspect record to the selected Candidate record only: 検索して返す重複レコードの最大数を指定します。
Compress Output 出力を圧縮するかどうかを示すフラグ。

出力を圧縮する場合は true を設定します。