入力パラメータ

パラメータ	説明
Group-By Option	類似レコードのグループを結合することによって 1 つの Best of Breed レコードを作成する際に使用するフィールドを指定します。Best of Breed レコードは、各レコードグループに対して作成されます。 MapReduce ジョブの場合は、次の引数を渡します。 GroupBy Column レコードのグループ化に使用する列の名前。 Number of Reducer Tasks レコードのグループ化に必要なリデューサータスクの数。 Spark ジョブの場合は、次の引数を渡します。 GroupBy Column レコードのグループ化に使用する列の名前。
Best of Breed Configuration	類似レコードの各コレクションに対して Best of Breed レコードを作成する際に使用する、統合ルールとテンプレートルールを定義します。
Input File	テキストファイルの場合: File Path Hadoop プラットフォーム上の入力テキストファイルのパス。 Record Separator 入力ファイル内で使用されるレコード区切り文字。 Field Separator 入力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。 Text Qualifier 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。 Header Row Fields 入力ファイルのヘッダーフィールドの配列。 Skip First Row 入力ファイルレコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。先頭行がヘッダー行である場合は、これを `true` にする必要があります。重要: `FilePath`の適切なコンストラクタを呼び出します。 ORC 形式ファイル: ORC File Path Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。共通パラメータ: Field Mappings キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File	テキストファイルの場合: File Path Hadoop プラットフォーム上の出力テキストファイルのパス。 Field Separator 出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。重要: `FilePath`の適切なコンストラクタを呼び出します。 ORC 形式ファイル: ORC ファイルパス Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。共通パラメータ: Overwrite 出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。 Create Output Header ヘッダーファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Name	ジョブの名前。
Job Configurations	ジョブ用の Hadoop 設定 MapReduce ジョブの場合、インスタンスのタイプはMRJobConfigである必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfigである必要があります。
Compress Output	出力を圧縮するかどうかを示すフラグ。出力を圧縮する場合は `true` を設定します。