入力パラメータ

パラメータ 説明
Advanced Transformer Configuration

テーブルまたは正規表現を使用して、一連のデータ列をスキャンして複数のフィールドに分割します。

特定の語や、語の右側または左側から指定した数の単語を抽出できます。抽出データと非抽出データは、既存のフィールドまたは新しいフィールドに配置されます。

Advanced Transformer ルールは、AdvancedTransformerConfiguration タイプのインスタンスを用いて定義できます。このインスタンスは、TableDataExtraction または RegularExpressionExtraction のインスタンスである必要があります。

Reference Data Path リファレンス データ パスの詳細を指定します。
Job Configurations ジョブ用の Hadoop 設定

MapReduce ジョブの場合、インスタンスのタイプはMRJobConfigである必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfigである必要があります。

Input File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の入力テキスト ファイルのパス。
Record Separator
入力ファイル内で使用されるレコード区切り文字。
Field Separator
入力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
入力ファイルのヘッダー フィールドの配列。
Skip First Row
入力ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の出力テキスト ファイルのパス。
Field Separator
出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
重要: FilePathの適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC ファイル パス
Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
共通パラメータ:
Overwrite
出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
Create Output Header
ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Name ジョブの名前。