Spark Sorter

Spark Sorter アクティビティを使用すると、大部分のレコードをソートすることができます。このアクティビティは Apache Spark ライブラリを使用して機能強化されており、Spectrum™ Technology Platform サーバーで実行されます。

現時点では、Spectrum™ Technology Platform サーバー上に存在する区切り記号付きファイルをレコードの読み込みに利用できます。

注: リモート サーバー上に存在するファイルはサポートされていません。
フィールド 説明
サーバ名

入力用に選択するファイルの場所を示します。

Spark Sorter アクティビティで利用できるのは Spectrum™ Technology Platform 上に存在するファイルのみなので、このフィールドには Spectrum™ Technology Platform が表示されます。

ファイル名

ファイルへのパスを指定します。省略記号ボタン (...) をクリックし、目的のファイルを選択します。

ワイルド カード文字を使用して、ディレクトリ内の複数のファイルからデータを読み込むことができます。サポートされているワイルド カード文字は、* と ? です。例えば、*.csv と指定して、ディレクトリ内にある、拡張子が .csv のファイルをすべて読み込むことができます。複数のファイルを正常に読み込むには、各ファイルが同じレイアウト (同じ位置に同じフィールド) を持つ必要があります。[フィールド] タブで指定したレイアウトに一致しないレコードは、形式に誤りのあるレコードとして扱われます。

重要: なお、Spectrum™ Technology Platform サーバーを実行しているプラットフォームが Unix または Linux の場合、これらのプラットフォームでファイル名およびパスの大文字と小文字が区別されることに注意してください。
レコード タイプ ファイル内のレコードのフォーマット。現時点で入力用に使用できるのは、区切り記号付きファイル フォーマットです。
区切り記号付き
ファイル内の各レコードが復帰または改行 (CR または LF) などの行末 (EOL) 文字で区切られ、レコード内の各フィールドがカンマ (,) などの特定の文字で区切られているテキスト ファイル。
文字エンコード

入力ファイルの文字エンコーディング。

エンコーディング UTF-8 がサポートされています。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。

フィールド区切り文字

区切り記号付きファイル内のフィールドを区切るのに使用する文字を指定します。

例えば、次のレコードでは (|) 記号がフィールド区切り文字として使われています。

7200 13TH ST|MIAMI|FL|33144

フィールド区切り文字として定義できるのは次の文字です。

  • スペース
  • タブ
  • カンマ
  • ピリオド (.)
  • セミコロン
  • パイプ (|)

これ以外の文字がフィールド区切り文字として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字を区切り文字として選択してください。

Text qualifier

区切り記号付きファイル内のテキスト値を囲むのに使用する文字。

例えば、次のレコードでは二重引用符 (") がテキスト修飾子として使われています。

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

テキスト修飾子として定義できるのは次の文字です。

  • 一重引用符 (')
  • 二重引用符 (")

これ以外の文字がテキスト修飾子として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をテキスト修飾子として選択してください。

レコード区切り文字

順次ファイルまたは区切り記号付きファイル内のレコードを区切るのに使用する文字を指定します。[デフォルトの EOL を使用] チェック ボックスをオンにすると、このフィールドは使用できません。

使用できるレコード区切り文字の設定は次のとおりです。

Unix (U+000A)
改行 (LF) 文字でレコードを区切ります。これは Unix システムの標準のレコード区切り文字です。
Macintosh (U+000D)
復帰 (CR) 文字でレコードを区切ります。これは Macintosh システムの標準のレコード区切り文字です。
Windows (U+000D U+000A)
復帰改行 (CR+LF) でレコードを区切ります。これは Windows システムの標準のレコード区切り文字です。

これ以外の文字がレコード区切り文字として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をレコード区切り文字として選択してください。

デフォルトの EOL を使用

Spectrum™ Technology Platform サーバーが実行されているオペレーティング システムのデフォルトの行末 (EOL) 文字をファイルのレコード区切り文字として使用します。

ファイルの EOL 文字がサーバーのオペレーティング システムで使われているデフォルトの EOL 文字と異なる場合は、このオプションをオンにしないでください。例えば、ファイルで Windows の EOL が使われていて、サーバーの動作プラットフォームが Linux の場合は、このオプションをオンにしないでください。代わりに、[レコード区切り文字] フィールドで [Windows] オプションを選択します。

最初の行はヘッダ レコード

区切り記号付きファイルの先頭レコードの内容がデータではなくヘッダ情報であるかどうかを指定します。

次のファイル スニペットは、先頭レコードのヘッダー行の例です。

"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
出力

Spectrum™ Technology Platform サーバー上の出力ファイルのパスを指定します。省略記号ボタン (...) をクリックし、出力ファイルのディレクトリとファイル名を選択します。

重要: なお、Spectrum™ Technology Platform サーバーを実行しているプラットフォームが Unix または Linux の場合、これらのプラットフォームでファイル名およびパスの大文字と小文字が区別されることに注意してください。
Overwrite [出力] フィールドに指定したファイルと同じ名前のファイルが既に存在する場合、出力ファイルでそれを上書きすることを示します。
連結 すべての Spark パート ファイルを、指定した [出力] 場所の 1 つの出力ファイルに連結することを示します。
プレビュー [ファイル名] フィールドで入力ファイルを選択すると、[プレビュー] グリッドに現在の出力ファイルの最初の 100 件のレコードが表示されます。

すべての列の値を正しく表示するには、[フィールド] タブの [再生成] をクリックします。

[フィールド] タブ

[フィールド] タブでは、ファイルの各フィールドの名前、タイプ、および位置を定義します。詳細については、以下を参照してください。

[ソート] タブ

[ソート] タブでは、データフローに送出される前の入力レコードのソートに使うフィールドを定義します。詳細については、「 レコードのソート」を参照してください。

[構成] タブ

必要なジョブを実行するために追加のプロパティを指定する場合は、このタブでプロパティと値のペアを必要なだけ定義します。必要なプロパティを 1 つずつ直接グリッドに追加できます。

または、[インポート] をクリックしてファイルからプロパティをインポートします。各プロパティ ファイルの場所に移動し、XML 形式のファイルを選択します。インポートされたファイルに含まれるプロパティがグリッドにコピーされます。プロパティ ファイルは XML 形式で、次の構文に従う必要があります。
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>
注:
  1. 同じプロパティがこの場所と Management Console で定義されている場合、この場所で定義された値が Management Console で定義された値に優先します。
  2. 同じプロパティがグリッド内とインポートされたプロパティ ファイル内にある場合は、ファイルからインポートされた値がグリッド内の同じプロパティの既存の値を上書きします。
  3. 必要であれば、複数のプロパティ ファイルを 1 つずつインポートすることができます。インポートされた各ファイルからプロパティがグリッドに追加されます。
  4. プロパティ ファイルが Spectrum™ Technology Platformサーバー上に存在することを確認してください。
  5. <description>タグは、設定プロパティ ファイル内の各プロパティ キーに対して省略可能です。

[実行時] タブ

フィールド名 説明

ファイル名

最初のタブで選択したファイル名が表示されます。

開始レコード

レコードをデータフローに読み込むときファイルの先頭部分にあるレコードをスキップしたければ、読み込みたい最初のレコードを指定します。例えば、最初の 50 個のレコードをスキップする場合は 51 と指定します。これで 51 番目のレコードがデータフローに読み込まれる最初のレコードとなります。

すべてのレコード

[開始レコード] フィールドで指定したレコードからファイルの最後までのレコードをすべて読み込む場合は、このオプションをオンにします。

最大レコード数

[開始レコード] フィールドで指定したレコードを起点にそこから一定の数のレコードを読み込む場合は、このオプションをオンにします。例えば、最初の 100 個のレコードを読み込みたい場合は、このオプションをオンにして 100 と入力します。