ピボット テーブルの作成

ピボット テーブルとは、入力データに基づいてテーブルの行と列のカテゴリを作成することで、データを分析しやすいように集約するものです。詳細については、「 ピボット テーブル」を参照してください。

Group Statistics ステージのオプションで、次の操作を行います。
  1. [操作] タブで、[入力フィールド] からピボット テーブルで行ラベルとして使用するデータを含むフィールドを選択します。続いて、[行] フィールドの横にある [>>] ボタンをクリックします。
  2. ピボット テーブルの列として使用するデータを含むフィールドを選択し、[列] フィールドの横にある [>>] ボタンをクリックします。
    ヒント: この段階で、インスペクションを実行して現在の選択の結果を確認します。選択した行と列によるクロス集計の結果を、可視化することができます。
  3. 入力レコードのソートをスキップするには、[行と列は設定された順序でソート済み] をオンにします。
    このオプションがオンの場合、入力レコードはソートされることなくステージで処理されます。
    注: レコードが既にソートされている場合は、このオプションをオンにします。
  4. 実行する操作を定義するには、[操作] フィールドの横にある [>>] ボタンをクリックします。
    [操作の追加] ウィンドウで、次の操作を行います。
    1. 実行する [操作] を選択します。
    2. [入力フィールド] セクションで、操作を実行する入力フィールドの [名前][タイプ] を選択します。
    3. [出力フィールド] セクションで、操作を実行した後に生成される出力フィールドの [名前] を入力し、[タイプ] を選択します。
    4. 操作を実行する入力レコードの実際の数を、独立した出力列として取得するには、[計算されたレコード数を取得] をオンにします。
      null 値を含むレコードは、カウント ComputationalCount<Operation>Of<InputFieldName> に含まれません。

      Computational Count がサポートされている関数:
      • Average
      • 分散
      • ZScore
      • 標準偏差
      • 百分位数 (Percentile)
      • Percent Rank
      • 合計
      その他の操作に対しては、このチェックボックスは無効のままになります。
  5. ピボット テーブルの各列の出力フィールドを定義するには、ステージ オプションの [フィールド] タブをクリックします。
    ヒント: フィールドを正確に定義するために、この手順の前にインスペクション フローを 1 度実行して、データによって生成される列の名前を確認してください。
    1. [追加] をクリックします。
      [フィールドの追加] ウィンドウが表示されます。
    2. [フィールドの追加] ウィンドウのグリッド列は、[操作] タブで選択した [列] フィールドに基づきます。これらのグリッド列に、インスペクション フローを実行するときに列見出しとして表示される値を入力します。
      インポート機能を使用して [データ] 列のレコードを一発で設定することもできます。データを CSV またはテキスト ファイルからインポートする:
      1. [インポート] をクリックします。
      2. [ファイル名] フィールドでソース ファイルを参照して指定します。
      3. [フィールド区切り文字とレコード区切り文字] に値を入力します。
      4. [OK] をクリックします。
      ファイル内のすべてのレコードが [Column Data] テーブルに設定されます。
      注: ヘッダ行のないファイルをソース ファイルとして使用してください。
      例えば、[操作] タブの [列]ShipDat e という入力フィールドを選択した場合は、[フィールドの追加] ウィンドウのグリッドには ShipDate というラベルの列が表示されます。このグリッド列に、データフローの入力データに存在する正確な ShipDate の値を、2/25/20101/31/2010 のように入力します。
    3. [操作] フィールドで、入力した各列フィールド値に対して出力フィールドを生成する、1 つ以上の操作を選択します。選択した操作は、フィールド名だけに影響を与え、実際の計算は制御しないことに注意してください。
      [フィールド] タブの [操作] フィールドに一覧表示される操作を変更するには、[操作] タブで [操作] フィールドの値を変更します。
      重要: Computational Count の操作オプションである ComputationalCount<Operation>Of<InputFieldName> は、[操作] タブで [操作] を定義する際に [計算されたレコード数を取得] チェックボックスをオンにした場合にのみ表示されます。
    4. [追加] をクリックします。
  6. [OK] をクリックします。
上のグリッドに入力された各入力値を、選択された [操作] の各値にマッピングすることによって、出力フィールドが自動的に作成されます。グリッドに入力した入力列値と選択した操作のデカルト積が、最終的な出力列の自動生成に使用されます。

出力列の名前は、命名規則 <Data>_<Operation>Of<InputFieldName> に従います。ここで、<Data> は最初のフィールドで指定した値、<Operation>[操作] フィールドで選択した操作、<InputFieldName>operation を実行する入力列です。

ピボット テーブルの例

以下は、サービス業務部門からの出荷情報を示す入力データです。

Region,State,County,ShipDate,Unit
East,MD,Calvert,1/31/2010,
East,MD,Calvert,6/31/2010,212
East,MD,Calvert,1/31/2010,633
East,MD,Calvert,6/31/2010,234
East,MD,Prince Georges,2/25/2010,112
East,MD,Montgomery,1/31/2010,120
East,MD,Baltimore,6/31/2010,210
East,VA,Fairfax,1/31/2010,710
West,CA,SanJose,1/31/2010,191
West,CA,Alameda,2/25/2010,411
West,CA,Los Angeles,2/25/2010,
West,CA,Los Angeles,2/25/2010,215
West,CA,Los Angeles,6/31/2010,615
West,CA,Los Angeles,6/31/2010,727

各出荷日に各州宛てに発送された出荷件数を調べるには、次の図のように Group Statistics ステージを設定することによってピボット テーブルを作成します:

ステージ オプションの [フィールド] タブで、データフローの入力データの ShipDate フィールドに出現する正確な日付をグリッドに追加し、各列値に対して表示する [操作] の値を選択します。

[フィールドの追加] ウィンドウの [OK] をクリックすると、作成された出力列が自動的に [フィールド] タブに一覧表示されます。これらの出力列は、正確な入力値と、[フィールドの追加] ウィンドウで選択した操作のデカルト積です。

出力

State,1/31/2010_GroupCount,1/31/2010_ComputationalCountSumOfUnit,
1/31/2010_SumOfUnit,2/25/2010_GroupCount,2/25/2010_ComputationalCountSumOfUnit,
2/25/2010_SumOfUnit,6/31/2010_GroupCount,6/31/2010_ComputationalCountSumOfUnit,
6/31/2010_SumOfUnit
VA,1,1,710,,,,,,
CA,1,1,191,3,2,626,2,2,1342
MD,3,2,753,1,1,112,3,3,656