Group Statistics

Group Statistics ステージでは、分析対象のグループに分割された複数のデータ行に対し、統計操作を実行できます。グループが定義されていない場合、すべての行が 1 つのグループに含まれるものとして処理されます。

グループは、複数のデータ行にわたって同じ値を持つ 1 つまたは複数のフィールドによって定義されます。

例えば、次の表のデータは、地域、州、またはその両方でグループ化できます。

地域	State
東	MD
東	MD
東	CT
西	CA
西	CA

地域によってグループ化する場合は、東部および西部に分類されます。州によってグループ化する場合は、カリフォルニア州、コネチカット州、メリーランド州に分類されます。地域および州によってグループ化する場合は、東部/メリーランド州、東部/コネチカット州、西部/カリフォルニア州に分類されます。

入力

Group Statistics ステージは、任意のフィールドを入力として受け取ります。グループ化は、数値または文字列データに対して行うことができます。

オプション

表 1. [操作] タブ
オプション	説明
入力フィールド	レコードのグループ化や計算に使えるデータフロー内のフィールドを表示します。
行	計算のカテゴリとして使いたい 1 つまたは複数のフィールドを指定します。例えば、手持ちのデータに [地域] フィールドが含まれていて、地域別の総人口を計算したいようなときは、[地域] フィールドでグループ化を行います。フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。
列	これはオプションです。ピボットテーブルを作成する場合、クロス集計用の列の値として取り込むフィールドを指定します。フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。例えば、地域と出荷日を含むデータがあり、各州の 1 日あたりの出荷件数を集計したい場合は、州フィールドを行、出荷日フィールドを列として指定します。
行と列は設定された順序でソート済み	入力データが既にソート済みであることを示します。このチェックボックスがオンの場合、ステージにおいてデータはソートされることなく、指定された操作が入力データに対して直接実行されます。
操作	各グループに対して実行する計算を指定します。操作を追加するには、[入力フィールド] リスト内で操作に使いたいフィールドを選択し、[>>] をクリックします。サポートされる Group Statistics 操作の詳細については、操作を参照してください。
タイプ	入力フィールドと出力フィールドについて、データタイプを指定します。 Integer 正と負の自然数を含む数値データタイプ。値の範囲は、-2³¹ (-2,147,483,648) ～ 2³¹-1 (2,147,483,647)。経度正と負の自然数を含む数値データタイプ。値の範囲は、-2⁶³ (-9,223,372,036,854,775,808) ～ 2⁶³-1 (9,223,372,036,854,775,807)。 Float 正と負の単精度数を含む数値データタイプ。値の範囲は、2^-149 (1.4E-45) ～ (2-2²³)×2¹²⁷ (3.4028235E38)。二重線正と負の倍精度数を含む数値データタイプ。値の範囲は、2^-1074 (4.9E-324) ～ (2-2^-52)×21023 (1.7976931348623157E308)。注: integer タイプおよび long タイプを使用する場合に、演算の入力値や計算値に小数データが含まれていると、データが失われることがあります。
計算されたレコード数を取得	選択された操作を実行するグループ内の実際のレコード数を返します。この Computational Count 列には、操作を実行する列に `null` 値が含まれる入力レコードはカウントされません。

[フィールド] タブ

[フィールド] タブは、ピボットテーブルを作成するとき使います。詳細については、ピボットテーブルの作成を参照してください。

[出力] タブ

オプション	説明
グループごとに 1 行を返す	行グループごとに、グループ内のすべての行についての集計データを含む 1 行だけを返します。個別の行は削除されます。このオプションがオフの場合は、すべての行が返されます。どのデータも削除されません。 Percent Rank または ZScore 操作では、このオプションは使えません。
各グループの行数を返す	各グループの行数を返します。行数が設定されるデフォルトの出力フィールド名は GroupCount です。
各グループに対し、一意の ID を返す	各行グループのユニーク ID を返します。ID は 1 から始まり、追加のグループが見つかるたびに 1 ずつ増加します。デフォルトのフィールド名は、GroupID です。

オプション

説明

グループごとに 1 行を返す

行グループごとに、グループ内のすべての行についての集計データを含む 1 行だけを返します。個別の行は削除されます。このオプションがオフの場合は、すべての行が返されます。どのデータも削除されません。

Percent Rank または ZScore 操作では、このオプションは使えません。

各グループの行数を返す

各グループの行数を返します。行数が設定されるデフォルトの出力フィールド名は GroupCount です。

各グループに対し、一意の ID を返す

各行グループのユニーク ID を返します。ID は 1 から始まり、追加のグループが見つかるたびに 1 ずつ増加します。デフォルトのフィールド名は、GroupID です。