Group Statistics
Group Statistics ステージでは、分析対象のグループに分割された複数のデータ行に対し、統計操作を実行できます。グループが定義されていない場合、すべての行が 1 つのグループに含まれるものとして処理されます。
グループは、複数のデータ行にわたって同じ値を持つ 1 つまたは複数のフィールドによって定義されます。
例えば、次の表のデータは、地域、州、またはその両方でグループ化できます。
地域 | State |
---|---|
東 | MD |
東 | MD |
東 | CT |
西 | CA |
西 | CA |
地域によってグループ化する場合は、東部および西部に分類されます。州によってグループ化する場合は、カリフォルニア州、コネチカット州、メリーランド州に分類されます。地域および州によってグループ化する場合は、東部/メリーランド州、東部/コネチカット州、西部/カリフォルニア州に分類されます。
入力
Group Statistics ステージは、任意のフィールドを入力として受け取ります。グループ化は、数値または文字列データに対して行うことができます。
オプション
オプション | 説明 |
---|---|
入力フィールド |
レコードのグループ化や計算に使えるデータフロー内のフィールドを表示します。 |
行 |
計算のカテゴリとして使いたい 1 つまたは複数のフィールドを指定します。例えば、手持ちのデータに [地域] フィールドが含まれていて、地域別の総人口を計算したいようなときは、[地域] フィールドでグループ化を行います。 フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。 |
列 |
これはオプションです。ピボット テーブルを作成する場合、クロス集計用の列の値として取り込むフィールドを指定します。 フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。 例えば、地域と出荷日を含むデータがあり、各州の 1 日あたりの出荷件数を集計したい場合は、州フィールドを行、出荷日フィールドを列として指定します。 |
行と列は設定された順序でソート済み |
入力データが既にソート済みであることを示します。 このチェックボックスがオンの場合、ステージにおいてデータはソートされることなく、指定された操作が入力データに対して直接実行されます。 |
操作 |
各グループに対して実行する計算を指定します。操作を追加するには、[入力フィールド] リスト内で操作に使いたいフィールドを選択し、[>>] をクリックします。 サポートされる Group Statistics 操作の詳細については、操作を参照してください。 |
タイプ |
入力フィールドと出力フィールドについて、データ タイプを指定します。
注: integer タイプおよび long タイプを使用する場合に、演算の入力値や計算値に小数データが含まれていると、データが失われることがあります。
|
計算されたレコード数を取得 | 選択された操作を実行するグループ内の実際のレコード数を返します。 この Computational Count 列には、操作を実行する列に |
[フィールド] タブ
[フィールド] タブは、ピボット テーブルを作成するとき使います。詳細については、ピボット テーブルの作成を参照してください。[出力] タブ
オプション | 説明 |
---|---|
グループごとに 1 行を返す |
行グループごとに、グループ内のすべての行についての集計データを含む 1 行だけを返します。個別の行は削除されます。このオプションがオフの場合は、すべての行が返されます。どのデータも削除されません。 Percent Rank または ZScore 操作では、このオプションは使えません。 |
各グループの行数を返す |
各グループの行数を返します。行数が設定されるデフォルトの出力フィールド名は GroupCount です。 |
各グループに対し、一意の ID を返す |
各行グループのユニーク ID を返します。ID は 1 から始まり、追加のグループが見つかるたびに 1 ずつ増加します。デフォルトのフィールド名は、GroupID です。 |