Group Statistics

Group Statistics ステージでは、分析対象のグループに分割された複数のデータ行に対し、統計操作を実行できます。グループが定義されていない場合、すべての行が 1 つのグループに含まれるものとして処理されます。

グループは、複数のデータ行にわたって同じ値を持つ 1 つまたは複数のフィールドによって定義されます。

例えば、次の表のデータは、地域、州、またはその両方でグループ化できます。

地域 State
MD
MD
CT
西 CA
西 CA

地域によってグループ化する場合は、東部および西部に分類されます。州によってグループ化する場合は、カリフォルニア州、コネチカット州、メリーランド州に分類されます。地域および州によってグループ化する場合は、東部/メリーランド州、東部/コネチカット州、西部/カリフォルニア州に分類されます。

入力

Group Statistics ステージは、任意のフィールドを入力として受け取ります。グループ化は、数値または文字列データに対して行うことができます。

オプション

表 1. [操作] タブ
オプション 説明

入力フィールド

レコードのグループ化や計算に使えるデータフロー内のフィールドを表示します。

計算のカテゴリとして使いたい 1 つまたは複数のフィールドを指定します。例えば、手持ちのデータに [地域] フィールドが含まれていて、地域別の総人口を計算したいようなときは、[地域] フィールドでグループ化を行います。

フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。

これはオプションです。ピボット テーブルを作成する場合、クロス集計用の列の値として取り込むフィールドを指定します。

フィールドを追加するには、[入力フィールド] リスト内で目的のフィールドを選択し、[>>] をクリックします。

例えば、地域と出荷日を含むデータがあり、各州の 1 日あたりの出荷件数を集計したい場合は、州フィールドを行、出荷日フィールドを列として指定します。

行と列は設定された順序でソート済み

入力データが既にソート済みであることを示します。

このチェックボックスがオンの場合、ステージにおいてデータはソートされることなく、指定された操作が入力データに対して直接実行されます。

操作

各グループに対して実行する計算を指定します。操作を追加するには、[入力フィールド] リスト内で操作に使いたいフィールドを選択し、[>>] をクリックします。

サポートされる Group Statistics 操作の詳細については、操作を参照してください。

タイプ

入力フィールドと出力フィールドについて、データ タイプを指定します。

Integer
正と負の自然数を含む数値データ タイプ。値の範囲は、-231 (-2,147,483,648) ~ 231-1 (2,147,483,647)。
経度
正と負の自然数を含む数値データ タイプ。値の範囲は、-263 (-9,223,372,036,854,775,808) ~ 263-1 (9,223,372,036,854,775,807)。
Float
正と負の単精度数を含む数値データ タイプ。値の範囲は、2-149 (1.4E-45) ~ (2-223)×2127 (3.4028235E38)。
二重線
正と負の倍精度数を含む数値データ タイプ。値の範囲は、2-1074 (4.9E-324) ~ (2-2-52)×21023 (1.7976931348623157E308)。
注: integer タイプおよび long タイプを使用する場合に、演算の入力値や計算値に小数データが含まれていると、データが失われることがあります。
計算されたレコード数を取得 選択された操作を実行するグループ内の実際のレコード数を返します。

この Computational Count 列には、操作を実行する列に null 値が含まれる入力レコードはカウントされません。

[フィールド] タブ

[フィールド] タブは、ピボット テーブルを作成するとき使います。詳細については、ピボット テーブルの作成を参照してください。

[出力] タブ

オプション 説明

グループごとに 1 行を返す

行グループごとに、グループ内のすべての行についての集計データを含む 1 行だけを返します。個別の行は削除されます。このオプションがオフの場合は、すべての行が返されます。どのデータも削除されません。

Percent Rank または ZScore 操作では、このオプションは使えません。

各グループの行数を返す

各グループの行数を返します。行数が設定されるデフォルトの出力フィールド名は GroupCount です。

各グループに対し、一意の ID を返す

各行グループのユニーク ID を返します。ID は 1 から始まり、追加のグループが見つかるたびに 1 ずつ増加します。デフォルトのフィールド名は、GroupID です。