Group Statistics

Le stage Group Statistics vous permet d'effectuer des opérations de statistique sur plusieurs lignes de données divisées dans des groupes que vous souhaitez analyser. Si aucun groupe n'est défini, toutes les lignes seront considérées comme appartenant à un groupe.

Nous appelons un groupe un ou plusieurs champs partageant la même valeur sur de multiples rangées de données.

Par exemple, les données de la table suivante pourraient être regroupées par région, état, ou les deux.

Région État
Est MD
Est MD
Est CT
Ouest CA
Ouest CA

Un regroupement par Région produirait les groupes Est et Ouest. Un regroupement par État donnerait Californie (CA), Connecticut (CT) et Maryland (MD). Un regroupement par Région et par État donnerait Est/Maryland, Est/Connecticut, et Ouest/Californie.

Input

Le stage Group Statistics stage prend tous les champs comme entrée. Les regroupements peuvent être réalisés sur des données numériques ou des chaînes.

Options

Tableau 1. Onglet Opérations
Option Description

Champs d'entrée

Répertorie les champs dans le flux de données que vous pouvez utiliser pour regrouper les enregistrements et effectuer des calculs.

Row

Indique le ou les champs que vous souhaitez utiliser en tant que catégories pour les calculs. Par exemple, si vous disposez de données qui comprennent un champ Région et que vous voulez calculer la population totale par région, vous devez grouper le champ Région.

Pour ajouter un champ, sélectionnez le champ dans la liste Champs d'entrée puis cliquez sur >>.

Colonne

Facultatif. Pour créer un tableau croisé dynamique, indiquez le ou les champs des valeurs que vous souhaitez ajouter dans les colonnes des tableaux croisés.

Pour ajouter un champ, sélectionnez le champ dans la liste Champs d'entrée puis cliquez sur >>.

Par exemple, si vous disposez de données qui comprennent des régions et des dates d'expéditions, et que vous voulez calculer le nombre d'expéditions par jour pour chaque état, vous devez spécifier le champ d'état sous forme de ligne et le champ de date d'expédition sous forme de colonne.

Les lignes et les colonnes sont pré-triées dans l'ordre configuré

Indique que les données d'entrée sont déjà triées.

Si cette case est cochée, le stage ne trie pas les données et effectue l’opération spécifiée directement sur les données d’entrée.

Opération

Indique le calcul à réaliser sur chaque groupe. Pour ajouter une opération, sélectionnez le champ dans la liste Champs d'entrée que vous souhaitez utiliser pour l'opération puis cliquez sur >>.

Pour plus d’informations sur les opérations de Group Statistics prises en charge, reportez-vous à la section Opérations.

Type

Pour les champs d'entrée et de sortie, indique le type de données.

Entier
Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -231 (-2,147,483,648) et 231-1 (2,147,483,647)
Long
Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -263 (-9,223,372,036,854,775,808) et 263-1 (9,223,372,036,854,775,807)
Flottant
Un type de données numérique contenant des nombres de précision uniques positifs entre 2-149 (1.4E-45) et (2-223)×2127 (3.4028235E38)
Double
Un type de données numérique contenant des nombres de précision doubles positifs et négatifs entre 2-1074 (4.9E-324) et (2-2-52)×21023 (1.7976931348623157E308)
Remarque : Lors de l'utilisation du types entier et long, des données peuvent être perdues si le numéro d'entrée ou le numéro calculé depuis une opération contient des données décimales.
Obtenir le nombre d'enregistrements calculés Indique le nombre réel d’enregistrements d'un groupe sur lequel l’opération est réalisée.

Cette colonne Computational Count exclut les enregistrements d’entrée dont la colonne sur laquelle l'opération est réalisée contient des valeurs null.

Onglet Champs

L'onglet Champs est utilisé lors de la création d'un tableau croisé dynamique. Pour plus d'informations, reportez-vous à la section Création d'un tableau croisé dynamique.

Onglet Sortie

Option Description

Affiche une ligne par groupe

Pour chaque groupe de lignes, renvoie une seule ligne qui contient les données agrégées pour toutes les lignes dans le groupe. Les lignes individuelles seront ignorées. Si cette option n'est pas sélectionnée, toutes les lignes seront renvoyées. Aucune donnée ne sera ignorée.

Cette option n'est pas disponible si vous utilisez les opérations Rang de Pourcentages ou Zscore.

Renvoyer un nombre de lignes dans chaque groupe

Renvoie le nombre de lignes dans chaque groupe. Le nom du champ de sortie par défaut de sortie qui contiendra le compte est GroupCount.

Renvoie un ID unique pour chaque groupe

Renvoie un ID unique pour chaque groupe de lignes. L'ID commence à partir de 1 et augmente de 1 pour chaque groupe supplémentaire trouvé. Le nom de champ par défaut est GroupID.