Group Statistics
Le stage Group Statistics vous permet d'effectuer des opérations de statistique sur plusieurs lignes de données divisées dans des groupes que vous souhaitez analyser. Si aucun groupe n'est défini, toutes les lignes seront considérées comme appartenant à un groupe.
Nous appelons un groupe un ou plusieurs champs partageant la même valeur sur de multiples rangées de données.
Par exemple, les données de la table suivante pourraient être regroupées par région, état, ou les deux.
Région | État |
---|---|
Est | MD |
Est | MD |
Est | CT |
Ouest | CA |
Ouest | CA |
Un regroupement par Région produirait les groupes Est et Ouest. Un regroupement par État donnerait Californie (CA), Connecticut (CT) et Maryland (MD). Un regroupement par Région et par État donnerait Est/Maryland, Est/Connecticut, et Ouest/Californie.
Input
Le stage Group Statistics stage prend tous les champs comme entrée. Les regroupements peuvent être réalisés sur des données numériques ou des chaînes.
Options
Option | Description |
---|---|
Champs d'entrée |
Répertorie les champs dans le flux de données que vous pouvez utiliser pour regrouper les enregistrements et effectuer des calculs. |
Row |
Indique le ou les champs que vous souhaitez utiliser en tant que catégories pour les calculs. Par exemple, si vous disposez de données qui comprennent un champ Région et que vous voulez calculer la population totale par région, vous devez grouper le champ Région. Pour ajouter un champ, sélectionnez le champ dans la liste Champs d'entrée puis cliquez sur >>. |
Colonne |
Facultatif. Pour créer un tableau croisé dynamique, indiquez le ou les champs des valeurs que vous souhaitez ajouter dans les colonnes des tableaux croisés. Pour ajouter un champ, sélectionnez le champ dans la liste Champs d'entrée puis cliquez sur >>. Par exemple, si vous disposez de données qui comprennent des régions et des dates d'expéditions, et que vous voulez calculer le nombre d'expéditions par jour pour chaque état, vous devez spécifier le champ d'état sous forme de ligne et le champ de date d'expédition sous forme de colonne. |
Les lignes et les colonnes sont pré-triées dans l'ordre configuré |
Indique que les données d'entrée sont déjà triées. Si cette case est cochée, le stage ne trie pas les données et effectue l’opération spécifiée directement sur les données d’entrée. |
Opération |
Indique le calcul à réaliser sur chaque groupe. Pour ajouter une opération, sélectionnez le champ dans la liste Champs d'entrée que vous souhaitez utiliser pour l'opération puis cliquez sur >>. Pour plus d’informations sur les opérations de Group Statistics prises en charge, reportez-vous à la section Opérations. |
Type |
Pour les champs d'entrée et de sortie, indique le type de données.
Remarque : Lors de l'utilisation du types entier et long, des données peuvent être perdues si le numéro d'entrée ou le numéro calculé depuis une opération contient des données décimales.
|
Obtenir le nombre d'enregistrements calculés | Indique le nombre réel d’enregistrements d'un groupe sur lequel l’opération est réalisée. Cette colonne Computational Count exclut les enregistrements d’entrée dont la colonne sur laquelle l'opération est réalisée contient des valeurs |
Onglet Champs
L'onglet Champs est utilisé lors de la création d'un tableau croisé dynamique. Pour plus d'informations, reportez-vous à la section Création d'un tableau croisé dynamique.Onglet Sortie
Option | Description |
---|---|
Affiche une ligne par groupe |
Pour chaque groupe de lignes, renvoie une seule ligne qui contient les données agrégées pour toutes les lignes dans le groupe. Les lignes individuelles seront ignorées. Si cette option n'est pas sélectionnée, toutes les lignes seront renvoyées. Aucune donnée ne sera ignorée. Cette option n'est pas disponible si vous utilisez les opérations Rang de Pourcentages ou Zscore. |
Renvoyer un nombre de lignes dans chaque groupe |
Renvoie le nombre de lignes dans chaque groupe. Le nom du champ de sortie par défaut de sortie qui contiendra le compte est GroupCount. |
Renvoie un ID unique pour chaque groupe |
Renvoie un ID unique pour chaque groupe de lignes. L'ID commence à partir de 1 et augmente de 1 pour chaque groupe supplémentaire trouvé. Le nom de champ par défaut est GroupID. |