Spark Sorter

L'activité Spark Sorter vous permet de trier une énorme quantité d’enregistrements. Cette activité utilise des bibliothèques Apache Spark pour donner de la puissance à la fonction et est exécutée sur votre serveur Spectrum™ Technology Platform.

Actuellement, les fichiers délimités, présents sur le serveur Spectrum™ Technology Platform, sont acceptés pour lire les enregistrements d'entrée.

Remarque : Les fichiers présents sur des serveurs distants ne sont pas pris en charge.
Champ Description
Server name

Indique l’emplacement du fichier que vous sélectionnez comme entrée.

Étant donné que l'activité Spark Sorter accepte uniquement les fichiers situés sur Spectrum™ Technology Platform, ce champ affiche Spectrum™ Technology Platform.

Nom du fichier

Indique le chemin du fichier. Cliquez sur le bouton d'ellipse (...) pour accéder au fichier souhaité.

Vous pouvez lire plusieurs fichiers en utilisant un caractère générique pour lire les données de plusieurs fichiers du répertoire. Les caractères génériques * et ? sont pris en charge. Par exemple, vous pouvez utiliser *.csv pour lire tous les fichiers portant l'extension .csv du répertoire. Pour que plusieurs fichiers puissent être lus, tous doivent présenter la même mise en page (les mêmes champs aux mêmes emplacements). Tout enregistrement ne correspondant pas à la mise en page indiquée dans l'onglet Champs est traité comme un enregistrement non conforme.

Avertissement : Si le Spectrum™ Technology Platform est en cours d'exécution sur les systèmes Unix ou Linux, rappelez-vous que les noms de fichiers et les chemins sur ces plates-formes sont sensibles à la casse.
Type d'enregistrement Le format des enregistrements dans le fichier. Actuellement, les formats de fichier délimités sont acceptés comme entrée.
Délimité
Un fichier texte dans lequel les enregistrements sont séparés par un caractère de fin de ligne (EOL) comme un retour chariot ou un retour à la ligne (CR ou LF) et chaque champ est séparé par un caractère désigné comme une virgule.
Chiffrement de caractères

Chiffrement des caractères du fichier d’entrée.

Le chiffrement UTF-8 est pris en charge. Pour plus d'informations sur UTF, reportez-vous à unicode.org/faq/utf_bom.html.

Séparateur de champs

Indique le caractère utilisé pour séparer des champs dans un fichier délimité.

Par exemple, cet enregistrement utilise une barre verticale (|) comme séparateur de champ :

7200 13TH ST|MIAMI|FL|33144

Ces caractères disponibles à définir en tant que séparateurs de champs sont :

  • Espace
  • Tabulation
  • Virgule
  • Point (.)
  • Point-virgule
  • Conduite

Si le fichier utilise un caractère différent comme séparateur de champ, cliquez sur le bouton de sélection pour sélectionner un autre caractère délimiteur.

Qualificateur de texte

Le caractère utilisé pour entourer les valeurs de texte dans un fichier délimité.

Par exemple, cet enregistrement utilise des guillemets doubles (") en tant que qualificateur de texte.

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

Ces caractères disponibles à définir en tant que qualificateurs de texte sont :

  • Guillemets simples (')
  • Guillemets doubles (")

Si le fichier utilise un délimiteur de texte, cliquez sur le bouton de sélection pour sélectionner un autre caractère délimiteur.

Séparateur d'enregistrements

Indique le caractère utilisé pour séparer des enregistrements dans un fichier séquentiel ligne par ligne ou délimité. Ce champ n'est pas disponible si vous activez la case Utiliser EOL par défaut.

Les paramètres de séparateur d’enregistrements disponibles sont :

Unix (U+000A)
Un caractère de saut de ligne sépare les enregistrements. Il s'agit du séparateur d'enregistrement standard pour les systèmes Unix.
Macintosh (U+000D)
Un caractère de retour chariot sépare les enregistrements. Il s'agit du séparateur d'enregistrement standard pour les systèmes Macintosh.
Windows (U+000D U+000A)
Un retour chariot suivi d'un saut de ligne sépare les enregistrements. Il s'agit du séparateur d'enregistrement standard pour les systèmes Windows.

Si votre fichier utilise un séparateur d'enregistrement, cliquez sur le bouton de sélection pour sélectionner un autre caractère séparateur.

Utiliser EOL par défaut

Indique que le séparateur d'enregistrements du fichier est le caractère de fin de ligne (EOL) par défaut utilisé sur le système d'exploitation sur lequel le serveur Spectrum™ Technology Platform est exécuté.

Ne sélectionnez pas cette option si le fichier utilise un caractère EOL qui est différent du caractère EOL par défaut utilisé sur le système d'exploitation du serveur. Par exemple, si le fichier utilise un EOL Windows, mais que le serveur fonctionne sous Linux, ne cochez pas cette option. Au lieu de cela, sélectionnez l'option Windows dans le champ Record separator.

La première ligne est l’enregistrement d'en-tête.

Indique si le premier enregistrement dans un fichier délimité contient des informations d'en-tête, mais aucune donnée.

Par exemple, cet extrait de fichier illustre une ligne d'en-tête dans le premier enregistrement.

"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
Sortie

Indique le chemin d'accès au fichier de sortie du serveur Spectrum™ Technology Platform. Cliquez sur le bouton d'ellipse (...) pour accéder au répertoire de sortie et au nom de fichier de votre choix.

Avertissement : Si le Spectrum™ Technology Platform est en cours d'exécution sur les systèmes Unix ou Linux, rappelez-vous que les noms de fichiers et les chemins sur ces plates-formes sont sensibles à la casse.
Écraser Indique que le fichier de sortie doit effectuer un écrasement s'il existe un fichier portant le même nom tel que spécifié dans le champ Sortie.
Concaténer Indique que tous les fichiers de partie Spark doivent être concaténés en un seul fichier de sortie à l'emplacement Sortie spécifié.
Aperçu Une fois que le fichier d’entrée est sélectionné dans le champ Nom du fichier, la grille Aperçu affiche les 100 premiers enregistrements du fichier de sortie existant.

Pour afficher correctement toutes les valeurs de colonne distinctes, cliquez sur Régénérer dans l'onglet Champs.

Onglet Champs

L'onglet Champs définit les noms, types et positions des champs du fichier. Pour plus d'informations, voir :

Onglet Tri

L'onglet Tri définit les champs permettant de trier les enregistrements d'entrée avant qu'ils ne soient envoyés dans le flux de données. Pour plus d'informations, reportez-vous à la section Tri des enregistrements.

Onglet Configuration

Pour spécifier des propriétés supplémentaires pour l'exécution du job requis, utilisez cet onglet pour définir autant de paires propriété-valeur que nécessaire. Vous pouvez ajouter les propriétés requises directement dans la grille une par une.

Sinon, pour importer les propriétés d'un fichier, cliquez sur Importer. Accédez à l’emplacement du fichier de propriétés respectif et sélectionnez le fichier au format XML. Les propriétés contenues dans le fichier importé sont copiées dans la grille. Le fichier de propriétés doit être au format XML et doit suivre la syntaxe :
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>
Remarque :
  1. Si la même propriété est définie ici et dans Management Console, les valeurs définies ici remplacent celles définies dans Management Console.
  2. Si la même propriété existe à la fois dans la grille et dans le fichier de propriétés importé, la valeur importée du fichier remplace la valeur existante dans la grille pour la même propriété.
  3. Vous pouvez importer plusieurs fichiers de propriétés l'un après l'autre, si nécessaire. Les propriétés contenues dans chaque fichier importé sont ajoutées à la grille.
  4. Assurez-vous que le fichier de propriétés est présent sur le serveur Spectrum™ Technology Platform.
  5. La balise <description> est facultative pour chaque clé de propriété d'un fichier de propriétés de configuration.

L'onglet Exécution

Nom du champ Description

Nom du fichier

Affiche le nom de fichier sélectionné dans le premier onglet.

Enregistrement de départ

Si vous voulez ignorer les enregistrements au début du fichier lors de la lecture des enregistrements dans le flux de données, spécifiez le premier enregistrement que vous souhaitez lire. Par exemple, si vous voulez sauter les 50 premiers enregistrements dans un fichier, spécifiez 51. Le 51ème enregistrement sera le premier enregistrement lu dans le flux de données.

Tous les enregistrements

Sélectionnez cette option si vous souhaitez lire tous les enregistrements à partir de l'enregistrement spécifié dans le champ Starting record jusqu'à la fin du fichier.

Nombre max d'enregistrements

Sélectionnez cette option si vous souhaitez uniquement lire un certain nombre d'enregistrements à partir de l'enregistrement spécifié dans le champ Starting record. Par exemple, si vous voulez lire les 100 premiers enregistrements, sélectionnez cette option et entrez 100.