Read from Hadoop Sequence File

Le stage Read from Hadoop Sequence File lit les données d'un fichier de séquence comme l'entrée d'un flux de données. Un fichier de séquence est un fichier plat constitué de paires de valeurs clés binaires. Pour obtenir davantage d'informations, consultez l'adresse suivante : wiki.apache.org/hadoop/SequenceFile.

Remarque : Le stage Read from Hadoop Sequence File prend uniquement en charge les fichiers de séquence délimités non compressés figurant sur Hadoop Distributed File System (HDFS).

Onglet de propriétés du fichier

Champs Description
Serveur Indique que le fichier que vous sélectionnez dans le champ Nom de fichier se trouve sur le système Hadoop. Avant de pouvoir l'utiliser dans le stage, vous devez créer une connexion au serveur de fichiers Hadoop dans Management Console. Si vous sélectionnez un fichier sur le système Hadoop, le nom de serveur est le nom que vous indiquez dans Management Console lors de la création d'un serveur de fichiers.
Nom du fichier Indique le chemin du fichier. Cliquez sur le bouton de sélection (...) pour trouver le fichier souhaité.

Séparateur de champs

Indique le caractère utilisé pour séparer des champs dans un fichier délimité.

Par exemple, cet enregistrement utilise une barre verticale (|) comme séparateur de champ :

7200 13TH ST|MIAMI|FL|33144

Ces caractères disponibles à définir en tant que séparateurs de champs sont :

  • Espace
  • Tabulation
  • Virgule
  • Point (.)
  • Point-virgule
  • Conduite

Si le fichier utilise un caractère différent comme séparateur de champ, cliquez sur le bouton de sélection pour sélectionner un autre caractère délimiteur.

Qualificateur de texte

Le caractère utilisé pour entourer les valeurs de texte dans un fichier délimité.

Par exemple, cet enregistrement utilise des guillemets doubles (") en tant que qualificateur de texte.

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

Ces caractères disponibles à définir en tant que qualificateurs de texte sont :

  • Guillemets simples (')
  • Guillemets doubles (")

Si le fichier utilise un délimiteur de texte, cliquez sur le bouton de sélection pour sélectionner un autre caractère délimiteur.

Onglet Champs

L'onglet Champs définit les noms, positions et types des champs du fichier. Pour plus d'informations, reportez-vous à la section Définition de champs dans un fichier de séquence d'entrée.

Onglet Trier les champs

L'onglet Trier les champs définit les champs permettant de trier les enregistrements d'entrée avant qu'ils ne soient envoyés dans le flux de données. Le tri est facultatif. Pour plus d'informations, reportez-vous à la section Tri des enregistrements d'entrée.

Onglet Filtre

L'onglet Champ définit les champs permettant de filtrer les enregistrements d'entrée avant leur envoi au flux de données. Pour plus d'informations, reportez-vous à la section Filtrage des enregistrements d'entrée.