Run Hadoop Pig

Run Hadoop Pig exécute un script Apache Pig. Apache Pig est un langage de haut niveau qui permet d'exprimer des programmes d'analyse de données. Il dispose de l'infrastructure nécessaire à l'évaluation de ces programmes. Tous les programmes Pig peuvent être mis en parallèle, ce qui leur permet de gérer de très grands jeux de données.

Run Hadoop Pig vous permet de sélectionner des opérations Pig, de saisir tous les paramètres requis et de faire générer automatiquement votre script Pig par le système. Vous pouvez exécuter le script Pig sur n'importe quel serveur Hadoop.

Run Hadoop Pig fonctionne uniquement sur les serveurs de fichiers Hadoop. Apache Hadoop 1.x et 2.x sont tous les deux pris en charge.

Pour définir les options de Run Hadoop Pig :

  1. Glissez et déposez l'activité Run Hadoop Pig sur le canevas.
  2. Faites un clic droit sur l'activité Run Hadoop Pig et sélectionnez Options.
  3. Le champ du nom de serveur indique le serveur Hadoop sur lequel se trouve le fichier à traiter.
  4. Cliquez sur le bouton de navigation ([...]) pour accéder au fichier à traiter.
  5. Sélectionnez le type de fichier. Run Hadoop Pig prend en charge les fichiers au format Delimited et au format Delimited Sequence.
  6. Sélectionnez le délimiteur et le caractère de protection appropriés.
  7. Cliquez sur Ajouter dans la section Champs et ajoutez les champs présents dans le fichier à traiter. Pour les fichiers Sequence, le premier champ est considéré comme la clé et les autres champs font partie des valeurs délimitées.
  8. Sélectionnez l'opération Raccourcir, le cas échéant. L'opération Raccourcir coupe les espaces blancs du champ d'entrée, avant de le traiter.
  9. Accédez à l'onglet Opérations. Cliquez sur Ajouter pour commencer à ajouter les opérations Pig à effectuer sur le fichier. Cette opération ouvre l'éditeur d'opérations.
  10. Sélectionnez une opération à effectuer. Les différentes opérations sont les suivantes :
    • Tri : trie les données dans l'ordre alphabétique.
    • Filtre : vous permet de filtrer les données selon vos besoins.
    • Agrégat : vous permet d'effectuer des opérations statistiques comme Somme, Compte et autres, sur les données.
    • Distinct : sélectionne tous les enregistrements uniques du champ spécifié.
    • Limite : vous permet de limiter le nombre d'enregistrements traités à un nombre spécifié.
  11. Utilisez les boutons Déplacer vers le haut et Déplacer vers le bas pour modifier l'ordre des opérations.
  12. Une fois que vous avez sélectionné les opérations et saisi l'entrée requise pour le traitement des opérations, cliquez sur Ajouter pour enregistrer votre sélection et revenir à l'éditeur d'options Pig.
  13. Le script Pig est automatiquement généré en fonction des opérations sélectionnées.
    L'éditeur vous permet de remplacer le script Pig généré par votre propre script, selon les besoins. Cliquez sur l'option Modifier un script et saisissez votre propre script dans la zone de texte Script Pig. Dans ce cas, le bouton Régénérer est activé. Si vous souhaitez revenir au script généré par le système, cliquez sur Régénérer dans la section Script Pig pour générer le script Pig.
  14. Vous pouvez spécifier le fichier de sortie sous l'onglet Variables. Le fichier de sortie peut être utilisé par les activités ultérieures.
  15. Cliquez sur OK pour enregistrer le script Pig. Par défaut, le type de fichier de sortie est le même que le type de fichier d'entrée. Vous pouvez le modifier à l'aide du script Pig généré.