Run Hadoop MapReduce Job

L'activité Run Hadoop MapReduce Job vous permet d’exécuter tout job MapReduce sur un cluster Hadoop, en mettant en correspondance le fichier JAR approprié. Vous pouvez utiliser cette activité pour exécuter un job MapReduce du SDK Qualité des Big Data Spectrum ou tout job MapReduce externe.

Remarque : Si le job MapReduce échoue, un message d’erreur s’affiche avec l'état d'exécution du job.
Champ Description
Serveur Hadoop Liste des serveurs Hadoop configurés.

Pour des informations sur le mappage des serveurs de fichiers HDFS via Management Console, reportez-vous au Guide d’administration.

Chemin d'accès Jar Chemin d’accès au fichier JAR approprié pour l’exécution du job MapReduce Hadoop.
Remarque : Le fichier JAR doit être présent à l’emplacement client externe ou sur le serveur Spectrum. Il ne doit pas être placé sur le cluster Hadoop.
Classe de pilote Sélectionnez l'un des éléments suivants :
Valeur par défaut

Pour exécuter un job externe en saisissant simplement le nom de classe et les arguments du job, sélectionnez Par défaut.

Si Par défaut est sélectionné, les champs Nom de classe et Arguments sont affichés.

Configurer
Pour saisir des propriétés de job supplémentaires pour tout job externe ou pour exécuter l’un des jobs du SDK Qualité des Big Data Spectrum, sélectionnez Configurer.

Lors de la sélection de Configurer, le champ Type de job s’affiche.

Type de job Sélectionnez l'un des éléments suivants :
Spectrum
Pour exécuter l’un des jobs du SDK Qualité des Big Data Spectrum, sélectionnez Spectrum.

Lors de la sélection de Spectrum , le champ Jobs Spectrum s’affiche.

Générique
Pour spécifier des propriétés supplémentaires pour tout job externe, sélectionnez Générique.
Jobs Spectrum Sélectionnez un job Spectrum dans la liste des jobs du SDK Qualité des Big Data Spectrum.
Lors de la sélection du job Spectrum de votre choix :
  1. Les champs Nom du job, Nom de classe et Arguments sont automatiquement renseignés.

    Tous les champs automatiquement renseignés peuvent être modifiés, si nécessaire, sauf le champ Nom de classe.

    Important : Pour le job Spectrum sélectionné, le champ Nom de classe automatiquement renseigné ne doit pas être modifié, sinon le job ne peut pas être exécuté.
  2. La grille Propriétés est automatiquement renseignée à l'aide des propriétés de configuration requises du job Spectrum sélectionné, avec leurs valeurs par défaut.

    Vous pouvez ajouter ou importer davantage de propriétés ainsi que modifier les propriétés automatiquement renseignées, si nécessaire.

Nom de classe Nom complet de la classe de pilote du job.
Arguments Liste des arguments séparés par des espaces. Ils sont transmis à la classe du pilote lors de l’exécution du job.

Par exemple,

23Dec2016 /home/Hadoop/EYInc.txt
  1. Ces variables peuvent être transmises comme arguments dans la liste d’arguments, qui sont définis de sorte à accepter des valeurs d’exécution dans le stage source ou dans ce stage en cours du flux de processus.

    Par exemple, si, dans la sortie du stage précédent du flux de processus, la variable SalesStartRange est définie, vous pouvez inclure cette variable dans cette liste d’arguments comme ${SalesStartRange} ainsi que d’autres arguments obligatoires, comme suit :

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. Dans le cas où un argument donné contient un espace, encadrez-le à l'aide de guillemets doubles.

    Par exemple, "/home/Hadoop/Sales Records".

Jobs du SDK Qualité des Big Data Spectrum - Arguments :

Pour exécuter les jobs MapReduce du SDK Qualité des Big Data Spectrum, transmettez les différents fichiers de configuration sous forme de liste d’arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration.

La syntaxe de la liste d’arguments des propriétés de configuration est la suivante :

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]

Par exemple, pour un job MapReduce MatchKeyGenerator :

-config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml
Remarque : Si la même clé de propriété de configuration est spécifiée dans le champ Arguments et dans la grille Propriétés, mais que chacune pointe vers des fichiers de configuration différents, le fichier indiqué dans la grille Propriétés est celui retenu.

Les exemples de propriétés de configuration sont livrés avec le SDK Qualité des Big Data et placés sous <Big Data Quality bundle>\samples\configuration.

Onglet Général

Champ Description Exigence
Nom du job Nom du job MapReduce Hadoop. Obligatoire
Chemin d'accès d'entrée Chemin d'accès au fichier d'entrée du job. Obligatoire
Chemin d'accès de sortie Chemin d'accès au fichier de sortie du job. Obligatoire
Remplacer la sortie Indique si le chemin d’accès de sortie spécifié doit être remplacé au cas où il existe déjà.
Remarque : Si cette case est laissée décochée et si le système constate que le chemin d’accès de sortie configuré existe lors de l’exécution, Hadoop lève une exception et le flux de processus est abandonné.
Facultatif
Classe Mapper Nom complet de la classe qui gère les fonctionnalités Mapper pour le job. Obligatoire
Classe Reducer Nom complet de la classe qui gère les fonctionnalités Reducer pour le job. Facultatif
Classe Combiner Nom complet de la classe qui gère les fonctionnalités Combiner pour le job. Facultatif
Classe Partitioner Nom complet de la classe qui gère les fonctionnalités Partitioner pour le job. Facultatif
Nombre de réducteurs Nombre de réducteurs utilisés pour exécuter le job MapReduce. Facultatif
Format d'entrée Format des données d’entrée. Obligatoire
Format de sortie Format des données de sortie. Obligatoire
Classe de clé de sortie Type de données des clés des paires clé-valeur de sortie. Obligatoire
Classe de valeur de sortie Type de données des valeurs des paires clé-valeur de sortie. Obligatoire

Onglet Propriétés

Pour spécifier des propriétés supplémentaires pour l'exécution du job requis, utilisez cet onglet pour définir autant de paires propriété-valeur que nécessaire. Vous pouvez ajouter les propriétés requises directement dans la grille une par une.

Sinon, pour importer les propriétés d'un fichier, cliquez sur Importer. Accédez à l’emplacement du fichier de propriétés respectif et sélectionnez le fichier au format XML. Les propriétés contenues dans le fichier importé sont copiées dans la grille. Le fichier de propriétés doit être au format XML et doit suivre la syntaxe :
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>

Vous pouvez importer directement le fichier de propriétés Hadoop mapred.xml, ou créer vos propres fichiers à ce format XML.

Remarque :
  1. Si la même propriété est définie ici et dans Management Console, les valeurs définies ici remplacent celles définies dans Management Console.
  2. Si la même propriété existe à la fois dans la grille et dans le fichier de propriétés importé, la valeur importée du fichier remplace la valeur existante dans la grille pour la même propriété.
  3. Vous pouvez importer plusieurs fichiers de propriétés l'un après l'autre, si nécessaire. Les propriétés contenues dans chaque fichier importé sont ajoutées à la grille.
  4. Assurez-vous que le fichier de propriétés est présent sur le serveur Spectrum™ Technology Platform.
  5. La balise <description> est facultative pour chaque clé de propriété d'un fichier de propriétés de configuration.

Onglet Dépendances

Dans cet onglet, ajoutez la liste des fichiers d’entrée et des fichiers Jar nécessaires pour exécuter le job.

Une fois que le job est exécuté, les fichiers de référence et les fichiers de référence Jar ajoutés ici sont disponibles dans le cache distribué du job.

Fichiers de référence
Pour ajouter les différents fichiers requis comme entrée pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier en question.

Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.

Fichiers JAR de référence
Pour ajouter les fichiers Jar requis pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier Jar en question.

Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.