Run Hadoop MapReduce Job
L'activité Run Hadoop MapReduce Job vous permet d’exécuter tout job MapReduce sur un cluster Hadoop, en mettant en correspondance le fichier JAR approprié. Vous pouvez utiliser cette activité pour exécuter un job MapReduce du SDK Qualité des Big Data Spectrum ou tout job MapReduce externe.
Champ | Description |
---|---|
Serveur Hadoop | Liste des serveurs Hadoop configurés. Pour des informations sur le mappage des serveurs de fichiers HDFS via Management Console, reportez-vous au Guide d’administration. |
Chemin d'accès Jar | Chemin d’accès au fichier JAR approprié pour l’exécution du job MapReduce Hadoop. Remarque : Le fichier JAR doit être présent à l’emplacement client externe ou sur le serveur Spectrum. Il ne doit pas être placé sur le cluster Hadoop.
|
Classe de pilote | Sélectionnez l'un des éléments suivants :
|
Type de job | Sélectionnez l'un des éléments suivants :
|
Jobs Spectrum | Sélectionnez un job Spectrum dans la liste des jobs du SDK Qualité des Big Data Spectrum. Lors de la sélection du job Spectrum de votre choix :
|
Nom de classe | Nom complet de la classe de pilote du job. |
Arguments | Liste des arguments séparés par des espaces. Ils sont transmis à la classe du pilote lors de l’exécution du job. Par exemple,
Pour exécuter les jobs MapReduce du SDK Qualité des Big Data Spectrum, transmettez les différents fichiers de configuration sous forme de liste d’arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration. La syntaxe de la liste d’arguments des propriétés de configuration est la suivante : [-config <Path to configuration file>]
[-debug] [-input <Path to input configuration file>] [-conf
<Path to MapReduce configuration file>] [-output <Path of
output directory>] Par exemple, pour un job MapReduce MatchKeyGenerator : -config
/home/hadoop/matchkey/mkgConfig.xml -input
/home/hadoop/matchkey/inputFileConfig.xml -conf
/home/hadoop/matchkey/mapReduceConfig.xml -output
/home/hadoop/matchkey/outputFileConfig.xml Remarque : Si la même clé de propriété de configuration est spécifiée dans le champ Arguments et dans la grille Propriétés, mais que chacune pointe vers des fichiers de configuration différents, le fichier indiqué dans la grille Propriétés est celui retenu.
Les exemples de propriétés de configuration sont livrés avec le SDK Qualité des Big Data et placés sous <Big Data Quality bundle>\samples\configuration. |
Onglet Général
Champ | Description | Exigence |
---|---|---|
Nom du job | Nom du job MapReduce Hadoop. | Obligatoire |
Chemin d'accès d'entrée | Chemin d'accès au fichier d'entrée du job. | Obligatoire |
Chemin d'accès de sortie | Chemin d'accès au fichier de sortie du job. | Obligatoire |
Remplacer la sortie | Indique si le chemin d’accès de sortie spécifié doit être remplacé au cas où il existe déjà. Remarque : Si cette case est laissée décochée et si le système constate que le chemin d’accès de sortie configuré existe lors de l’exécution, Hadoop lève une exception et le flux de processus est abandonné.
|
Facultatif |
Classe Mapper | Nom complet de la classe qui gère les fonctionnalités Mapper pour le job. | Obligatoire |
Classe Reducer | Nom complet de la classe qui gère les fonctionnalités Reducer pour le job. | Facultatif |
Classe Combiner | Nom complet de la classe qui gère les fonctionnalités Combiner pour le job. | Facultatif |
Classe Partitioner | Nom complet de la classe qui gère les fonctionnalités Partitioner pour le job. | Facultatif |
Nombre de réducteurs | Nombre de réducteurs utilisés pour exécuter le job MapReduce. | Facultatif |
Format d'entrée | Format des données d’entrée. | Obligatoire |
Format de sortie | Format des données de sortie. | Obligatoire |
Classe de clé de sortie | Type de données des clés des paires clé-valeur de sortie. | Obligatoire |
Classe de valeur de sortie | Type de données des valeurs des paires clé-valeur de sortie. | Obligatoire |
Onglet Propriétés
Pour spécifier des propriétés supplémentaires pour l'exécution du job requis, utilisez cet onglet pour définir autant de paires propriété-valeur que nécessaire. Vous pouvez ajouter les propriétés requises directement dans la grille une par une.
<configuration>
<property>
<name>key</name>
<value>some_value</value>
<description>A brief description of the
purpose of the property key.</description>
</property>
</configuration>
Vous pouvez importer directement le fichier de propriétés Hadoop mapred.xml, ou créer vos propres fichiers à ce format XML.
- Si la même propriété est définie ici et dans Management Console, les valeurs définies ici remplacent celles définies dans Management Console.
- Si la même propriété existe à la fois dans la grille et dans le fichier de propriétés importé, la valeur importée du fichier remplace la valeur existante dans la grille pour la même propriété.
- Vous pouvez importer plusieurs fichiers de propriétés l'un après l'autre, si nécessaire. Les propriétés contenues dans chaque fichier importé sont ajoutées à la grille.
- Assurez-vous que le fichier de propriétés est présent sur le serveur Spectrum™ Technology Platform.
- La balise
<description>
est facultative pour chaque clé de propriété d'un fichier de propriétés de configuration.
Onglet Dépendances
Dans cet onglet, ajoutez la liste des fichiers d’entrée et des fichiers Jar nécessaires pour exécuter le job.Une fois que le job est exécuté, les fichiers de référence et les fichiers de référence Jar ajoutés ici sont disponibles dans le cache distribué du job.
- Fichiers de référence
- Pour ajouter les différents fichiers requis comme entrée pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier en question.
Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.
- Fichiers JAR de référence
- Pour ajouter les fichiers Jar requis pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier Jar en question.
Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.