Submit Spark Job

L'activité Submit Spark Job vous permet d’exécuter tout job Spark, soit sur un cluster Hadoop, soit sur un cluster Spark. Grâce à cette activité, vous pouvez exécuter un job Spark du SDK Qualité des Big Data Spectrum ou tout job Spark externe.

Actuellement, vous pouvez soumettre un job Spark à l'un des deux types de cluster :
  • YARN
  • Spark

Modes de déploiement

Pour un job Spark, vous pouvez utiliser le mode de déploiement cluster ou client. Ces modes de déploiement déterminent si la classe de pilote du job Spark s’exécute sur le cluster ou sur le client Spectrum™ Technology Platform.

Pour simplifier, vous pouvez exécuter un job Spark dans l’un des modes de déploiement :
  1. Mode YARN Cluster
  2. Mode YARN Client
  3. Mode Spark Client
Avertissement : L'exécution du mode client YARN ou Spark est recommandée lorsque le serveur Spectrum est installé et exécuté au sein de l'environnement cluster.
Champ Description
Nom du job Nom du job.
Serveur Hadoop Liste des serveurs Hadoop configurés.

Pour des informations sur le mappage des serveurs de fichiers HDFS via Management Console, reportez-vous au Guide d’administration.

Chemin d'accès Jar Chemin d’accès au fichier JAR approprié pour l’exécution du job Spark.
Remarque : Le chemin d’accès Jar doit pointer vers un répertoire figurant sur l’ordinateur du serveur Spectrum.
Type de job Sélectionnez l'un des éléments suivants :
Spectrum
Pour exécuter l’un des jobs du SDK Qualité des Big Data Spectrum, sélectionnez Spectrum.

Lors de la sélection de Spectrum , le champ Jobs Spectrum s’affiche.

Générique
Pour spécifier des propriétés supplémentaires pour tout job externe, sélectionnez Générique.
Jobs Spectrum Sélectionnez un job Spectrum dans la liste des jobs du SDK Qualité des Big Data Spectrum.
Lors de la sélection du job Spectrum de votre choix :
  1. Les champs Nom du job, Nom de classe et Arguments sont automatiquement renseignés.

    Tous les champs automatiquement renseignés peuvent être modifiés, si nécessaire, sauf le champ Nom de classe.

    Important : Pour le job Spectrum sélectionné, le champ Nom de classe automatiquement renseigné ne doit pas être modifié, sinon le job ne peut pas être exécuté.
  2. La grille Propriétés est automatiquement renseignée à l'aide des propriétés de configuration requises du job Spectrum sélectionné, avec leurs valeurs par défaut.

    Vous pouvez ajouter ou importer davantage de propriétés ainsi que modifier les propriétés automatiquement renseignées, si nécessaire.

Nom de classe Nom complet de la classe de pilote du job.
Arguments Liste des arguments séparés par des espaces. Ils sont transmis à la classe du pilote lors de l’exécution du job.

Par exemple,

23Dec2016 /home/Hadoop/EYInc.txt
  1. Ces variables peuvent être transmises comme arguments, qui sont définis de sorte à accepter des valeurs d’exécution dans le stage source ou dans ce stage en cours du flux de processus.

    Par exemple, si, dans la sortie du stage précédent du flux de processus, la variable SalesStartRange est définie, vous pouvez inclure cette variable dans cette liste d’arguments comme ${SalesStartRange} ainsi que d’autres arguments obligatoires, comme suit :

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. Dans le cas où un argument donné contient un espace, encadrez-le à l'aide de guillemets doubles. Par exemple, "/home/Hadoop/Sales Records".

Jobs du SDK Qualité des Big Data Spectrum - Arguments :

Pour exécuter les jobs Spark du SDK Qualité des Big Data Spectrum, transmettez les différents fichiers de configuration sous forme de liste d’arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration.

La syntaxe de la liste d’arguments des propriétés de configuration est la suivante :

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to Spark configuration file>] [-output <Path of output directory>]

Par exemple, pour un job Spark MatchKeyGenerator :

-config /home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input /home/hadoop/spark/matchkey/inputFileConfig.xml -output /home/hadoop/spark/matchkey/outputFileConfig.xml
Remarque : Si la même clé de propriété de configuration est spécifiée dans le champ Arguments et dans la grille Propriétés, mais que chacune pointe vers des fichiers de configuration différents, le fichier indiqué dans la grille Propriétés est celui retenu.

Les exemples de propriétés de configuration sont livrés avec le SDK Qualité des Big Data et placés sous <Big Data Quality bundle>\samples\configuration.

.

Propriétés générales

Champ Description
Maître Sélectionnez l'une des options permettant d'exécuter le job Spark :
YARN
Pour lancer et gérer le job Spark à l’aide de YARN.
Spark
Pour lancer et gérer le job Spark à l’aide de l'application Spark.
URL Spark URL permettant d'accéder au cluster Spark au format <hostname of Spark cluster>:<port of Spark cluster>.

Ce champ n'est visible que si vous sélectionnez Spark dans le champ Maître.

Mode de déploiement Sélectionnez l'une des options :
Client
Pour exécuter le pilote du job Spark sur le client Spectrum™ Technology Platform.
Cluster
Pour exécuter le pilote du job Spark sur un cluster.
Propriétés Dans la grille, sous la colonne Propriétés, saisissez les noms des propriétés, et, sous la colonne Valeur, saisissez les valeurs des propriétés correspondantes.

Il existe certaines propriétés obligatoires selon le type de Maître et de Mode de déploiement.

Propriétés obligatoires YARN  
yarn.resourcemanager.hostname Adresse IP du ResourceManager YARN.
yarn.resourcemanager.address Adresse, y compris l'adresse IP et le port du ResourceManager YARN au format <hostname>:<port>.
Propriétés du mode de déploiement Client    
Spark.driver.host Adresse IP du poste sur lequel doit être exécuté le pilote Spark. Obligatoire
spark.client.mode.temp.location Chemin d’accès au dossier temp sur le serveur Spectrum à utiliser pour les jobs Universal Addressing :
  • Validate Address
  • Validate Address Global
  • Validate Address Loqate
Remarque : Nous vous recommandons vivement d'utiliser cette propriété pour les jobs Universal Addressing pour garantir l'utilisation du dossier temp spécifié pour obtenir des résultats intermédiaires.
Facultatif
Ainsi :
  1. Pour le mode YARN Cluster, les deux premières propriétés sont obligatoires.
  2. Pour le mode YARN Client, les trois premières propriétés sont obligatoires.
  3. Pour le mode SPARK Client, la troisième propriété est obligatoire.
Remarque : Vous pouvez définir les propriétés obligatoires ci-dessus soit en créant la connexion dans Management Console, soit dans cette activité Spark. Si les mêmes propriétés sont définies dans Management Console et dans l'activité du job Spark, les valeurs attribuées dans l’activité Spark sont applicables.
En plus de ces propriétés obligatoires, vous pouvez saisir ou importer autant d'autres propriétés que nécessaire pour exécuter le job.
Importer Pour importer des propriétés d'un fichier, cliquez sur Importer. Accédez à l’emplacement du fichier de propriétés respectif et sélectionnez le fichier au format XML. Les propriétés contenues dans le fichier importé sont copiées dans la grille Propriétés.
Remarque :
  1. Si la même propriété est définie ici et dans Management Console, les valeurs définies ici remplacent celles définies dans Management Console.
  2. Le fichier de propriétés doit être au format XML et doit suivre la syntaxe :
    <configuration>
        <property>
            <name>key</name>
            <value>some_value</value>
            <description>A brief description of the 
              purpose of the property key.</description>
        </property>
    </configuration>
    Créez vos propres fichiers de propriétés en utilisant le format XML ci-dessus.
  3. Si la même propriété existe à la fois dans la grille et dans le fichier de propriétés importé, la valeur importée du fichier remplace la valeur existante dans la grille pour la même propriété.
  4. Vous pouvez importer plusieurs fichiers de propriétés l'un après l'autre, si nécessaire. Les propriétés contenues dans chaque fichier importé sont ajoutées à la grille.
  5. Assurez-vous que le fichier de propriétés est présent sur le serveur Spectrum™ Technology Platform.
  6. La balise <description> est facultative pour chaque clé de propriété d'un fichier de propriétés de configuration.

Dépendances

Dans cet onglet, ajoutez la liste des fichiers d’entrée et des fichiers Jar nécessaires pour exécuter le job.

Une fois que le job est exécuté, les fichiers de référence et les fichiers de référence Jar ajoutés ici sont disponibles dans le cache distribué du job.

Fichiers de référence
Pour ajouter les différents fichiers requis comme entrée pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier en question.

Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.

Fichiers JAR de référence
Pour ajouter les fichiers Jar requis pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier Jar en question.

Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.

Remarque : Le chemin d’accès Jar doit pointer vers un répertoire figurant sur l’ordinateur du serveur Spectrum.