Submit Spark Job
L'activité Submit Spark Job vous permet d’exécuter tout job Spark, soit sur un cluster Hadoop, soit sur un cluster Spark. Grâce à cette activité, vous pouvez exécuter un job Spark du SDK Qualité des Big Data Spectrum ou tout job Spark externe.
- YARN
- Spark
Modes de déploiement
Pour un job Spark, vous pouvez utiliser le mode de déploiement cluster ou client. Ces modes de déploiement déterminent si la classe de pilote du job Spark s’exécute sur le cluster ou sur le client Spectrum™ Technology Platform.
- Mode YARN Cluster
- Mode YARN Client
- Mode Spark Client
Champ | Description |
---|---|
Nom du job | Nom du job. |
Serveur Hadoop | Liste des serveurs Hadoop configurés. Pour des informations sur le mappage des serveurs de fichiers HDFS via Management Console, reportez-vous au Guide d’administration. |
Chemin d'accès Jar | Chemin d’accès au fichier JAR approprié pour l’exécution du job Spark. Remarque : Le chemin d’accès Jar doit pointer vers un répertoire figurant sur l’ordinateur du serveur Spectrum.
|
Type de job | Sélectionnez l'un des éléments suivants :
|
Jobs Spectrum | Sélectionnez un job Spectrum dans la liste des jobs du SDK Qualité des Big Data Spectrum. Lors de la sélection du job Spectrum de votre choix :
|
Nom de classe | Nom complet de la classe de pilote du job. |
Arguments | Liste des arguments séparés par des espaces. Ils sont transmis à la classe du pilote lors de l’exécution du job. Par exemple,
Pour exécuter les jobs Spark du SDK Qualité des Big Data Spectrum, transmettez les différents fichiers de configuration sous forme de liste d’arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration. La syntaxe de la liste d’arguments des propriétés de configuration est la suivante : [-config <Path to
configuration file>] [-debug] [-input <Path to input configuration file>] [-conf
<Path to Spark configuration file>] [-output <Path of output
directory>] Par exemple, pour un job Spark MatchKeyGenerator : -config
/home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input
/home/hadoop/spark/matchkey/inputFileConfig.xml -output
/home/hadoop/spark/matchkey/outputFileConfig.xml Remarque : Si la même clé de propriété de configuration est spécifiée dans le champ Arguments et dans la grille Propriétés, mais que chacune pointe vers des fichiers de configuration différents, le fichier indiqué dans la grille Propriétés est celui retenu.
Les exemples de propriétés de configuration sont livrés avec le SDK Qualité des Big Data et placés sous <Big Data Quality bundle>\samples\configuration. . |
Propriétés générales
Champ | Description | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Maître | Sélectionnez l'une des options permettant d'exécuter le job Spark :
|
|||||||||||||||
URL Spark | URL permettant d'accéder au cluster Spark au format <hostname of Spark
cluster>:<port of Spark cluster> .Ce champ n'est visible que si vous sélectionnez Spark dans le champ Maître. |
|||||||||||||||
Mode de déploiement | Sélectionnez l'une des options :
|
|||||||||||||||
Propriétés | Dans la grille, sous la colonne Propriétés, saisissez les noms des propriétés, et, sous la colonne Valeur, saisissez les valeurs des propriétés correspondantes. Il existe certaines propriétés obligatoires selon le type de Maître et de Mode de déploiement.
Remarque : Vous pouvez définir les propriétés obligatoires ci-dessus soit en créant la connexion dans Management Console, soit dans cette activité Spark. Si les mêmes propriétés sont définies dans Management Console et dans l'activité du job Spark, les valeurs attribuées dans l’activité Spark sont applicables.
En plus de ces propriétés obligatoires, vous pouvez saisir ou importer autant d'autres propriétés que nécessaire pour exécuter le job. |
|||||||||||||||
Importer | Pour importer des propriétés d'un fichier, cliquez sur Importer. Accédez à l’emplacement du fichier de propriétés respectif et sélectionnez le fichier au format XML. Les propriétés contenues dans le fichier importé sont copiées dans la grille Propriétés. Remarque :
|
Dépendances
Dans cet onglet, ajoutez la liste des fichiers d’entrée et des fichiers Jar nécessaires pour exécuter le job.Une fois que le job est exécuté, les fichiers de référence et les fichiers de référence Jar ajoutés ici sont disponibles dans le cache distribué du job.
- Fichiers de référence
- Pour ajouter les différents fichiers requis comme entrée pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier en question.
Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.
- Fichiers JAR de référence
- Pour ajouter les fichiers Jar requis pour exécuter le job, cliquez sur Ajouter, accédez à l’emplacement respectif sur votre système ou cluster local et sélectionnez le fichier Jar en question.
Pour supprimer tout fichier ajouté à la liste, sélectionnez le fichier en question et cliquez sur Supprimer.