Submit Spark Job
La actividad Submit Spark Job le permite ejecutar un trabajo Spark, ya sea en un clúster Hadoop o en un clúster Spark. Esta actividad le permite ejecutar un trabajo Spark de Spectrum Big Data Quality SDK o cualquier trabajo Spark externo.
- YARN
- Spark
Modos de implementación
Para un trabajo Spark, puede usar los modos de implementación de clúster o cliente. Estos modos de implementación determinan si la clase de controlador del trabajo Spark se ejecuta en el clúster o en el cliente Spectrum™ Technology Platform.
- Modo de clúster YARN
- Modo de cliente YARN
- Modo de cliente Spark
Campo | Descripción |
---|---|
Nombre de trabajo | El nombre del trabajo Spark. |
Servidor de Hadoop | La lista de servidores de Hadoop configurados. Para obtener información sobre la asignación de servidores de archivos HDFS a través de Management Console, consulte la Guía de administración. |
Ruta de archivo JAR | La ruta del archivo JAR correspondiente para el trabajo Spark que se ejecutará. Nota: La ruta de Jar debe dirigir a un directorio en el equipo del servidor Spectrum.
|
Tipo de trabajo | Seleccione uno de:
|
Trabajos de Spectrum | Seleccione un trabajo de Spectrum de la lista de trabajos Big Data Quality SDK de Spectrum. Cuando selecciona el trabajo de Spectrum deseado:
|
Nombre de clase | El nombre completamente calificado de la clase de controlador del trabajo. |
Argumentos | La lista de argumentos separada con espacios. Estos pasan a la clase de controlador durante el tiempo de ejecución para ejecutar el trabajo. Por ejemplo:
Para ejecutar trabajos Spark de Big Data Quality SDK de Spectrum, pase los distintos archivos de configuración como una lista de argumentos. Cada clave de argumentos acepta la ruta de un único archivo de propiedades de configuración, donde cada archivo contiene múltiples propiedades de configuración. La sintaxis de la lista de argumentos para las propiedades de configuración es la siguiente: [-config <Path to
configuration file>] [-debug] [-input <Path to input configuration file>] [-conf
<Path to Spark configuration file>] [-output <Path of output
directory>] Por ejemplo, para un trabajo Spark MatchKeyGenerator: -config
/home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input
/home/hadoop/spark/matchkey/inputFileConfig.xml -output
/home/hadoop/spark/matchkey/outputFileConfig.xml Nota: Si se especifica la misma clave de propiedad de configuración tanto en el campo Argumentos como en la cuadrícula Propiedades pero cada uno apunta a diferentes archivos de configuración, el archivo indicado en la cuadrícula Propiedades para esta propiedad se mantiene.
Se envían propiedades de configuración de muestra con el Big Data Quality SDK, los que se colocan en la ubicación <Big Data Quality bundle>\samples\configuration. . |
Propiedades generales
Campo | Descripción | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Principal | Seleccione cualquiera de las opciones que el trabajo Spark ejecutará:
|
|||||||||||||||
URL de Spark | La URL para acceder al clúster Spark en el formato <hostname of Spark
cluster>:<port of Spark cluster> .Este campo se vuelve visible si selecciona Spark en el campo Principal. |
|||||||||||||||
Modo de implementación | Seleccione cualquiera de las siguientes opciones:
|
|||||||||||||||
Propiedades | En la cuadrícula, en la columna Propiedad ingrese los nombres de las propiedades, y en la columna Valor ingrese los valores de las propiedades correspondientes. Existen algunas propiedades obligatorias según el tipo de valor Principal y Modo de implementación.
Nota: Puede definir las propiedades obligatorias mencionadas anteriormente, ya sea al crear la conexión en Management Console o en esta actividad Spark. Si se definen las mismas propiedades tanto en Management Console como en la actividad Spark Job, entonces se aplican los valores asignados en la actividad Spark.
Además de estas propiedades obligatorias, puede ingresar o importar cuantas propiedades más desee para ejecutar el trabajo. |
|||||||||||||||
Importar | Para importar propiedades desde un archivo, haga clic en Importar. Vaya a la ubicación del archivo de propiedades respectivo y seleccione el archivo de formato XML. Las propiedades contenidas en el archivo importado se copian en la cuadrícula Propiedades. Nota:
|
Dependencias
En esta ficha, añada la lista de archivos de entrada y Jar requeridos para ejecutar el trabajo.Una vez que se ejecuta el trabajo, los archivos de referencia y los archivos Jar de referencia añadidos aquí quedan disponibles en la caché distribuida del trabajo.
- Archivos de referencia
- Para añadir los numerosos archivos requeridos como datos de entrada para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo en particular.
Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.
- Archivos Jar de referencia
- Para añadir los archivos Jar requeridos para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo Jar en particular.
Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.