Submit Spark Job

La actividad Submit Spark Job le permite ejecutar un trabajo Spark, ya sea en un clúster Hadoop o en un clúster Spark. Esta actividad le permite ejecutar un trabajo Spark de Spectrum Big Data Quality SDK o cualquier trabajo Spark externo.

Actualmente, puede enviar un trabajo Spark a cualquiera de los siguientes tipos de clúster:
  • YARN
  • Spark

Modos de implementación

Para un trabajo Spark, puede usar los modos de implementación de clúster o cliente. Estos modos de implementación determinan si la clase de controlador del trabajo Spark se ejecuta en el clúster o en el cliente Spectrum™ Technology Platform.

En resumen, puede ejecutar un trabajo Spark en cualquiera de los siguientes modos de implementación:
  1. Modo de clúster YARN
  2. Modo de cliente YARN
  3. Modo de cliente Spark
Atención: Recomendamos ejecutar los modos de cliente YARN o Spark cuando el servidor Spectrum esté instalado y se ejecute desde el interior del entorno de clúster.
Campo Descripción
Nombre de trabajo El nombre del trabajo Spark.
Servidor de Hadoop La lista de servidores de Hadoop configurados.

Para obtener información sobre la asignación de servidores de archivos HDFS a través de Management Console, consulte la Guía de administración.

Ruta de archivo JAR La ruta del archivo JAR correspondiente para el trabajo Spark que se ejecutará.
Nota: La ruta de Jar debe dirigir a un directorio en el equipo del servidor Spectrum.
Tipo de trabajo Seleccione uno de:
Spectrum
Para ejecutar cualquiera de los trabajos Big Data Quality SDK de Spectrum, seleccione Spectrum.

Cuando selecciona Spectrum, aparece el campo Trabajos de Spectrum.

Genérico
Para especificar propiedades adicionales para cualquier trabajo externo, seleccione Genérico.
Trabajos de Spectrum Seleccione un trabajo de Spectrum de la lista de trabajos Big Data Quality SDK de Spectrum.
Cuando selecciona el trabajo de Spectrum deseado:
  1. Los campos Nombre de trabajo, Nombre de clase y Argumentos se llenan automáticamente.

    Según sea necesario, puede editar todos los campos de llenado automático, excepto Nombre de clase.

    Importante: Para el trabajo de Spectrum seleccionado, no debe editar el campo de llenado automático Nombre de clase o no podrá ejecutar el trabajo.
  2. La cuadrícula Propiedades se llena automáticamente con las propiedades de configuración requeridas del trabajo de Spectrum seleccionado, con sus valores predeterminados.

    Puede agregar o importar más propiedades, así como modificar las propiedades de llenado automático, según sea necesario.

Nombre de clase El nombre completamente calificado de la clase de controlador del trabajo.
Argumentos La lista de argumentos separada con espacios. Estos pasan a la clase de controlador durante el tiempo de ejecución para ejecutar el trabajo.

Por ejemplo:

23Dec2016 /home/Hadoop/EYInc.txt
  1. Dichas variables se pueden pasar como argumentos, los cuales se definen para aceptar valores de tiempo de ejecución, ya sea en la etapa de origen o en la etapa actual del flujo de proceso.

    Por ejemplo, si en los datos de salida de la etapa anterior del flujo de proceso se define la variable SalesStartRange, puede incluir esta variable en esta lista de argumentos como ${SalesStartRange}, junto con otros argumentos requeridos, según se ilustra:

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. En caso de que un argumento en particular contenga un espacio, enciérrelo entre comillas dobles. Por ejemplo, Spatial:name=Administration,type=WMS Service.<parmname>Spatial:name=Administration,type=WMS Service</parmname>"/home/Hadoop/Sales Records"

Trabajos Big Data Quality SDK de Spectrum - Argumentos:

Para ejecutar trabajos Spark de Big Data Quality SDK de Spectrum, pase los distintos archivos de configuración como una lista de argumentos. Cada clave de argumentos acepta la ruta de un único archivo de propiedades de configuración, donde cada archivo contiene múltiples propiedades de configuración.

La sintaxis de la lista de argumentos para las propiedades de configuración es la siguiente:

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to Spark configuration file>] [-output <Path of output directory>]

Por ejemplo, para un trabajo Spark MatchKeyGenerator:

-config /home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input /home/hadoop/spark/matchkey/inputFileConfig.xml -output /home/hadoop/spark/matchkey/outputFileConfig.xml
Nota: Si se especifica la misma clave de propiedad de configuración tanto en el campo Argumentos como en la cuadrícula Propiedades pero cada uno apunta a diferentes archivos de configuración, el archivo indicado en la cuadrícula Propiedades para esta propiedad se mantiene.

Se envían propiedades de configuración de muestra con el Big Data Quality SDK, los que se colocan en la ubicación <Big Data Quality bundle>\samples\configuration.

.

Propiedades generales

Campo Descripción
Principal Seleccione cualquiera de las opciones que el trabajo Spark ejecutará:
YARN
Iniciar y administrar el trabajo Spark con YARN.
Spark
Iniciar y administrar el trabajo Spark con la aplicación Spark.
URL de Spark La URL para acceder al clúster Spark en el formato <hostname of Spark cluster>:<port of Spark cluster>.

Este campo se vuelve visible si selecciona Spark en el campo Principal.

Modo de implementación Seleccione cualquiera de las siguientes opciones:
Cliente
Para ejecutar el controlador del trabajo Spark en el cliente Spectrum™ Technology Platform.
Clúster
Para ejecutar el controlador del trabajo Spark en un clúster.
Propiedades En la cuadrícula, en la columna Propiedad ingrese los nombres de las propiedades, y en la columna Valor ingrese los valores de las propiedades correspondientes.

Existen algunas propiedades obligatorias según el tipo de valor Principal y Modo de implementación.

Propiedades obligatorias de YARN  
yarn.resourcemanager.hostname La dirección IP de YARN ResourceManager.
yarn.resourcemanager.address La dirección que incluye la dirección IP y el puerto de YARN ResourceManager en formato <hostname>:<port>.
Propiedades del modo de implementación del cliente    
Spark.driver.host La dirección IP del equipo en el cual se ejecutará el controlador Spark. Requerido
spark.client.mode.temp.location La ruta de la carpeta "temp" en el servidor Spectrum que se debe usar para los trabajos de Universal Addressing:
  • Validate Address
  • Validate Address Global
  • Validate Address Loqate
Nota: Recomendamos encarecidamente usar esta propiedad para trabajos de Universal Addressing a fin de garantizar que se use la carpeta "temp" especificada para resultados intermedios.
Opcional
Por lo tanto:
  1. Para el modo de clúster YARN, las primeras dos propiedades son obligatorias.
  2. Para el modo de cliente YARN, las tres propiedades son obligatorias.
  3. Para el modo de cliente SPARK, la tercera propiedad es obligatoria.
Nota: Puede definir las propiedades obligatorias mencionadas anteriormente, ya sea al crear la conexión en Management Console o en esta actividad Spark. Si se definen las mismas propiedades tanto en Management Console como en la actividad Spark Job, entonces se aplican los valores asignados en la actividad Spark.
Además de estas propiedades obligatorias, puede ingresar o importar cuantas propiedades más desee para ejecutar el trabajo.
Importar Para importar propiedades desde un archivo, haga clic en Importar. Vaya a la ubicación del archivo de propiedades respectivo y seleccione el archivo de formato XML. Las propiedades contenidas en el archivo importado se copian en la cuadrícula Propiedades.
Nota:
  1. Si se define la misma propiedad aquí y en Management Console, los valores definidos aquí anulan a los definidos en Management Console.
  2. El archivo de propiedades debe ser de formato XML y seguir la sintaxis:
    <configuration>
        <property>
            <name>key</name>
            <value>some_value</value>
            <description>A brief description of the 
              purpose of the property key.</description>
        </property>
    </configuration>
    Crear sus propios archivos de propiedades en el formato XML mencionado anteriormente.
  3. Si la misma propiedad existe tanto en la cuadrícula como en el archivo de propiedades importado, entonces el valor importado desde el archivo sobrescribe el valor existente en la cuadrícula para la misma propiedad.
  4. Puede importar múltiples archivos de propiedades uno tras otro, si así se requiere. Las propiedades incluidas en cada archivo importado se añaden a la cuadrícula.
  5. Asegúrese de que el archivo de propiedades esté en el servidor Spectrum™ Technology Platform.
  6. La etiqueta <description> es opcional para cada clave de propiedad en un archivo de propiedades de configuración.

Dependencias

En esta ficha, añada la lista de archivos de entrada y Jar requeridos para ejecutar el trabajo.

Una vez que se ejecuta el trabajo, los archivos de referencia y los archivos Jar de referencia añadidos aquí quedan disponibles en la caché distribuida del trabajo.

Archivos de referencia
Para añadir los numerosos archivos requeridos como datos de entrada para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo en particular.

Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.

Archivos Jar de referencia
Para añadir los archivos Jar requeridos para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo Jar en particular.

Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.

Nota: La ruta de Jar debe dirigir a un directorio en el equipo del servidor Spectrum.