Run Hadoop MapReduce Job

La actividad Ejecutar trabajo MapReduce le permite ejecutar cualquier trabajo MapReduce en un clúster de Hadoop, mediante la asignación del archivo JAR correspondiente. Puede usar esta actividad para ejecutar un trabajo MapReduce de Big Data Quality SDK de Spectrum o cualquier trabajo MapReduce externo.

Nota: Si el trabajo MapReduce falla, aparece un mensaje de error junto con el estado de la ejecución del trabajo.
Campo Descripción
Servidor de Hadoop La lista de servidores de Hadoop configurados.

Para obtener información sobre la asignación de servidores de archivos HDFS a través de Management Console, consulte la Guía de administración.

Ruta de archivo JAR La ruta del archivo JAR correspondiente para el trabajo MapReduce de Hadoop que se ejecutará.
Nota: El archivo JAR debe estar presente en la ubicación del cliente externo o del servidor Spectrum. No se debe colocar en el clúster de Hadoop.
Clase de controlador Seleccione uno de:
Predeterminado

Para ejecutar un trabajo externo sencillamente ingresando el nombre de clase y los argumentos para el trabajo, seleccione Predeterminado.

Cuando se selecciona Predeterminado, se muestran los campos Nombre de clase y Argumentos.

Configurar
Para ingresar propiedades de trabajo adicionales de cualquier trabajo externo o para ejecutar cualquiera de los trabajos Big Data Quality SDK de Spectrum, seleccione Configurar.

Cuando selecciona Configurar, aparece el campo Tipo de trabajo.

Tipo de trabajo Seleccione uno de:
Spectrum
Para ejecutar cualquiera de los trabajos Big Data Quality SDK de Spectrum, seleccione Spectrum.

Cuando selecciona Spectrum, aparece el campo Trabajos de Spectrum.

Genérico
Para especificar propiedades adicionales para cualquier trabajo externo, seleccione Genérico.
Trabajos de Spectrum Seleccione un trabajo de Spectrum de la lista de trabajos Big Data Quality SDK de Spectrum.
Cuando selecciona el trabajo de Spectrum deseado:
  1. Los campos Nombre de trabajo, Nombre de clase y Argumentos se llenan automáticamente.

    Según sea necesario, puede editar todos los campos de llenado automático, excepto Nombre de clase.

    Importante: Para el trabajo de Spectrum seleccionado, no debe editar el campo de llenado automático Nombre de clase o no podrá ejecutar el trabajo.
  2. La cuadrícula Propiedades se llena automáticamente con las propiedades de configuración requeridas del trabajo de Spectrum seleccionado, con sus valores predeterminados.

    Puede agregar o importar más propiedades, así como modificar las propiedades de llenado automático, según sea necesario.

Nombre de clase El nombre completamente calificado de la clase de controlador del trabajo.
Argumentos La lista de argumentos separada con espacios. Estos pasan a la clase de controlador durante el tiempo de ejecución para ejecutar el trabajo.

Por ejemplo:

23Dec2016 /home/Hadoop/EYInc.txt
  1. Esas variables se pueden pasar como argumentos en la lista de argumentos, las cuales se definen para aceptar valores de tiempo de ejecución, ya sea en la etapa de origen o en la etapa actual del flujo de proceso.

    Por ejemplo, si en los datos de salida de la etapa anterior del flujo de proceso se define la variable SalesStartRange, puede incluir esta variable en esta lista de argumentos como ${SalesStartRange}, junto con otros argumentos requeridos, según se ilustra:

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. En caso de que un argumento en particular contenga un espacio, enciérrelo entre comillas dobles.

    Por ejemplo, Spatial:name=Administration,type=WMS Service.<parmname>Spatial:name=Administration,type=WMS Service</parmname>"/home/Hadoop/Sales Records"

Trabajos Big Data Quality SDK de Spectrum - Argumentos:

Para ejecutar trabajos MapReduce de Big Data Quality SDK de Spectrum, pase los diversos archivos de configuración como una lista de argumentos. Cada clave de argumentos acepta la ruta de un único archivo de propiedades de configuración, donde cada archivo contiene múltiples propiedades de configuración.

La sintaxis de la lista de argumentos para las propiedades de configuración es la siguiente:

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]

Por ejemplo, para un trabajo MapReduce MatchKeyGenerator:

-config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml
Nota: Si se especifica la misma clave de propiedad de configuración tanto en el campo Argumentos como en la cuadrícula Propiedades pero cada uno apunta a diferentes archivos de configuración, el archivo indicado en la cuadrícula Propiedades para esta propiedad se mantiene.

Se envían propiedades de configuración de muestra con el Big Data Quality SDK, los que se colocan en la ubicación <Big Data Quality bundle>\samples\configuration.

Ficha General

Campo Descripción Requisito
Nombre de trabajo El nombre del trabajo MapReduce de Hadoop. Requerido
Ruta de entrada La ruta del archivo de entrada para el trabajo. Requerido
Ruta de salida La ruta del archivo de salida para el trabajo. Requerido
Sobrescribir salida Indica si la ruta de salida especificada se debe sobrescribir en el caso que ya exista.
Nota: Si esta casilla de verificación se deja sin marcar, y se determina que la ruta de salida configurada existe durante el tiempo de ejecución, Hadoop arroja una excepción y el flujo de proceso se cancela.
Opcional
Clase de mapeador El nombre totalmente calificado de la clase que maneja la funcionalidad del mapeador del trabajo. Requerido
Clase de reductor El nombre completamente calificado de la clase que maneja la funcionalidad del reductor del trabajo. Opcional
Clase de combinador El nombre completamente calificado de la clase que maneja la funcionalidad del combinador del trabajo. Opcional
Clase de particionador El nombre totalmente calificado de la clase que maneja la funcionalidad del particionador del trabajo. Opcional
Cantidad de reductores La cantidad de reductores que se usan para ejecutar el trabajo MapReduce. Opcional
Formato de entrada El formato de los datos de entrada. Requerido
Formato de salida El formato de los datos de salida. Requerido
Clase de clave de salida El tipo de datos de las claves en los pares de clave/valor de salida. Requerido
Clase de valor de salida El tipo de datos de los valores en los pares de clave/valor de salida. Requerido

Ficha Propiedades

Si desea especificar propiedades adicionales para ejecutar el trabajo requerido, use esta ficha para definir la cantidad de pares de valores de propiedad que necesite. Puede añadir las propiedades requeridas directamente en la cuadrícula una a la vez.

Opcionalmente, para importar propiedades desde un archivo, haga clic en Importar. Vaya a la ubicación del archivo de propiedades respectivo y seleccione el archivo de formato XML. Las propiedades contenidas en el archivo importado se copian en la cuadrícula. El archivo de propiedades debe ser de formato XML y seguir la sintaxis:
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>

Es posible importar directamente el archivo de propiedades Hadoop mapred.xml, o bien, puede crear sus propios archivos usando este formato XML.

Nota:
  1. Si se define la misma propiedad aquí y en Management Console, los valores definidos aquí anulan a los definidos en Management Console.
  2. Si la misma propiedad existe tanto en la cuadrícula como en el archivo de propiedades importado, entonces el valor importado desde el archivo sobrescribe el valor existente en la cuadrícula para la misma propiedad.
  3. Puede importar múltiples archivos de propiedades uno tras otro, si así se requiere. Las propiedades incluidas en cada archivo importado se añaden a la cuadrícula.
  4. Asegúrese de que el archivo de propiedades esté en el servidor Spectrum™ Technology Platform.
  5. La etiqueta <description> es opcional para cada clave de propiedad en un archivo de propiedades de configuración.

Ficha Dependencias

En esta ficha, añada la lista de archivos de entrada y Jar requeridos para ejecutar el trabajo.

Una vez que se ejecuta el trabajo, los archivos de referencia y los archivos Jar de referencia añadidos aquí quedan disponibles en la caché distribuida del trabajo.

Archivos de referencia
Para añadir los numerosos archivos requeridos como datos de entrada para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo en particular.

Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.

Archivos Jar de referencia
Para añadir los archivos Jar requeridos para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo Jar en particular.

Para quitar los archivos añadidos a la lista, seleccione el archivo en particular y haga clic en Quitar.