Run Hadoop MapReduce Job

La actividad Ejecutar trabajo MapReduce le permite ejecutar cualquier trabajo MapReduce en un clúster de Hadoop, mediante la asignación del archivo JAR correspondiente. Puede usar esta actividad para ejecutar un trabajo MapReduce de Spectrum Data Quality para Big Data SDK o cualquier trabajo MapReduce externo.

Nota: Si el trabajo MapReduce falla, aparece un mensaje de error junto con el estado de la ejecución del trabajo.

Campo	Descripción
Servidor de Hadoop	La lista de servidores de Hadoop configurados. Para obtener información sobre la asignación de servidores de archivos HDFS a través de Management Console, consulte la Guía de administración.
Ruta de archivo JAR	La ruta del archivo JAR correspondiente para el trabajo MapReduce de Hadoop que se ejecutará. Nota: El archivo JAR debe estar presente en la ubicación del cliente externo o del servidor Spectrum. No se debe colocar en el clúster de Hadoop.
Clase de controlador	Seleccione uno de: Predeterminado Para ejecutar un trabajo externo sencillamente ingresando el nombre de clase y los argumentos para el trabajo, seleccione `Predeterminado`. Cuando se selecciona `Predeterminado`, se muestran los campos Nombre de clase y Argumentos. Configurar Para ingresar propiedades de trabajo adicionales de cualquier trabajo externo o para ejecutar cualquiera de los trabajos Big Data Quality SDK de Spectrum, seleccione `Configurar`. Cuando selecciona `Configurar`, aparece el campo Tipo de trabajo.
Tipo de trabajo	Seleccione uno de: Spectrum Para ejecutar cualquiera de los trabajos Big Data Quality SDK de Spectrum, seleccione `Spectrum`. Cuando selecciona `Spectrum`, aparece el campo Trabajos de Spectrum. Genérico Para especificar propiedades adicionales para cualquier trabajo externo, seleccione `Genérico`.
Trabajos de Spectrum	Seleccione el trabajo de Spectrum requerido de la lista de trabajos SDK de Spectrum Data Quality. La lista incluye los siguientes trabajos: Validación de direcciones Advanced Transformer Best of Breed Duplicate Syncronization Filtro Groovy Intraflow Match Interflow Match Joiner Match Key Generator Open Name Parser Open Parser Table Lookup Transactional Match Validate Address Validate Address Global Cuando selecciona el trabajo de Spectrum deseado: Los campos Nombre de trabajo, Nombre de clase y Argumentos se llenan automáticamente. Según sea necesario, puede editar todos los campos de llenado automático, excepto Nombre de clase. Importante: Para el trabajo de Spectrum seleccionado, no debe editar el campo de llenado automático Nombre de clase o no podrá ejecutar el trabajo. La cuadrícula Propiedades se llena automáticamente con las propiedades de configuración requeridas del trabajo de Spectrum seleccionado, con sus valores predeterminados. Puede agregar o importar más propiedades, así como modificar las propiedades de llenado automático, según sea necesario.
Nombre de clase	El nombre completamente calificado de la clase de controlador del trabajo.
Argumentos	La lista de argumentos separada con espacios. Estos pasan a la clase de controlador durante el tiempo de ejecución para ejecutar el trabajo. Por ejemplo: `23Dec2016 /home/Hadoop/EYInc.txt` Esas variables se pueden pasar como argumentos en la lista de argumentos, las cuales se definen para aceptar valores de tiempo de ejecución, ya sea en la etapa de origen o en la etapa actual del flujo de proceso. Por ejemplo, si en los datos de salida de la etapa anterior del flujo de proceso se define la variable `SalesStartRange`, puede incluir esta variable en esta lista de argumentos como `${SalesStartRange}`, junto con otros argumentos requeridos, según se ilustra: `23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}` En caso de que un argumento en particular contenga un espacio, enciérrelo entre comillas dobles. Por ejemplo, Spatial:name=Administration,type=WMS Service.<parmname>Spatial:name=Administration,type=WMS Service</parmname>"/home/Hadoop/Sales Records" Trabajos Big Data Quality SDK de Spectrum - Argumentos: Para ejecutar trabajos MapReduce de Big Data Quality SDK de Spectrum, pase los diversos archivos de configuración como una lista de argumentos. Cada clave de argumentos acepta la ruta de un único archivo de propiedades de configuración, donde cada archivo contiene múltiples propiedades de configuración. La sintaxis de la lista de argumentos para las propiedades de configuración es la siguiente: `[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]` Por ejemplo, para un trabajo MapReduce MatchKeyGenerator: `-config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml` Nota: Si se especifica la misma clave de propiedad de configuración tanto en el campo Argumentos como en la cuadrícula Propiedades, pero cada uno apunta a diferentes archivos de configuración, el archivo indicado en la cuadrícula Propiedades para esta propiedad se mantiene. Se envían propiedades de configuración de muestra con el Data & Address Quality para el SDK de Big Data, los que se colocan en la ubicación <Big Data Quality bundle>\samples\configuration.

Pestaña General

Campo	Descripción	Requisito
Nombre de trabajo	El nombre del trabajo MapReduce de Hadoop.	Requerido
Ruta de entrada	La ruta del archivo de entrada para el trabajo.	Requerido
Ruta de salida	La ruta del archivo de salida para el trabajo.	Requerido
Sobrescribir salida	Indica si la ruta de salida especificada se debe sobrescribir en el caso que ya exista. Nota: Si esta casilla de verificación se deja sin marcar, y se determina que la ruta de salida configurada existe durante el tiempo de ejecución, Hadoop arroja una excepción y el flujo de proceso se cancela.	Opcional
Clase de mapeador	El nombre totalmente calificado de la clase que maneja la funcionalidad del mapeador del trabajo.	Requerido
Clase de reductor	El nombre completamente calificado de la clase que maneja la funcionalidad del reductor del trabajo.	Opcional
Clase de combinador	El nombre completamente calificado de la clase que maneja la funcionalidad del combinador del trabajo.	Opcional
Clase de particionador	El nombre totalmente calificado de la clase que maneja la funcionalidad del particionador del trabajo.	Opcional
Cantidad de reductores	La cantidad de reductores que se usan para ejecutar el trabajo MapReduce.	Opcional
Formato de entrada	El formato de los datos de entrada.	Requerido
Formato de salida	El formato de los datos de salida.	Requerido
Clase de clave de salida	El tipo de datos de las claves en los pares de clave/valor de salida.	Requerido
Clase de valor de salida	El tipo de datos de los valores en los pares de clave/valor de salida.	Requerido

Pestaña Propiedades

Si desea especificar propiedades adicionales para ejecutar el trabajo requerido, use esta pestaña para definir la cantidad de pares de valores de propiedad que necesite. Puede agregar las propiedades requeridas directamente en la cuadrícula, una a la vez.

Opcionalmente, para importar propiedades desde un archivo, haga clic en Importar. Vaya a la ubicación del archivo de propiedades respectivo y seleccione el archivo de formato XML. Las propiedades contenidas en el archivo importado se copian en la cuadrícula. El archivo de propiedades debe ser de formato XML y seguir la sintaxis:

<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>

Es posible importar directamente el archivo de propiedades Hadoop mapred.xml, o bien puede crear sus propios archivos usando este formato XML.

Nota:

Si se define la misma propiedad aquí y en Management Console, los valores definidos aquí anulan los definidos en Management Console.
Si la misma propiedad existe tanto en la cuadrícula como en el archivo de propiedades importado, entonces el valor importado desde el archivo sobrescribe el valor existente en la cuadrícula para la misma propiedad.
Puede importar múltiples archivos de propiedades, uno tras otro, si así se requiere. Las propiedades incluidas en cada archivo importado se agregan a la cuadrícula.
Asegúrese de que el archivo de propiedades esté en el servidor Spectrum™ Technology Platform.
La etiqueta <description> es opcional para cada clave de propiedad en un archivo de propiedades de configuración.
Los datos de referencia deben estar locales en los nodos de datos para ejecutar los trabajos relevantes. Esta propiedad solo está disponible para trabajos que usan datos de referencia, como Advanced Transformer, Validate Address Global y Validate Address. La propiedad es: pb.bdq.reference.data.location.

Pestaña Dependencias

En esta pestaña, agregue la lista de archivos de entrada y Jar requeridos para ejecutar el trabajo.

Una vez que se ejecuta el trabajo, los archivos de referencia y los archivos Jar de referencia agregados aquí quedan disponibles en la caché distribuida del trabajo.

Archivos de referencia: Para agregar los numerosos archivos requeridos como datos de entrada para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo en particular.
Para quitar los archivos agregados a la lista, seleccione el archivo en particular y haga clic en Quitar.
Archivos Jar de referencia: Para agregar los archivos Jar requeridos para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo Jar en particular.
Para quitar los archivos agregados a la lista, seleccione el archivo en particular y haga clic en Quitar.