Run Hadoop MapReduce Job
La actividad Ejecutar trabajo MapReduce le permite ejecutar cualquier trabajo MapReduce en un clúster de Hadoop, mediante la asignación del archivo JAR correspondiente. Puede usar esta actividad para ejecutar un trabajo MapReduce de Spectrum Data Quality para Big Data SDK o cualquier trabajo MapReduce externo.
Campo | Descripción |
---|---|
Servidor de Hadoop | La lista de servidores de Hadoop configurados. Para obtener información sobre la asignación de servidores de archivos HDFS a través de Management Console, consulte la Guía de administración. |
Ruta de archivo JAR | La ruta del archivo JAR correspondiente para el trabajo MapReduce de Hadoop que se ejecutará. Nota: El archivo JAR debe estar presente en la ubicación del cliente externo o del servidor Spectrum. No se debe colocar en el clúster de Hadoop.
|
Clase de controlador | Seleccione uno de:
|
Tipo de trabajo | Seleccione uno de:
|
Trabajos de Spectrum | Seleccione el trabajo de Spectrum requerido de la lista de trabajos SDK de Spectrum Data Quality. La lista incluye los siguientes trabajos:
Cuando selecciona el trabajo de Spectrum deseado:
|
Nombre de clase | El nombre completamente calificado de la clase de controlador del trabajo. |
Argumentos | La lista de argumentos separada con espacios. Estos pasan a la clase de controlador durante el tiempo de ejecución para ejecutar el trabajo. Por ejemplo:
Para ejecutar trabajos MapReduce de Big Data Quality SDK de Spectrum, pase los diversos archivos de configuración como una lista de argumentos. Cada clave de argumentos acepta la ruta de un único archivo de propiedades de configuración, donde cada archivo contiene múltiples propiedades de configuración. La sintaxis de la lista de argumentos para las propiedades de configuración es la siguiente: [-config <Path to configuration file>]
[-debug] [-input <Path to input configuration file>] [-conf
<Path to MapReduce configuration file>] [-output <Path of
output directory>] Por ejemplo, para un trabajo MapReduce MatchKeyGenerator: -config
/home/hadoop/matchkey/mkgConfig.xml -input
/home/hadoop/matchkey/inputFileConfig.xml -conf
/home/hadoop/matchkey/mapReduceConfig.xml -output
/home/hadoop/matchkey/outputFileConfig.xml Nota: Si se especifica la misma clave de propiedad de configuración tanto en el campo Argumentos como en la cuadrícula Propiedades, pero cada uno apunta a diferentes archivos de configuración, el archivo indicado en la cuadrícula Propiedades para esta propiedad se mantiene.
Se envían propiedades de configuración de muestra con el Data & Address Quality para el SDK de Big Data, los que se colocan en la ubicación <Big Data Quality bundle>\samples\configuration. |
Pestaña General
Campo | Descripción | Requisito |
---|---|---|
Nombre de trabajo | El nombre del trabajo MapReduce de Hadoop. | Requerido |
Ruta de entrada | La ruta del archivo de entrada para el trabajo. | Requerido |
Ruta de salida | La ruta del archivo de salida para el trabajo. | Requerido |
Sobrescribir salida | Indica si la ruta de salida especificada se debe sobrescribir en el caso que ya exista. Nota: Si esta casilla de verificación se deja sin marcar, y se determina que la ruta de salida configurada existe durante el tiempo de ejecución, Hadoop arroja una excepción y el flujo de proceso se cancela.
|
Opcional |
Clase de mapeador | El nombre totalmente calificado de la clase que maneja la funcionalidad del mapeador del trabajo. | Requerido |
Clase de reductor | El nombre completamente calificado de la clase que maneja la funcionalidad del reductor del trabajo. | Opcional |
Clase de combinador | El nombre completamente calificado de la clase que maneja la funcionalidad del combinador del trabajo. | Opcional |
Clase de particionador | El nombre totalmente calificado de la clase que maneja la funcionalidad del particionador del trabajo. | Opcional |
Cantidad de reductores | La cantidad de reductores que se usan para ejecutar el trabajo MapReduce. | Opcional |
Formato de entrada | El formato de los datos de entrada. | Requerido |
Formato de salida | El formato de los datos de salida. | Requerido |
Clase de clave de salida | El tipo de datos de las claves en los pares de clave/valor de salida. | Requerido |
Clase de valor de salida | El tipo de datos de los valores en los pares de clave/valor de salida. | Requerido |
Pestaña Propiedades
Si desea especificar propiedades adicionales para ejecutar el trabajo requerido, use esta pestaña para definir la cantidad de pares de valores de propiedad que necesite. Puede agregar las propiedades requeridas directamente en la cuadrícula, una a la vez.
<configuration>
<property>
<name>key</name>
<value>some_value</value>
<description>A brief description of the
purpose of the property key.</description>
</property>
</configuration>
Es posible importar directamente el archivo de propiedades Hadoop mapred.xml, o bien puede crear sus propios archivos usando este formato XML.
- Si se define la misma propiedad aquí y en Management Console, los valores definidos aquí anulan los definidos en Management Console.
- Si la misma propiedad existe tanto en la cuadrícula como en el archivo de propiedades importado, entonces el valor importado desde el archivo sobrescribe el valor existente en la cuadrícula para la misma propiedad.
- Puede importar múltiples archivos de propiedades, uno tras otro, si así se requiere. Las propiedades incluidas en cada archivo importado se agregan a la cuadrícula.
- Asegúrese de que el archivo de propiedades esté en el servidor Spectrum™ Technology Platform.
- La etiqueta
<description>
es opcional para cada clave de propiedad en un archivo de propiedades de configuración. - Los datos de referencia deben estar locales en los nodos de datos para ejecutar los trabajos relevantes. Esta propiedad solo está disponible para trabajos que usan datos de referencia, como Advanced Transformer, Validate Address Global y Validate Address. La propiedad es: pb.bdq.reference.data.location.
Pestaña Dependencias
En esta pestaña, agregue la lista de archivos de entrada y Jar requeridos para ejecutar el trabajo.Una vez que se ejecuta el trabajo, los archivos de referencia y los archivos Jar de referencia agregados aquí quedan disponibles en la caché distribuida del trabajo.
- Archivos de referencia
- Para agregar los numerosos archivos requeridos como datos de entrada para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo en particular.
Para quitar los archivos agregados a la lista, seleccione el archivo en particular y haga clic en Quitar.
- Archivos Jar de referencia
- Para agregar los archivos Jar requeridos para ejecutar el trabajo, haga clic en Agregar, vaya a la ubicación respectiva en su sistema local o clúster y seleccione el archivo Jar en particular.
Para quitar los archivos agregados a la lista, seleccione el archivo en particular y haga clic en Quitar.