Parámetros de entrada

Parámetro Descripción
Opción Agrupar por Para un trabajo MapReduce, use los argumentos:
Columna Agrupar por
El nombre de la columna con la que agrupará los registros.
Cantidad de tareas del reductor
La cantidad de tareas del reductor requeridas para agrupar los registros.
Para un trabajo Spark, para crear una opción Agrupar por, use los argumentos:
Columna Agrupar por
El nombre de la columna con la que agrupará los registros.
Regla de cruce Defina tantas reglas primarias y secundarias como sea necesario para crear un objeto MatchRule.

Para obtener más información, consulte MatchRule.

Archivo de entrada For text files:
Ruta de acceso al archivo
La ruta del archivo de entrada en la plataforma Hadoop.
Separador de registro
El separador de registro que se usa en el archivo de entrada.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada.
Calificador de texto
El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado.
Campos de la fila del encabezado
Una serie de campos del encabezado del archivo de entrada.
Omitir la primera fila
Bandera para indicar si se debe omitir la primera fila mientras se leen los registros del archivo de entrada.

Debe configurarse como verdadero en caso de que la primera fila sea una fila del encabezado.

Atención: Invoke the appropriate constructor ofFilePath.
For ORC format files:
ORC File Path
La ruta del archivo de entrada en la plataforma Hadoop.
Common parameters:
Asignaciones de campos
A map of key value pairs, with the existing column names as the keys and the desired output column names as the values.
Archivo de salida For text files:
Ruta de acceso al archivo
La ruta del archivo de entrada en la plataforma Hadoop.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada.
Atención: Invoke the appropriate constructor ofFilePath.
For ORC format files:
ORC File Path
The path of the output ORC format file on the Hadoop platform.
Common parameters:
Sobrescribir
Bandera para indicar si el archivo de salida debe sobrescribir el archivo existente del mismo nombre.
Crear encabezado de salida
Bandera para indicar si el archivo del encabezado se debe crear en el servidor Hadoop o no.
Configuraciones de trabajo Las configuraciones de Hadoop para el trabajo.

Para un trabajo MapReduce, la instancia debe ser del tipo MRJobConfig. Para un trabajo Spark, la instancia debe ser del tipo SparkJobConfig.

Nombre de trabajo El nombre del trabajo.
Columna de cruce inmediato El nombre de la columna que se usará para el cruce inmediato de registros.
Configuración del número de colección de registros únicos en cero Configure en verdadero para establecer el número de colección de registros únicos en 0 (cero).
Comprimir el resultado Bandera para indicar si el resultado se debe comprimir.

Configure en verdadero para comprimir el resultado.

Configuración de claves de cruce Una combinación de las columnas y los algoritmos que se aplicarán para generar la clave de cruce necesaria para realizar el cruce.
Nota: Especifique solo una clave de cruce.
Atención: Establezca las configuraciones de la clave de cruce solo si desea generar una clave de cruce antes de realizar el cruce.