Parámetros de entrada

Parámetro Descripción
Opción Agrupar por

Especifica el campo que se usará para crear grupos de registros para filtrar. El trabajo de Filter retiene uno o más registros de cada grupo.

Para un trabajo MapReduce, use los siguientes argumentos:

Columna GroupBy
El nombre de la columna que usa los registros que se van a agrupar.
Cantidad de tareas del reductor
La cantidad de tareas del reductor necesarias para agrupar los registros.
For a Spark job, to create a Group-By option pass the arguments:
Columna Agrupar por
El nombre de la columna que usa los registros que se van a agrupar.
Nota: Si no hay un grupo en la salida, entonces configure este parámetro en nulo. En este caso, todos los datos se consideran como un único grupo.
Configuración de Filter Define las condiciones de consolidación en función del trabajo que retiene uno o más registros de cada grupo.
Archivo de entrada For text files:
Ruta de acceso al archivo
La ruta del archivo de entrada en la plataforma Hadoop.
Separador de registro
El separador de registro que se usa en el archivo de entrada.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada.
Calificador de texto
El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado.
Campos de la fila del encabezado
Una serie de campos del encabezado del archivo de entrada.
Omitir la primera fila
Bandera para indicar si se debe omitir la primera fila mientras se leen los registros del archivo de entrada.

Debe configurarse como verdadero en caso de que la primera fila sea una fila del encabezado.

Atención: Invoke the appropriate constructor ofFilePath.
For ORC format files:
ORC File Path
La ruta del archivo de entrada en la plataforma Hadoop.
Common parameters:
Asignaciones de campos
A map of key value pairs, with the existing column names as the keys and the desired output column names as the values.
Archivo de salida For text files:
Ruta de acceso al archivo
La ruta del archivo de entrada en la plataforma Hadoop.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada.
Atención: Invoke the appropriate constructor ofFilePath.
For ORC format files:
ORC File Path
The path of the output ORC format file on the Hadoop platform.
Common parameters:
Sobrescribir
Bandera para indicar si el archivo de salida debe sobrescribir el archivo existente del mismo nombre.
Crear encabezado de salida
Bandera para indicar si el archivo del encabezado se debe crear en el servidor Hadoop o no.
Nombre de trabajo El nombre del trabajo.
Comprimir el resultado Bandera para indicar si el resultado se debe comprimir.

Configure en verdadero para comprimir el resultado.