Parámetros de entrada

Parámetro	Descripción
Opción Agrupar por	Para un trabajo MapReduce, use los argumentos: Columna Agrupar por El nombre de la columna con la que agrupará los registros. Cantidad de tareas del reductor La cantidad de tareas del reductor requeridas para agrupar los registros. Para un trabajo Spark, para crear una opción Agrupar por, use los argumentos: Columna Agrupar por El nombre de la columna con la que agrupará los registros.
Regla de cruce	Defina tantas reglas primarias y secundarias como sea necesario para crear un objeto `MatchRule`. Para obtener más información, consulte MatchRule.
Archivo de entrada	For text files: Ruta de acceso al archivo La ruta del archivo de entrada en la plataforma Hadoop. Separador de registro El separador de registro que se usa en el archivo de entrada. Separador de campo El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada. Calificador de texto El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado. Campos de la fila del encabezado Una serie de campos del encabezado del archivo de entrada. Omitir la primera fila Bandera para indicar si se debe omitir la primera fila mientras se leen los registros del archivo de entrada. Debe configurarse como `verdadero` en caso de que la primera fila sea una fila del encabezado. Atención: Invoke the appropriate constructor of`FilePath`. For ORC format files: ORC File Path La ruta del archivo de entrada en la plataforma Hadoop. Common parameters: Asignaciones de campos A map of key value pairs, with the existing column names as the keys and the desired output column names as the values.
Archivo de salida	For text files: Ruta de acceso al archivo La ruta del archivo de entrada en la plataforma Hadoop. Separador de campo El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada. Atención: Invoke the appropriate constructor of`FilePath`. For ORC format files: ORC File Path The path of the output ORC format file on the Hadoop platform. Common parameters: Sobrescribir Bandera para indicar si el archivo de salida debe sobrescribir el archivo existente del mismo nombre. Crear encabezado de salida Bandera para indicar si el archivo del encabezado se debe crear en el servidor Hadoop o no.
Configuraciones de trabajo	Las configuraciones de Hadoop para el trabajo. Para un trabajo MapReduce, la instancia debe ser del tipo MRJobConfig. Para un trabajo Spark, la instancia debe ser del tipo SparkJobConfig.
Nombre de trabajo	El nombre del trabajo.
Columna de cruce inmediato	El nombre de la columna que se usará para el cruce inmediato de registros.
Configuración del número de colección de registros únicos en cero	Configure en `verdadero` para establecer el número de colección de registros únicos en 0 (cero).
Comprimir el resultado	Bandera para indicar si el resultado se debe comprimir. Configure en `verdadero` para comprimir el resultado.
Configuración de claves de cruce	Una combinación de las columnas y los algoritmos que se aplicarán para generar la clave de cruce necesaria para realizar el cruce. Nota: Especifique solo una clave de cruce. Atención: Establezca las configuraciones de la clave de cruce solo si desea generar una clave de cruce antes de realizar el cruce.