Parámetros de entrada

Parámetro Descripción
Opción Agrupar por Para un trabajo MapReduce, use los argumentos:
Columna Agrupar por
El nombre de la columna con la que agrupará los registros.
Cantidad de tareas del reductor
La cantidad de tareas del reductor requeridas para agrupar los registros.
Para un trabajo Spark, para crear una opción Agrupar por, use los argumentos:
Columna Agrupar por
El nombre de la columna con la que agrupará los registros.
Regla de cruce Defina tantas reglas primarias y secundarias como sea necesario para crear un objeto MatchRule.

Para obtener más información, consulte MatchRule.

Archivo candidato Para archivos de texto:
Ruta de acceso al archivo
La ruta del archivo de texto candidato en la plataforma Hadoop.
Separador de registro
El separador de registro que se usa en el archivo candidato.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo candidato.
Calificador de texto
El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado.
Campos de la fila del encabezado
Una serie de campos de encabezado del archivo candidato.
Omitir la primera fila
Bandera para indicar si se debe omitir la primera fila mientras se leen los registros del archivo sospechoso.

Debe configurarse como verdadero en caso de que la primera fila sea una fila del encabezado.

Atención: Invoque al constructor apropiado de FilePath.
Para archivos de formato ORC:
Ruta de archivo ORC
La ruta del archivo de formato ORC de entrada en la plataforma Hadoop.
Importante: Los archivos sospechoso y candidato deben tener el mismo formato. Ambos deben ser archivos de texto o ambos deben ser archivos de formato ORC.
Parámetros comunes:
Asignaciones de campos
Un mapa de pares de clave/valor, con los nombres de las columnas existentes como las claves y los nombres de las columnas de salida deseadas como los valores.
Archivo sospechoso Para archivos de texto:
Ruta de acceso al archivo
La ruta del archivo de texto sospechoso en la plataforma Hadoop.
Separador de registro
El separador de registro que se usa en el archivo sospechoso.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo sospechoso.
Calificador de texto
El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado.
Campos de la fila del encabezado
Una serie de campos de encabezado del archivo sospechoso.
Omitir la primera fila
Bandera para indicar si se debe omitir la primera fila mientras se leen los registros del archivo sospechoso.

Debe configurarse como verdadero en caso de que la primera fila sea una fila del encabezado.

Atención: Invoque al constructor apropiado de FilePath.
Para archivos de formato ORC:
Ruta de archivo ORC
La ruta del archivo de formato ORC de entrada en la plataforma Hadoop.
Parámetros comunes:
Asignaciones de campos
Un mapa de pares de clave/valor, con los nombres de las columnas existentes como las claves y los nombres de las columnas de salida deseadas como los valores.
Archivo de salida For text files:
Ruta de acceso al archivo
La ruta del archivo de entrada en la plataforma Hadoop.
Separador de campo
El separador que se usa entre dos campos consecutivos de un registro en el archivo de entrada.
Atención: Invoke the appropriate constructor ofFilePath.
For ORC format files:
ORC File Path
The path of the output ORC format file on the Hadoop platform.
Common parameters:
Sobrescribir
Bandera para indicar si el archivo de salida debe sobrescribir el archivo existente del mismo nombre.
Crear encabezado de salida
Bandera para indicar si el archivo del encabezado se debe crear en el servidor Hadoop o no.
Configuraciones de trabajo Las configuraciones de Hadoop para el trabajo.

Para un trabajo MapReduce, la instancia debe ser del tipo MRJobConfig. Para un trabajo Spark, la instancia debe ser del tipo SparkJobConfig.

Configuración de claves de cruce Una combinación de las columnas y los algoritmos que se aplicarán para generar la clave de cruce necesaria para realizar el cruce.
Nota: Especifique solo una clave de cruce.
Atención: Establezca las configuraciones de la clave de cruce solo si desea generar una clave de cruce antes de realizar el cruce.
Nombre de trabajo El nombre del trabajo.
Columna de cruce inmediato El nombre de la columna que se usará para el cruce inmediato de registros.
Configuración del número de colección de registros únicos en cero Configure en verdadero para establecer el número de colección de registros únicos en 0 (cero).
Opción de comparación Le permite seleccionar una de las dos opciones:
  • Comparar el registro sospechoso con todos los registros candidatos: especifica si los registros únicos se deben mostrar en los resultados o no.
  • Comparar el registro sospechoso con el registro candidato seleccionado solamente: especifica la cantidad máxima de registros duplicados que se deben buscar y devolver.
Comprimir el resultado Bandera para indicar si el resultado se debe comprimir.

Configure en verdadero para comprimir el resultado.