Uso de un trabajo MapReduce de Interflow Match

  1. Cree una instancia de AdvanceMatchFactory con su método estático getInstance().
  2. Proporcione los detalles de entrada y salida del trabajo Interflow Match mediante la creación de una instancia de InterMatchDetail que especifique el ProcessType. La instancia debe usar el tipo MRProcessType.
    1. Especifique la columna con la cual se agruparán los registros creando una instancia de GroupbyOption.
      Utilice una instancia de GroupbyMROption para especificar la columna por grupo y la cantidad de reductores que se necesitan.
    2. Genere las reglas de cruce para el trabajo creando una instancia de MatchRule.
    3. Cree una instancia de InterMatchDetail pasando una instancia del tipo JobConfig, la instancia GroupbyOption creada y la instancia MatchRule creada anteriormente como los argumentos para su constructor.
      El parámetro JobConfig debe ser una instancia de tipo MRJobConfig.
    4. Establezca los detalles del archivo candidato mediante el campo candidateFilePath de la instancia InterMatchDetail.
      Para un archivo candidato de texto, cree una instancia de FilePath con los detalles relevantes del archivo candidato mediante la invocación del constructor apropiado. Para un archivo candidato ORC, cree una instancia de OrcFilePath con la ruta del archivo candidato ORC como argumento.
    5. Establezca los detalles del archivo sospechoso mediante el campo suspectFilePath de la instancia InterMatchDetail.
      Para un archivo sospechoso de texto, cree una instancia de FilePath con los detalles relevantes del archivo sospechoso mediante la invocación del constructor apropiado. Para un archivo sospechoso ORC, cree una instancia de OrcFilePath con la ruta del archivo sospechoso ORC como argumento.
      Importante: Los archivos sospechoso y candidato deben tener el mismo formato. Ambos deben ser archivos de texto o ambos deben ser archivos de formato ORC.
    6. Establezca los detalles del archivo de salida mediante el campo outputPath de la instancia InterMatchDetail.
      Para un archivo de salida de texto, cree una instancia de FilePath con los detalles relevantes del archivo de salida mediante la invocación del constructor apropiado. Para un archivo de salida ORC, cree una instancia de OrcFilePath con la ruta del archivo de salida ORC como argumento.
    7. Establezca el nombre del trabajo mediante el campo jobName de la instancia InterMatchDetail.
    8. Establezca la columna Cruce inmediato con el campo expressMatchColumn de la instancia InterMatchDetail, de ser necesario.
    9. Establezca la bandera collectionNumberZerotoUniqueRecords de la instancia InterMatchDetail en verdadero para asignar el número de colección 0 (cero) a un registro único. El valor predeterminado es verdadero.
      Si no desea asignar el número de colección cero a registros únicos, establezca esta bandera en falso.
    10. Establezca la opción de comparación con el uso del campo comparisonOption de la instancia InterMatchDetail. En este campo, establezca el valor solicitado utilizando la clase InterMatchComparisonOption para seleccionar una de las dos opciones:
      • Comparar el registro sospechoso con todos los registros candidatos: especifica si los registros únicos se deben mostrar en los resultados o no.
      • Comparar el registro sospechoso con el registro candidato seleccionado solamente: especifica la cantidad máxima de registros duplicados que se deben buscar y devolver.
    11. Establezca la bandera compressOutput de la instancia InterMatchDetail en verdadero para comprimir la salida del trabajo.
    12. Si los datos de entrada no tienen clave de cruce, debe especificar las configuraciones de clave de cruce para ejecutar, en primer lugar, el trabajo de Match Key Generator a fin de generar las claves de cruce antes de ejecutar el trabajo Interflow Match.
      Para generar las claves de cruce de los datos de entrada, especifique las configuraciones de clave de cruce creando y configurando una instancia de MatchKeySettings para generar una clave de cruce antes de realizar el trabajo Interflow Match. Establezca esta instancia mediante el campo matchKeySettings de la instancia InterMatchDetail.
      Nota: Para averiguar cómo ajustar la configuración de claves de cruce, consulte las muestras de códigos.
  3. Para crear un trabajo MapReduce, utilice la instancia anteriormente creada de AdvanceMatchFactory para invocar el métodocreateJob(). Aquí, pase la instancia anterior de InterMatchDetail como un argumento.
    El método createJob() crea un trabajo y devuelve unaList de las instancias de ControlledJob.
  4. Ejecute el trabajo creado con el uso de una instancia de JobControl.
  5. Para mostrar que los contadores de informes publican una ejecución de trabajo MapReduce exitosa, use la instancia creada anteriormente AdvanceMatchFactory para invocar su método getCounters(), mediante el paso de un trabajo creado como un argumento.