Uso de un trabajo MapReduce de Duplicate Synchronization

Cree una instancia de AdvanceMatchFactory con su método estático getInstance().

Proporcione los detalles de entrada y salida del trabajo Duplicate Synchronization mediante la creación de una instancia de DuplicateSyncDetail que especifique el ProcessType. La instancia debe usar el tipo MRProcessType.

Especifique la columna con la cual se agruparán los registros creando una instancia de GroupbyOption.
Utilice una instancia de GroupbyMROption para especificar la columna por grupo y la cantidad de reductores que se necesitan.
Genere las condiciones de consolidación para el trabajo mediante la creación de una instancia de DuplicateSynchronizationConfiguration. Dentro de esta instancia, defina las condiciones de consolidación mediante el uso de las instancias de ConsolidationCondition y la conexión de las condiciones con el uso de operadores lógicos.
Cada instancia deConsolidationCondition se define con el uso de una instancia ConsolidationRule y su instancia ConsolidationAction correspondiente.
Nota: Cada instancia deConsolidationRule puede definirse con el uso de una instancia única de SimpleRule o con el uso de una jerarquía de instancias secundarias SimpleRule y de instancias anidadasConjoinedRule unidas con los operadores lógicos. Consulte Enum JoinType y Enum Operation.
Cree una instancia de DuplicateSyncDetail pasando una instancia del tipo JobConfig, la instancia GroupbyOption creada y la instancia DuplicateSynchronizationConfiguration creada anteriormente como los argumentos para su constructor.
El parámetro JobConfig debe ser una instancia de tipo MRJobConfig.
Establezca los detalles del archivo de entrada mediante el campo inputPath de la instancia DuplicateSyncDetail.
Para un archivo de entrada de texto, cree una instancia de FilePath con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia de OrcFilePath con la ruta del archivo de entrada ORC como argumento.
Establezca los detalles del archivo de salida mediante el campo outputPath de la instancia DuplicateSyncDetail.
For a text output file, create an instance ofFilePath with the relevant details of the output file by invoking the appropriate constructor. For an ORC output file, create an instance of OrcFilePath with the path of the ORC output file as the argument.
Establezca el nombre del trabajo mediante el campo jobName de la instancia DuplicateSyncDetail.
Establezca la bandera compressOutput de la instancia DuplicateSyncDetail en verdadero para comprimir la salida del trabajo.

Cree el trabajo usando la instancia anteriormente creada de AdvanceMatchFactory para invocar su método createJob(). Aquí, pase la instancia anterior de DuplicateSyncDetail como un argumento.

El método createJob() devuelve una List de instancias de ControlledJob.

Ejecute el trabajo creado con el uso de una instancia de JobControl.

Para mostrar que los contadores de informes publican una ejecución de trabajo MapReduce exitosa, use la instancia creada anteriormente AdvanceMatchFactory para invocar su método getCounters(), mediante el paso de un trabajo creado como un argumento.